Elenco dei set di dati composti

2019 年 9 月 13 日

Elenca i set di dati di machine learning e chemioinformatica che potresti utilizzare per esercitarti in seguito.

DB composto

Un gruppo di database contenenti informazioni strutturali sui composti.

PubChem

PubChem è uno dei database delle molecole chimiche.
Milioni di set di dati di struttura e descrizione composti possono essere scaricati tramite FTP. Ci sono meno di 1000 atomi e 1000 legami accumulati in PubChem.
Più di 80 fonti di database stanno contribuendo alla crescita di PubChem.

wikipedia

https://pubchem.ncbi.nlm.nih.gov/

CheEMBL

Un database di farmaci e dei loro composti candidati.Attualmente vengono registrati dati di attività di 180 milioni di composti e 1500 milioni di casi.54 sotto-set di dati di vari dati di screening e analisi sembrano essere facili da usare.

https://www.ebi.ac.uk/chembl/

Database ZINC15

Un set di dati di composti organici simili a farmaci contenente informazioni 3D, originariamente sviluppato per lo screening virtuale mediante calcoli di docking. Sono elencate più di 7 milioni di strutture.

http://zinc15.docking.org/
Articoli correlati:ZINC 15 - Ligand Discovery for Everyone

Set di dati platino

Un set di dati che deve generare (calcolare) una conformazione di un composto prima della simulazione di attracco e viene utilizzato come punto di riferimento per verificare l'accuratezza di tale conformazione.Le specie composte contenute sono ligandi leganti le proteine, meno di 5000.

Sebbene sia un piccolo set di dati, sembra essere ricco di diversità strutturale.Non è troppo pesante e sembra essere l'ideale per la pratica. Puoi anche scaricarlo e usarlo con rdkit.

http://biosig.unimelb.edu.au/platinum/
Articoli correlati:Set di dati di alta qualità di conformazioni di leganti legati a proteine ​​e sua applicazione per il benchmarking di generatori di gruppi conformi
Articoli di riferimento giapponesi: Paper Memo – Benchmarking Commercial Conformer Ensemble Generators

Set di dati composto

Un set di dati contenente una variabile oggettiva come un composto e il suo valore di attività.

Tossico21

Set di dati per il concorso Tox21 Data Challenge 2014, sponsorizzato dal National Institutes of Health (NIH), dalla US Environmental Protection Agency (EPA) e dalla Food and Drug Administration (FDA) statunitense per competere per l'accuratezza nella previsione della tossicità basata su sostanze chimiche formule strutturali.

Geni reporter del recettore nucleare (ER, AR, aromatasi, ecc.), Risposta allo stress (p53, SIAMO,  HSEAltri) sono inclusi i risultati del test.

Rete di molecole

MoleculeNet è un set di dati di riferimento progettato per testare le previsioni delle proprietà molecolari mediante l'apprendimento automatico.Si basa su più database pubblici e contiene i seguenti set di dati:

  • QM7, QM8, QM9: Set di dati che riassume la struttura chimica e il valore di output del calcolo della chimica quantistica
  • Idrosolubilità, logP
  • Inibizione della replicazione dell'HIV, inibizione della β-secretasi umana, ecc.
  • Permeabilità della barriera emato-encefalica, database di farmaci da banco ed effetti collaterali, Tox21, ToxCast, ecc.

kaggle: Previsione delle proprietà molecolari

Set di dati delle costanti di accoppiamento tra due atomi utilizzati nella competizione kaggle..Dati nelle coordinate xyz dei dati del composto (circa 13 composti, 450 milioni di combinazioni atomiche e costanti di accoppiamento).

Altri riferimenti

Alcuni dei set di dati di cui sopra sono integrati nei framework di deep learning "Deep Chem" e "Chainer chemistory" per i campi della chimica e della biologia. Deep Chem supporta Molecule net, Chainer chemistry supporta Molecule net, QM9, Tox21 e Zinc.

C'era anche un sito come questo che compilava un elenco di database di scienze della vita.Non solo composti, ma anche genomi e organismi.
Catalogo database Integbio

Ho partecipato al concorso kaggle "Predicting Molecular Properties", ma ci è voluto molto tempo per calcolare con dati enormi (300 MB o più con funzionalità aggiunte), e ho avuto difficoltà.Quando mi esercitavo nella visualizzazione di dati composti, nell'istituzione e nella verifica di modelli di apprendimento automatico, ho sentito che Molecule net, Tox21, o meglio LogP, sarebbe stato sufficiente.