Liste des jeux de données composés

2019er mars 9

Répertoriez les ensembles de données d'apprentissage automatique et de chimio-informatique que vous pourriez utiliser ultérieurement pour vous entraîner.

DB composé

Un groupe de bases de données contenant des informations structurelles de composés.

PubChem

PubChem est l'une des bases de données de molécules chimiques.
Des millions d'ensembles de données de structure et de description composés peuvent être téléchargés via FTP. Il y a moins de 1000 atomes et 1000 liaisons accumulés dans PubChem.
Plus de 80 sources de bases de données contribuent à la croissance de PubChem.

wikipedia

https://pubchem.ncbi.nlm.nih.gov/

CheEMBL

Une base de données de médicaments et de leurs composés candidats.Actuellement, des données d'activité de 180 million de composés et 1500 millions de cas sont enregistrées.54 sous-ensembles de données de diverses données de dépistage et d'analyse semblent être faciles à utiliser.

https://www.ebi.ac.uk/chembl/

Base de données ZINC15

Un ensemble de données de composés organiques de type médicament contenant des informations 3D, initialement développé pour le criblage virtuel par des calculs d'ancrage. Plus de 7 millions de structures sont répertoriées.

http://zinc15.docking.org/
Documents connexes:ZINC 15 - Ligand Discovery pour tous

Jeu de données Platinum

Un ensemble de données qui doit générer (calculer) une conformation d'un composé avant la simulation d'amarrage et qui est utilisé comme référence pour vérifier l'exactitude de cette conformation.Les espèces composées contenues sont des ligands de liaison aux protéines, inférieurs à 5000.

Bien qu'il s'agisse d'un petit ensemble de données, il semble riche en diversité structurelle.Ce n'est pas trop lourd et semble être idéal pour la pratique. Vous pouvez également le télécharger et l'utiliser avec rdkit.

http://biosig.unimelb.edu.au/platinum/
Documents connexes:Ensemble de données de haute qualité sur les conformations de ligands liés aux protéines et son application à l'analyse comparative des générateurs d'ensembles de conformité
Articles de référence japonais : Paper Memo – Benchmarking Commercial Conformer Ensemble Generators

Ensemble de données composé

Un ensemble de données contenant une variable objective telle qu'un composé et sa valeur d'activité.

Tox21

Ensemble de données pour le concours Tox21 Data Challenge 2014, parrainé par les National Institutes of Health (NIH), l'Environmental Protection Agency (EPA) des États-Unis et la Food and Drug Administration (FDA) des États-Unis pour rivaliser pour la précision de la prédiction de la toxicité basée sur les produits chimiques formules structurelles.

Gènes rapporteurs des récepteurs nucléaires (ER, AR, aromatase, etc.), réponse au stress (p53, SONT,  HSEAutres) les résultats des tests sont inclus.

Filet de molécule

MoleculeNet est un ensemble de données de référence conçu pour tester les prédictions de propriétés moléculaires par apprentissage automatique.Il est basé sur plusieurs bases de données publiques et contient les ensembles de données suivants :

  • QM7, QM8, QM9: Ensemble de données résumant la structure chimique et la valeur de sortie du calcul de la chimie quantique
  • Solubilité dans l'eau, logP
  • Inhibition de la réplication du VIH, inhibition de la β-sécrétase humaine, etc.
  • Perméabilité de la barrière hémato-encéphalique, base de données des médicaments en vente libre et des effets secondaires, Tox21, ToxCast, etc.

kaggle: Prédire les propriétés moléculaires

Ensemble de données de constantes de couplage entre deux atomes utilisés dans la compétition Kaggle..Données données en coordonnées xyz du composé (environ 13 450 composés, XNUMX millions de combinaisons atomiques et constantes de couplage).

Autres références

Certains des ensembles de données ci-dessus sont intégrés dans les cadres d'apprentissage profond "Deep Chem" et "Chainer chemistory" pour les domaines de la chimie et de la biologie. Deep Chem prend en charge Molecule net, la chimie Chainer prend en charge Molecule net, QM9, Tox21 et Zinc.

Il y avait aussi un site comme celui-ci qui compilait une liste de bases de données sur les sciences de la vie.Non seulement des composés, mais aussi des génomes et des organismes.
Catalogue de base de données Integbio

J'ai participé au concours kaggle "Predicting Molecular Properties", mais il a fallu beaucoup de temps pour calculer avec d'énormes données (300 Mo ou plus avec des fonctionnalités ajoutées), et j'ai eu du mal.En pratiquant la visualisation de données composées, l'établissement et la vérification de modèles d'apprentissage automatique, j'ai senti que Molecule net, Tox21 ou plutôt LogP serait suffisant.