Liste des jeux de données composés
Répertoriez les ensembles de données d'apprentissage automatique et de chimio-informatique que vous pourriez utiliser ultérieurement pour vous entraîner.
DB composé
Un groupe de bases de données contenant des informations structurelles de composés.
PubChem
PubChem est l'une des bases de données de molécules chimiques.
wikipedia
Des millions d'ensembles de données de structure et de description composés peuvent être téléchargés via FTP. Il y a moins de 1000 atomes et 1000 liaisons accumulés dans PubChem.
Plus de 80 sources de bases de données contribuent à la croissance de PubChem.
https://pubchem.ncbi.nlm.nih.gov/
CheEMBL
Une base de données de médicaments et de leurs composés candidats.Actuellement, des données d'activité de 180 million de composés et 1500 millions de cas sont enregistrées.54 sous-ensembles de données de diverses données de dépistage et d'analyse semblent être faciles à utiliser.
Base de données ZINC15
Un ensemble de données de composés organiques de type médicament contenant des informations 3D, initialement développé pour le criblage virtuel par des calculs d'ancrage. Plus de 7 millions de structures sont répertoriées.
http://zinc15.docking.org/
Documents connexes:ZINC 15 - Ligand Discovery pour tous
Jeu de données Platinum
Un ensemble de données qui doit générer (calculer) une conformation d'un composé avant la simulation d'amarrage et qui est utilisé comme référence pour vérifier l'exactitude de cette conformation.Les espèces composées contenues sont des ligands de liaison aux protéines, inférieurs à 5000.
Bien qu'il s'agisse d'un petit ensemble de données, il semble riche en diversité structurelle.Ce n'est pas trop lourd et semble être idéal pour la pratique. Vous pouvez également le télécharger et l'utiliser avec rdkit.
http://biosig.unimelb.edu.au/platinum/
Documents connexes:Ensemble de données de haute qualité sur les conformations de ligands liés aux protéines et son application à l'analyse comparative des générateurs d'ensembles de conformité
Articles de référence japonais : Paper Memo – Benchmarking Commercial Conformer Ensemble Generators
Ensemble de données composé
Un ensemble de données contenant une variable objective telle qu'un composé et sa valeur d'activité.
Tox21
Ensemble de données pour le concours Tox21 Data Challenge 2014, parrainé par les National Institutes of Health (NIH), l'Environmental Protection Agency (EPA) des États-Unis et la Food and Drug Administration (FDA) des États-Unis pour rivaliser pour la précision de la prédiction de la toxicité basée sur les produits chimiques formules structurelles.
Gènes rapporteurs des récepteurs nucléaires (ER, AR, aromatase, etc.), réponse au stress (p53, SONT, HSEAutres) les résultats des tests sont inclus.
Filet de molécule
MoleculeNet est un ensemble de données de référence conçu pour tester les prédictions de propriétés moléculaires par apprentissage automatique.Il est basé sur plusieurs bases de données publiques et contient les ensembles de données suivants :
- QM7, QM8, QM9: Ensemble de données résumant la structure chimique et la valeur de sortie du calcul de la chimie quantique
- Solubilité dans l'eau, logP
- Inhibition de la réplication du VIH, inhibition de la β-sécrétase humaine, etc.
- Perméabilité de la barrière hémato-encéphalique, base de données des médicaments en vente libre et des effets secondaires, Tox21, ToxCast, etc.
kaggle: Prédire les propriétés moléculaires
Ensemble de données de constantes de couplage entre deux atomes utilisés dans la compétition Kaggle..Données données en coordonnées xyz du composé (environ 13 450 composés, XNUMX millions de combinaisons atomiques et constantes de couplage).
Autres références
Certains des ensembles de données ci-dessus sont intégrés dans les cadres d'apprentissage profond "Deep Chem" et "Chainer chemistory" pour les domaines de la chimie et de la biologie. Deep Chem prend en charge Molecule net, la chimie Chainer prend en charge Molecule net, QM9, Tox21 et Zinc.
Il y avait aussi un site comme celui-ci qui compilait une liste de bases de données sur les sciences de la vie.Non seulement des composés, mais aussi des génomes et des organismes.
Catalogue de base de données Integbio
J'ai participé au concours kaggle "Predicting Molecular Properties", mais il a fallu beaucoup de temps pour calculer avec d'énormes données (300 Mo ou plus avec des fonctionnalités ajoutées), et j'ai eu du mal.En pratiquant la visualisation de données composées, l'établissement et la vérification de modèles d'apprentissage automatique, j'ai senti que Molecule net, Tox21 ou plutôt LogP serait suffisant.
discussion
Liste de pingback et de trackback
[…] Liste des ensembles de données composés (NoteBook) […]