Liste der zusammengesetzten Datensätze

2019/9/13

Listen Sie die Datensätze für maschinelles Lernen und Chemoinformatik auf, die Sie später zum Üben verwenden können.

Zusammengesetzte Datenbank

Eine Gruppe von Datenbanken, die Strukturinformationen von Verbindungen enthalten.

PubChem

PubChem ist eine der Datenbanken für chemische Moleküle.
Millionen von zusammengesetzten Struktur- und Beschreibungsdatensätzen können über FTP heruntergeladen werden. In PubChem sind weniger als 1000 Atome und 1000 Bindungen akkumuliert.
Mehr als 80 Datenbankquellen tragen zum Wachstum von PubChem bei.

wikipedia

https://pubchem.ncbi.nlm.nih.gov/

CheEMBL

Eine Datenbank mit Arzneimitteln und ihren Wirkstoffkandidaten.Derzeit werden Aktivitätsdaten von 180 Millionen Verbindungen und 1500 Millionen Fällen aufgezeichnet.54 Unterdatensätze verschiedener Screening- und Assay-Daten scheinen einfach zu verwenden zu sein.

https://www.ebi.ac.uk/chembl/

ZINC15-Datenbank

Ein Datensatz von arzneimittelähnlichen organischen Verbindungen mit 3D-Informationen, der ursprünglich für das virtuelle Screening durch Docking-Berechnungen entwickelt wurde. Mehr als 7 Millionen Strukturen sind aufgeführt.

http://zinc15.docking.org/
Verwandte Artikel:ZINC 15 - Ligandenentdeckung für alle

Platin-Datensatz

Ein Datensatz, der vor der Docking-Simulation eine Konformation einer Verbindung generieren (berechnen) muss und als Benchmark zur Überprüfung der Genauigkeit dieser Konformation verwendet wird.Die enthaltenen Verbindungsspezies sind Protein-bindende Liganden, weniger als 5000.

Obwohl es sich um einen kleinen Datensatz handelt, scheint er reich an struktureller Vielfalt zu sein.Es ist nicht zu schwer und scheint ideal zum Üben zu sein. Sie können es auch herunterladen und mit rdkit verwenden.

http://biosig.unimelb.edu.au/platinum/
Verwandte Artikel:Hochwertiger Datensatz proteingebundener Ligandenkonformationen und seine Anwendung auf das Benchmarking von Konformer-Ensemble-Generatoren
Japanische Referenzartikel: Paper Memo – Benchmarking kommerzieller Conformer Ensemble Generatoren

Zusammengesetzter Datensatz

Ein Datensatz, der eine objektive Variable wie eine Verbindung und ihren Aktivitätswert enthält.

Gift21

Datensatz für den Wettbewerb Tox21 Data Challenge 2014, der von den National Institutes of Health (NIH), der US-amerikanischen Umweltschutzbehörde (EPA) und der US-amerikanischen Gesundheitsbehörde FDA (Food and Drug Administration) gesponsert wird, um um die Genauigkeit der auf Chemikalien basierenden Toxizitätsvorhersage zu konkurrieren Strukturformeln.

Kernrezeptor-Reportergene (ER, AR, Aromatase usw.), Stressantwort (p53, SIND,  HSEAndere) Testergebnisse sind enthalten.

Molekülnetz

MoleculeNet ist ein Benchmark-Datensatz, der entwickelt wurde, um Vorhersagen von molekularen Eigenschaften durch maschinelles Lernen zu testen.Es basiert auf mehreren öffentlichen Datenbanken und enthält die folgenden Datensätze:

  • QM7, QM8, QM9: Datensatz, der die chemische Struktur und den Ausgabewert der quantenchemischen Berechnung zusammenfasst
  • Wasserlöslichkeit, logP
  • Hemmung der HIV-Replikation, Hemmung der menschlichen β-Sekretase usw.
  • Durchlässigkeit der Blut-Hirn-Schranke, Datenbank mit rezeptfreien Arzneimitteln und Nebenwirkungen, Tox21, ToxCast usw.

kaggle: Vorhersage molekularer Eigenschaften

Datensatz von Kopplungskonstanten zwischen zwei Atomen, die im Kaggle-Wettbewerb verwendet wurden..In den xyz-Koordinatendaten der Verbindung angegeben (etwa 13 Verbindungen, 450 Millionen Atomkombinationen und Kopplungskonstanten).

Weitere Referenzen

Einige der oben genannten Datensätze sind in die Deep-Learning-Frameworks "Deep Chem" und "Chainer Chemistory" für die Bereiche Chemie und Biologie integriert. Deep Chem unterstützt Molecule Net, Chainer Chemistry unterstützt Molecule Net, QM9, Tox21 und Zink.

Es gab auch eine Site wie diese, die eine Liste von Life-Science-Datenbanken zusammenstellte.Nicht nur Verbindungen, sondern auch Genome und Organismen.
Integbio-Datenbankkatalog

Ich habe am Kaggle-Wettbewerb "Predicting Molecular Properties" teilgenommen, aber es hat lange gedauert, mit riesigen Datenmengen (300 MB oder mehr mit hinzugefügten Funktionen) zu rechnen, und es fiel mir schwer.Beim Üben der Visualisierung zusammengesetzter Daten, der Erstellung und Überprüfung von Modellen für maschinelles Lernen war ich der Meinung, dass Molecule net, Tox21 bzw. LogP überhaupt ausreichen würden.