Lijst met samengestelde datasets

2019 年 9 月 13 日2021 年 8 月 28 日

Maak een lijst van de gegevenssets voor machine learning en chemo-informatica die u later zou kunnen gebruiken om te oefenen.

1. Samengestelde DB
2. Samengestelde dataset
3. Andere referenties

Samengestelde DB

Een groep databases met structurele informatie van verbindingen.

PubChem

PubChem is een van de databases met chemische moleculen.
Miljoenen samengestelde structuur- en beschrijvingsdatasets kunnen via FTP worden gedownload. Er zijn minder dan 1000 atomen en 1000 bindingen verzameld in PubChem.
Meer dan 80 databasebronnen dragen bij aan de groei van PubChem.
wikipedia

https://pubchem.ncbi.nlm.nih.gov/

CheEMBL

Een database met geneesmiddelen en hun kandidaat-verbindingen.Momenteel worden activiteitsgegevens van 180 miljoen verbindingen en 1500 miljoen gevallen geregistreerd.54 subdatasets van verschillende screening- en assaydata lijken gebruiksvriendelijk.

https://www.ebi.ac.uk/chembl/

ZINC15-database

Een dataset van medicijnachtige organische verbindingen met 3D-informatie, oorspronkelijk ontwikkeld voor virtuele screening door middel van docking-berekeningen. Er staan meer dan 7 miljoen bouwwerken op de lijst.

http://zinc15.docking.org/
Gerelateerde artikelen:ZINC 15 - Ligand-ontdekking voor iedereen

Platina-gegevensset

Een dataset die wordt gebruikt als een benchmark om de nauwkeurigheid van de conformatie van een compound te verifiëren, die moet worden gegenereerd (berekend) vóór de dockingsimulatie.De aanwezige verbindingen zijn eiwitbindende liganden, minder dan 5000.

Hoewel het een kleine dataset is, lijkt het rijk aan structurele diversiteit.Het is niet te zwaar en lijkt ideaal om te oefenen. U kunt het ook downloaden en gebruiken met rdkit.

http://biosig.unimelb.edu.au/platinum/
Gerelateerde artikelen:Hoogwaardige dataset van proteïnegebonden ligandconformaties en de toepassing ervan op benchmarkingconformer ensemble-generatoren
Japanse referentieartikelen: Paper Memo – Benchmarking van commerciële conformer-ensemblegeneratoren

Samengestelde dataset

Een gegevensset die een objectieve variabele bevat, zoals een verbinding en de activiteitswaarde ervan.

Tox21

Gegevensset voor de Tox21 Data Challenge 2014-wedstrijd, gesponsord door de National Institutes of Health (NIH), de US Environmental Protection Agency (EPA) en de US Food and Drug Administration (FDA) om te strijden om nauwkeurigheid bij het voorspellen van toxiciteit op basis van chemische stoffen structurele formules.

Nucleaire receptor reportergenen (ER, AR, aromatase, etc.), stressreactie (p53, ZIJN, HSEAndere) assayresultaten zijn inbegrepen.

Molecuul net

MoleculeNet is een benchmark-dataset die is ontworpen om voorspellingen van moleculaire eigenschappen te testen door machinaal leren.Het is gebaseerd op meerdere openbare databases en bevat de volgende datasets:

QM7, QM8, QM9: Gegevensset met een samenvatting van de chemische structuur en de outputwaarde van de kwantumchemieberekening
Oplosbaarheid in water, logP
Remming van hiv-replicatie, remming van menselijke β-secretase, enz.
Doorlaatbaarheid van de bloed-hersenbarrière, database met zelfzorggeneesmiddelen en bijwerkingen, Tox21, ToxCast, enz.

kaggle: het voorspellen van moleculaire eigenschappen

Dataset van koppelingsconstanten tussen twee atomen gebruikt in de kaggle-competitie..Gegeven in de xyz-coördinaatgegevens van de verbinding (ongeveer 13 verbindingen, 450 miljoen atoomcombinaties en koppelingsconstanten).

Andere referenties

Sommige van de bovenstaande datasets zijn geïntegreerd in de deep learning frameworks "Deep Chem" en "Chainer chemistory" voor de vakgebieden chemie en biologie. Deep Chem ondersteunt Molecule net, Chainer-chemie ondersteunt Molecule net, QM9, Tox21 en Zinc.

Er was ook een site als deze die een lijst met biowetenschappelijke databases samenstelde.Niet alleen verbindingen, maar ook genomen en organismen.
Integbio-databasecatalogus

Ik nam deel aan de kaggle-wedstrijd "Voorspellen van moleculaire eigenschappen", maar het kostte veel tijd om te rekenen met enorme gegevens (300 MB of meer met toegevoegde functies), en ik had het moeilijk.Bij het oefenen van visualisatie van samengestelde gegevens, het vaststellen en verifiëren van machine learning-modellen, voelde ik dat Molecule net, Tox21, of liever LogP überhaupt voldoende zou zijn.

機械学習,Cheminformatics,Wetenschap en technologie / natuurwetenschappen