Lista de conjuntos de datos compuestos

2019/9/13

Enumere los conjuntos de datos de quimioinformática y aprendizaje automático que podría usar para practicar más adelante.

DB compuesto

Un grupo de bases de datos que contienen información estructural de compuestos.

PubChem

PubChem es una de las bases de datos de moléculas químicas.
Se pueden descargar millones de conjuntos de datos de descripción y estructura compuesta a través de FTP. Hay menos de 1000 átomos y 1000 enlaces acumulados en PubChem.
Más de 80 fuentes de bases de datos están contribuyendo al crecimiento de PubChem.

Wikipedia

https://pubchem.ncbi.nlm.nih.gov/

CheEMBL

Una base de datos de medicamentos y sus compuestos candidatos.Actualmente, se registran datos de actividad de 180 millones de compuestos y 1500 millones de casos.54 subconjuntos de datos de diversos datos de detección y análisis parecen ser fáciles de usar.

https://www.ebi.ac.uk/chembl/

Base de datos ZINC15

Un conjunto de datos de compuestos orgánicos similares a fármacos que contienen información 3D, desarrollado originalmente para la detección virtual mediante cálculos de acoplamiento. Se enumeran más de 7 millones de estructuras.

http://zinc15.docking.org/
Papeles relacionados:ZINC 15 - Descubrimiento de ligandos para todos

Conjunto de datos platino

Un conjunto de datos que necesita generar (calcular) una conformación de un compuesto antes de acoplar la simulación, y se utiliza como punto de referencia para verificar la precisión de esa conformación.Las especies de compuestos contenidas son ligandos de unión a proteínas, menos de 5000.

Aunque es un conjunto de datos pequeño, parece rico en diversidad estructural.No es demasiado pesado y parece ideal para practicar. También puede descargarlo y usarlo con rdkit.

http://biosig.unimelb.edu.au/platinum/
Papeles relacionados:Conjunto de datos de alta calidad de conformaciones de ligandos unidos a proteínas y su aplicación a la evaluación comparativa de generadores de conjuntos de conformadores
Artículos de referencia japoneses: Paper Memo - Evaluación comparativa de generadores de conjuntos de conformadores comerciales

Conjunto de datos compuesto

Un conjunto de datos que contiene alguna variable objetiva, como un compuesto y su valor de actividad.

toxina21

Conjunto de datos para la competencia Tox21 Data Challenge 2014, patrocinada por los Institutos Nacionales de Salud (NIH), la Agencia de Protección Ambiental de EE. UU. (EPA) y la Administración de Alimentos y Medicamentos de EE. UU. (FDA) para competir por la precisión en la predicción de toxicidad basada en sustancias químicas fórmulas estructurales.

Genes informadores de receptores nucleares (ER, AR, aromatasa, etc.), respuesta al estrés (p53, ESTÁN,  HSESe incluyen otros) resultados del ensayo.

Red de moléculas

MoleculeNet es un conjunto de datos de referencia diseñado para probar las predicciones de propiedades moleculares mediante el aprendizaje automático.Se basa en varias bases de datos públicas y contiene los siguientes conjuntos de datos:

  • QM7, QM8, QM9: Conjunto de datos que resume la estructura química y el valor de salida del cálculo de la química cuántica
  • Solubilidad en agua, logP
  • Inhibición de la replicación del VIH, inhibición de la β-secretasa humana, etc.
  • Permeabilidad de la barrera hematoencefálica, base de datos de medicamentos de venta libre y efectos secundarios, Tox21, ToxCast, etc.

kaggle: Predicción de propiedades moleculares

Conjunto de datos de constantes de acoplamiento entre dos átomos utilizados en la competencia kaggle..Dados en los datos de la coordenada xyz del compuesto (alrededor de 13 compuestos, 450 millones de combinaciones atómicas y constantes de acoplamiento).

otras referencias

Algunos de los conjuntos de datos anteriores están integrados en los marcos de aprendizaje profundo "Deep Chem" y "Chainer chemistory" para los campos de la química y la biología. Deep Chem es compatible con Molecule net, la química Chainer es compatible con Molecule net, QM9, Tox21 y Zinc.

También había un sitio como este que compilaba una lista de bases de datos de ciencias biológicas.No solo compuestos, sino también genomas y organismos.
Catálogo de bases de datos Integbio

Participé en el concurso de kaggle "Predicción de propiedades moleculares", pero me tomó mucho tiempo calcular con datos enormes (300 MB o más con funciones agregadas) y lo pasé mal.Al practicar la visualización de datos compuestos, el establecimiento y la verificación de modelos de aprendizaje automático, sentí que Molecule net, Tox21 o más bien LogP serían suficientes.