Lista de conjuntos de datos compuestos
Enumere los conjuntos de datos de quimioinformática y aprendizaje automático que podría usar para practicar más adelante.
DB compuesto
Un grupo de bases de datos que contienen información estructural de compuestos.
PubChem
PubChem es una de las bases de datos de moléculas químicas.
Wikipedia
Se pueden descargar millones de conjuntos de datos de descripción y estructura compuesta a través de FTP. Hay menos de 1000 átomos y 1000 enlaces acumulados en PubChem.
Más de 80 fuentes de bases de datos están contribuyendo al crecimiento de PubChem.
https://pubchem.ncbi.nlm.nih.gov/
CheEMBL
Una base de datos de medicamentos y sus compuestos candidatos.Actualmente, se registran datos de actividad de 180 millones de compuestos y 1500 millones de casos.54 subconjuntos de datos de diversos datos de detección y análisis parecen ser fáciles de usar.
Base de datos ZINC15
Un conjunto de datos de compuestos orgánicos similares a fármacos que contienen información 3D, desarrollado originalmente para la detección virtual mediante cálculos de acoplamiento. Se enumeran más de 7 millones de estructuras.
http://zinc15.docking.org/
Papeles relacionados:ZINC 15 - Descubrimiento de ligandos para todos
Conjunto de datos platino
Un conjunto de datos que necesita generar (calcular) una conformación de un compuesto antes de acoplar la simulación, y se utiliza como punto de referencia para verificar la precisión de esa conformación.Las especies de compuestos contenidas son ligandos de unión a proteínas, menos de 5000.
Aunque es un conjunto de datos pequeño, parece rico en diversidad estructural.No es demasiado pesado y parece ideal para practicar. También puede descargarlo y usarlo con rdkit.
http://biosig.unimelb.edu.au/platinum/
Papeles relacionados:Conjunto de datos de alta calidad de conformaciones de ligandos unidos a proteínas y su aplicación a la evaluación comparativa de generadores de conjuntos de conformadores
Artículos de referencia japoneses: Paper Memo - Evaluación comparativa de generadores de conjuntos de conformadores comerciales
Conjunto de datos compuesto
Un conjunto de datos que contiene alguna variable objetiva, como un compuesto y su valor de actividad.
toxina21
Conjunto de datos para la competencia Tox21 Data Challenge 2014, patrocinada por los Institutos Nacionales de Salud (NIH), la Agencia de Protección Ambiental de EE. UU. (EPA) y la Administración de Alimentos y Medicamentos de EE. UU. (FDA) para competir por la precisión en la predicción de toxicidad basada en sustancias químicas fórmulas estructurales.
Genes informadores de receptores nucleares (ER, AR, aromatasa, etc.), respuesta al estrés (p53, ESTÁN, HSESe incluyen otros) resultados del ensayo.
Red de moléculas
MoleculeNet es un conjunto de datos de referencia diseñado para probar las predicciones de propiedades moleculares mediante el aprendizaje automático.Se basa en varias bases de datos públicas y contiene los siguientes conjuntos de datos:
- QM7, QM8, QM9: Conjunto de datos que resume la estructura química y el valor de salida del cálculo de la química cuántica
- Solubilidad en agua, logP
- Inhibición de la replicación del VIH, inhibición de la β-secretasa humana, etc.
- Permeabilidad de la barrera hematoencefálica, base de datos de medicamentos de venta libre y efectos secundarios, Tox21, ToxCast, etc.
kaggle: Predicción de propiedades moleculares
Conjunto de datos de constantes de acoplamiento entre dos átomos utilizados en la competencia kaggle..Dados en los datos de la coordenada xyz del compuesto (alrededor de 13 compuestos, 450 millones de combinaciones atómicas y constantes de acoplamiento).
otras referencias
Algunos de los conjuntos de datos anteriores están integrados en los marcos de aprendizaje profundo "Deep Chem" y "Chainer chemistory" para los campos de la química y la biología. Deep Chem es compatible con Molecule net, la química Chainer es compatible con Molecule net, QM9, Tox21 y Zinc.
También había un sitio como este que compilaba una lista de bases de datos de ciencias biológicas.No solo compuestos, sino también genomas y organismos.
Catálogo de bases de datos Integbio
Participé en el concurso de kaggle "Predicción de propiedades moleculares", pero me tomó mucho tiempo calcular con datos enormes (300 MB o más con funciones agregadas) y lo pasé mal.Al practicar la visualización de datos compuestos, el establecimiento y la verificación de modelos de aprendizaje automático, sentí que Molecule net, Tox21 o más bien LogP serían suficientes.
discusión
Lista de Pingback y Trackback
[…] Lista de conjuntos de datos compuestos (Cuaderno de apuntes) […]