Lista de conjuntos de dados compostos

2019 ano 9 mês 13 dia

Liste os conjuntos de dados de aprendizado de máquina e quimioinformática que você pode usar para praticar mais tarde.

BD Composto

Um grupo de bancos de dados contendo informações estruturais de compostos.

PubChem

PubChem é um dos bancos de dados de moléculas químicas.
Milhões de estrutura composta e conjuntos de dados de descrição podem ser baixados via FTP. Existem menos de 1000 átomos e 1000 ligações acumuladas no PubChem.
Mais de 80 fontes de banco de dados estão contribuindo para o crescimento do PubChem.

wikipedia

https://pubchem.ncbi.nlm.nih.gov/

CheEMBL

Um banco de dados de drogas e seus compostos candidatos.Atualmente, são registrados dados de atividade de 180 milhão de compostos e 1500 milhões de casos.54 sub-conjuntos de dados de vários dados de triagem e ensaio parecem ser fáceis de usar.

https://www.ebi.ac.uk/chembl/

Banco de dados ZINC15

Um conjunto de dados de compostos orgânicos semelhantes a drogas contendo informações 3D, originalmente desenvolvido para triagem virtual por meio de cálculos de encaixe. Mais de 7 milhões de estruturas estão listadas.

http://zinc15.docking.org/
Artigos relacionados:ZINC 15 - Descoberta de ligantes para todos

Conjunto de dados Platinum

Um conjunto de dados que precisa gerar (calcular) uma conformação de um composto antes da simulação de encaixe e é usado como referência para verificar a precisão dessa conformação.As espécies de compostos contidos são ligantes de ligação a proteínas, menos de 5000.

Embora seja um pequeno conjunto de dados, parece ser rico em diversidade estrutural.Não é muito pesado e parece ser ideal para praticar. Você também pode fazer o download e usá-lo com o rdkit.

http://biosig.unimelb.edu.au/platinum/
Artigos relacionados:Conjunto de dados de alta qualidade de conformações de ligantes ligados a proteínas e sua aplicação para benchmarking de geradores de conjunto de conformadores
Artigos de referência japoneses: Memorando de papel - comparativo de geradores de conjunto de conformadores comerciais

Conjunto de dados compostos

Um conjunto de dados contendo alguma variável objetiva, como um composto e seu valor de atividade.

Tox21

Conjunto de dados para a competição Tox21 Data Challenge 2014, patrocinada pelo National Institutes of Health (NIH), a Agência de Proteção Ambiental dos EUA (EPA) e a Food and Drug Administration (FDA) dos EUA para competir pela precisão na previsão de toxicidade com base em produtos químicos fórmulas estruturais.

Genes repórter de receptor nuclear (ER, AR, aromatase, etc.), resposta ao estresse (p53, ESTÃO,  HSEOutros) os resultados do ensaio estão incluídos.

Rede de moléculas

MoleculeNet é um conjunto de dados de referência projetado para testar previsões de propriedades moleculares por aprendizado de máquina.É baseado em vários bancos de dados públicos e contém os seguintes conjuntos de dados:

  • QM7, QM8, QM9: Conjunto de dados resumindo a estrutura química e o valor de saída do cálculo da química quântica
  • Solubilidade em água, logP
  • Inibição da replicação do HIV, inibição da β-secretase humana, etc.
  • Permeabilidade da barreira hematoencefálica, banco de dados de medicamentos sem receita e efeitos colaterais, Tox21, ToxCast, etc.

kaggle: Predição de propriedades moleculares

Conjunto de dados de constantes de acoplamento entre dois átomos usados ​​na competição kaggle..Dados nos dados das coordenadas xyz do composto (cerca de 13 compostos, 450 milhões de combinações atômicas e constantes de acoplamento).

Outras referências

Alguns dos conjuntos de dados acima são integrados às estruturas de aprendizado profundo "Deep Chem" e "Chainer chemistory" para os campos de química e biologia. Deep Chem suporta rede Molecule, Química Chainer suporta rede Molecule, QM9, Tox21 e Zinc.

Havia também um site como este que compilava uma lista de bancos de dados de ciências da vida.Não apenas compostos, mas também genomas e organismos.
Catálogo de banco de dados Integbio

Eu participei da competição kaggle "Predicting Molecular Properties", mas demorou muito para calcular com dados enormes (300 MB ou mais com recursos adicionados), e eu tive dificuldades.Ao praticar a visualização de dados compostos, estabelecimento e verificação de modelos de aprendizado de máquina, eu senti que Molecule net, Tox21, ou melhor, LogP seria suficiente.