化合物数据集列表

2019年9月13日

列出您稍后可用于练习的机器学习和化学信息学数据集。

复合数据库

一组包含化合物结构信息的数据库。

PubChem数据库

PubChem是化学分子数据库之一。
数以百万计的化合物结构和描述数据集可以通过FTP下载。 PubChem中少于1000个原子和1000个键。
80多个数据库源为PubChem的发展做出了贡献。

维基百科

https://pubchem.ncbi.nlm.nih.gov/

奇姆

药物及其候选化合物的数据库。目前,已记录了180万种化合物和1500万例的活动数据。各种筛选和测定数据的54个子数据集似乎易于使用。

https://www.ebi.ac.uk/chembl/

ZINC15数据库

包含3D信息的类药物有机化合物的数据集,最初是为通过对接计算进行虚拟筛选而开发的。 列出了超过7亿个结构。

http://zinc15.docking.org/
相关论文:ZINC 15 –适合所有人的配体发现

白金数据集

一个数据集,需要在对接模拟之前生成(计算)化合物的构象,并用作基准以验证该构象的准确性。包含的化合物种类是少于5000的蛋白质结合配体。

尽管它是一个很小的数据集,但它似乎具有丰富的结构多样性。它不太沉重,似乎是练习的理想选择。 您也可以将其下载并与rdkit一起使用。

http://biosig.unimelb.edu.au/platinum/
相关论文:蛋白质结合的配体构象的高质量数据集及其在对标准共整合体生成器进行基准分析中的应用
日本参考文章:Paper Memo – 对商业 Conformer Ensemble Generators 进行基准测试

复合数据集

包含一些目标变量(例如化合物及其活性值)的数据集。

毒素21

由美国国立卫生研究院(NIH),美国环境保护署(EPA)和美国食品药品管理局(FDA)赞助的21年Tox2014数据挑战赛的数据集,旨在争夺基于化学物质的毒性预测的准确性结构式。

核受体报告基因(ER,AR,芳香酶等),应激反应(p53, 是,  HSE其他)测定结果也包括在内。

分子网

MoleculeNet 是一个基准数据集,旨在通过机器学习测试分子特性预测。它基于多个公共数据库,包含以下数据集:

  • QM7,QM8,QM9:概述化学结构和量子化学计算输出值的数据集
  • 水溶性,logP
  • HIV复制抑制,人β-分泌酶抑制等
  • 血脑屏障通透性,非处方药和副作用数据库,Tox21,ToxCast等。

kaggle:预测分子性质

kaggle竞赛中使用的两个原子之间的耦合常数数据集..在化合物的xyz坐标数据中给出(约13种化合物,450万个原子组合和耦合常数)。

其他参考

上述某些数据集已集成到用于化学和生物学领域的深度学习框架“ Deep Chem”和“ Chainer chemistory”中。 Deep Chem支持分子网,Chainer化学支持分子网,QM9,Tox21和Zinc。

还有一个类似这样的站点,它汇集了生命科学数据库的列表。不仅是化合物,而且还有基因组和生物。
Integbio数据库目录

我参加了kaggle竞赛“预测分子特性”,但是计算大量数据(添加了功能的300 MB或更多)花了很长时间,所以我很难过。在练习复合数据的可视化,建立和验证机器学习模型时,我觉得分子网,Tox21或LogP完全可以满足要求。