化合物のデータセット一覧

2019年9月13日

後々練習用で使えそうな機械学習やケモインフォマティクスのデータセットをリストアップしておく。

化合物DB

化合物の構造情報を含むデータベース群。

PubChem

PubChemは、化学分子データベースの一つ。
数百万の化合物構造および記述のデータセットをFTP経由でダウンロードすることが可能である。PubChemに集積されているのは1000原子および1000結合より少ない小さな分子である。
80以上のデータベース供給元がPubChemの増大に寄与している。

wikipedia

https://pubchem.ncbi.nlm.nih.gov/

CheEMBL

医薬品やその候補化合物のデータベース。現在は、180万化合物、1500万例の活性データが収録されている。様々なスクリーニングやアッセイのデータをまとめた54のサブデータセットが使いやすそう。

https://www.ebi.ac.uk/chembl/

ZINC15データベース

もともとはドッキング計算によるバーチャルスクリーニングのための開発された、3D情報を含むdrug-likeな有機化合物のデータセット。7億以上の構造が掲載されている。

http://zinc15.docking.org/
関連論文:ZINC 15 – Ligand Discovery for Everyone

Platinum dataset

ドッキングシミュレーションの前段階で、化合物の立体配座を生成(計算)する必要があるが、その配座の精度検証のためにベンチマーク用として使われるデータセット。含まれている化合物種はタンパク質結合性リガンドで、5000個弱。

小さめのdatasetだが、構造多様性に富んでいるらしい。重すぎず練習用に最適そう。 rdkitでもダウンロードして使用できる。

http://biosig.unimelb.edu.au/platinum/
関連論文:High-Quality Dataset of Protein-Bound Ligand Conformations and Its Application to Benchmarking Conformer Ensemble Generators
日本語の参考記事: 論文メモ – Benchmarking Commercial Conformer Ensemble Generators

化合物データセット

化合物とその活性値等なんらかの目的変数を含むデータセット。

Tox21

米国国立衛生研究所(NIH)、 米国環境保護庁 (EPA)、米国食品医薬局(FDA) 主催の化学構造式に基づく毒性予 測の精度を競うコンペティション「 Tox21 Data Challenge 2014」のデータセット。

核内受容体レポーター遺伝子(ER, AR, aromatase他)、  ストレス応答(p53, ARE,  HSE他) のアッセイ結果を含む。

Molecule net

MoleculeNetは、機械学習による分子特性予測をテストするために設計されたベンチマーク用データセット。複数のパブリックデータベースに基づいており、以下のデータセットが含まれる。

  • QM7, QM8, QM9: 化学構造と量子化学計算出力値をまとめたデータセット
  • 水溶解度, logP
  • HIV複製阻害、 ヒトβ-セクレターゼ阻害など
  • 血液脳関門透過性、 市販薬と副作用のデータベース 、Tox21、ToxCastなど

kaggle:Predicting Molecular Properties

kaggleコンペにて使われた2原子間のカップリング定数のデータセット。化合物のxyz座標データで与えられている(約13万の化合物、450万の原子の組み合わせとカップリング定数)。

その他参考

化学・生物分野のための深層学習フレームワーク「DeepChem」と「Chainer chemistory」には上記データセットのいくつかが統合されている。 DeepChemはMolecule net、Chainer chemistryは Molecule net 、QM9、Tox21、Zincがサポートされている。

また、生命科学系のデータベース一覧をまとめたこんなサイトもあった。化合物だけでなく、ゲノムや生物に関してもある。
Integbioデータベースカタログ

kaggleのコンペ「Predicting Molecular Properties」に参加してましたが、巨大なデータ(特徴量も追加したら300 MB以上)では計算に時間もかかって苦労しました。 化合物データの可視化・機械学習モデルの確立・検証など練習する場合、Molecule net 、Tox21あたり、むしろLogPでも全然十分じゃないかという気がしました。