화합물 데이터 세트 목록

2019/9/13

나중에 연습용으로 사용할 수 있을 것 같은 기계 학습이나 케모 인포매틱스의 데이터 세트를 리스트 업 해 둔다.

화합물 DB

화합물의 구조 정보를 포함하는 데이터베이스 그룹.

PubChem

PubChem은 화학 분자 데이터베이스 중 하나입니다.
수백만 개의 화합물 구조 및 설명 데이터 세트를 FTP를 통해 다운로드 할 수 있습니다. PubChem에 통합된 것은 1000 원자와 1000 결합보다 적은 작은 분자이다.
80개 이상의 데이터베이스 공급자가 PubChem의 증가에 기여하고 있다.

위키 백과

https://pubchem.ncbi.nlm.nih.gov/

CheEMBL

의약품 및 그 후보 화합물의 데이터베이스.현재는 180만 화합물, 1500만 예의 활성 데이터가 수록되어 있다.다양한 스크리닝과 분석 데이터를 정리한 54개의 서브데이터 세트가 사용하기 쉽다.

https://www.ebi.ac.uk/chembl/

ZINC15 데이터베이스

원래는 도킹 계산에 의한 가상 스크리닝을 위해 개발된 3D 정보를 포함하는 drug-like 유기 화합물의 데이터 세트입니다. 7억 이상의 구조가 게재되고 있다.

http://zinc15.docking.org/
관련 논문:ZINC 15 – Ligand Discovery for Everyone

Platinum dataset

도킹 시뮬레이션의 전 단계에서 화합물의 입체형태를 생성(계산)할 필요가 있지만, 그 형태의 정밀도 검증을 위해 벤치마크용으로 사용되는 데이터세트.포함 된 화합물 종은 단백질 결합 리간드이며 약 5000 개.

작은 dataset이지만 구조 다양성이 풍부한 것 같습니다.너무 무겁지 않고 연습용으로 최적인 것 같다. rdkit에서도 다운로드하여 사용할 수 있다.

http://biosig.unimelb.edu.au/platinum/
관련 논문:High-Quality Dataset of Protein-Bound Ligand Conformations and Its Application to Benchmarking Conformer Ensemble Generators
한국어 참고 기사: 논문 메모 – Benchmarking Commercial Conformer Ensemble Generators

화합물 데이터 세트

화합물 및 그의 활성 값과 같은 임의의 목적 변수를 포함하는 데이터 세트.

Tox21

미국 국립위생연구소(NIH), 미국 환경보호청(EPA), 미국 식품의약국(FDA) 주최의 화학구조식에 근거한 독성 예측의 정밀도를 겨루는 대회 「Tox21 Data Challenge 2014」의 데이터 세트.

핵 수용체 리포터 유전자 (ER, AR, aromatase 등), 스트레스 반응 (p53, ARE,  HSE기타)의 분석 결과를 포함한다.

Molecule net

MoleculeNet은 기계 학습을 통한 분자 특성 예측을 테스트하기 위해 설계된 벤치마크용 데이터 세트입니다.다수의 공용 데이터베이스를 기반으로 하며, 다음 데이터 세트를 포함한다.

  • QM7, QM8, QM9: 화학 구조와 양자 화학 계산 출력 값을 결합한 데이터 세트
  • 수용성, logP
  • HIV 복제 억제, 인간 β-세크레타제 억제 등
  • 혈액뇌 장벽 투과성, 시판약과 부작용의 데이터베이스, Tox21, ToxCast 등

kaggle: Predicting Molecular Properties

kaggle 경쟁에서 사용 된 두 원자 간의 커플 링 상수 데이터 세트.화합물의 xyz 좌표 데이터로 주어진다(약 13만 화합물, 450만 원자 조합 및 커플링 상수).

기타 참고

화학·생물 분야를 위한 심층 학습 프레임워크 'DeepChem'과 'Chainer chemistory'에는 상기 데이터 세트의 일부가 통합되어 있다. DeepChem은 Molecule net, Chainer chemistry는 Molecule net, QM9, Tox21, Zinc가 지원된다.

또, 생명 과학계의 데이터베이스 일람을 정리한 이런 사이트도 있었다.화합물뿐만 아니라 게놈과 생물에 대해서도 있습니다.
Integbio 데이터베이스 카탈로그

kaggle의 대회 'Predicting Molecular Properties'에 참가했지만 거대한 데이터(특징량도 추가하면 300MB 이상)에서는 계산에 시간이 걸려 고생했습니다.화합물 데이터의 가시화·기계 학습 모델의 확립·검증 등 연습하는 경우, Molecule net , Tox21당, 오히려 LogP에서도 전혀 충분하지 않을까 하는 생각이 들었습니다.