Daftar kumpulan data gabungan

2019 9 年 月 日 13

Buat daftar set data machine learning dan chemoinformatics yang dapat digunakan untuk latihan nanti.

Basis data gabungan

Sekelompok database yang berisi informasi struktur senyawa kimia.

PubChem

PubChem adalah salah satu database molekul kimia.
Kumpulan data dari jutaan struktur dan deskripsi gabungan dapat diunduh melalui FTP. PubChem mengintegrasikan molekul kecil dengan kurang dari 1000 atom dan 1000 ikatan.
Lebih dari 80 vendor database telah berkontribusi pada pertumbuhan PubChem.

wikipedia

https://pubchem.ncbi.nlm.nih.gov/

CheEMBL

Database obat-obatan dan senyawa kandidatnya.Saat ini, tercatat data aktivitas 180 juta senyawa dan 1500 juta kasus.54 subdataset yang meringkas data dari berbagai layar dan pengujian terlihat mudah digunakan.

https://www.ebi.ac.uk/chembl/

basis data ZINC15

Kumpulan data senyawa organik seperti obat yang berisi informasi 3D yang awalnya dikembangkan untuk penyaringan virtual dengan komputasi dok. Lebih dari 7 juta struktur terdaftar.

http://zinc15.docking.org/
Makalah terkait:ZINC 15 – Penemuan Ligan untuk Semua Orang

Kumpulan data platina

Sebelum simulasi docking, perlu dilakukan generate (perhitungan) konformasi senyawa, dan kumpulan data ini digunakan sebagai benchmark untuk verifikasi akurasi konformasi.Jenis senyawa yang termasuk adalah ligan pengikat protein, dengan jumlah kurang dari 5000.

Meskipun kumpulan datanya kecil, tampaknya kaya akan keragaman struktural.Tidak terlalu berat dan cocok untuk latihan. Anda juga dapat mengunduh dan menggunakan rdkit.

http://biosig.unimelb.edu.au/platinum/
Makalah terkait:Kumpulan Data Berkualitas Tinggi dari Konformasi Ligan Terikat Protein dan Aplikasinya untuk Benchmarking Conformer Ensemble Generator
Artikel referensi dalam bahasa Jepang: Paper Notes – Benchmarking Commercial Conformer Ensemble Generators

Kumpulan data gabungan

Kumpulan data yang berisi beberapa variabel target seperti senyawa dan nilai aktivitasnya.

racun21

Kumpulan data dari Tox21 Data Challenge 2014, kompetisi untuk akurasi prediksi toksisitas berdasarkan formula struktur kimia yang disponsori oleh Institut Kesehatan Nasional AS (NIH), Badan Perlindungan Lingkungan AS (EPA), dan Pangan dan Obat-obatan AS administrasi (FDA).

gen reporter reseptor nuklir (ER, AR, aromatase, dll.), respons stres (p53, ADALAH,  HSElainnya) hasil pemeriksaan.

Jaring molekul

MoleculeNet adalah kumpulan data tolok ukur yang dirancang untuk menguji prediksi pembelajaran mesin dari sifat molekuler.Ini didasarkan pada beberapa database publik dan mencakup kumpulan data berikut.

  • QM7, QM8, QM9: Kumpulan data yang merangkum struktur kimia dan nilai keluaran perhitungan kimia kuantum
  • kelarutan air, logP
  • penghambatan replikasi HIV, penghambatan β-sekresi manusia, dll.
  • Permeabilitas Penghalang Darah-Otak, Database Obat Bebas dan Efek Samping, Tox21, ToxCast, dll.

kaggle: Memprediksi Sifat Molekul

Kumpulan data konstanta kopling antara dua atom yang digunakan dalam kompetisi kaggle.Ini diberikan oleh data koordinat xyz senyawa (sekitar 13 senyawa, 450 juta kombinasi atom dan konstanta kopling).

Referensi lain

Beberapa kumpulan data di atas telah diintegrasikan ke dalam kerangka pembelajaran mendalam ``DeepChem'' dan ``Chainer chemistry'' untuk kimia dan biologi. Jaring molekul untuk DeepChem, Jaring molekul untuk kimia Chainer, QM9, Tox21, Seng didukung.

Ada juga situs ini yang menyusun daftar database ilmu kehidupan.Tidak hanya senyawa, tetapi juga genom dan organisme.
Katalog database Integbio

Saya berpartisipasi dalam kompetisi kaggle "Memprediksi Properti Molekul", tetapi saya kesulitan menghitung dengan data yang sangat besar (lebih dari 300 MB saat menambahkan fitur).Saat mempraktikkan visualisasi data majemuk, pembentukan dan verifikasi model pembelajaran mesin, saya merasa jaring Molekul, Tox21, atau bahkan LogP sudah cukup.