Daftar kumpulan data gabungan
Buat daftar set data machine learning dan chemoinformatics yang dapat digunakan untuk latihan nanti.
Basis data gabungan
Sekelompok database yang berisi informasi struktur senyawa kimia.
PubChem
PubChem adalah salah satu database molekul kimia.
wikipedia
Kumpulan data dari jutaan struktur dan deskripsi gabungan dapat diunduh melalui FTP. PubChem mengintegrasikan molekul kecil dengan kurang dari 1000 atom dan 1000 ikatan.
Lebih dari 80 vendor database telah berkontribusi pada pertumbuhan PubChem.
https://pubchem.ncbi.nlm.nih.gov/
CheEMBL
Database obat-obatan dan senyawa kandidatnya.Saat ini, tercatat data aktivitas 180 juta senyawa dan 1500 juta kasus.54 subdataset yang meringkas data dari berbagai layar dan pengujian terlihat mudah digunakan.
basis data ZINC15
Kumpulan data senyawa organik seperti obat yang berisi informasi 3D yang awalnya dikembangkan untuk penyaringan virtual dengan komputasi dok. Lebih dari 7 juta struktur terdaftar.
http://zinc15.docking.org/
Makalah terkait:ZINC 15 – Penemuan Ligan untuk Semua Orang
Kumpulan data platina
Sebelum simulasi docking, perlu dilakukan generate (perhitungan) konformasi senyawa, dan kumpulan data ini digunakan sebagai benchmark untuk verifikasi akurasi konformasi.Jenis senyawa yang termasuk adalah ligan pengikat protein, dengan jumlah kurang dari 5000.
Meskipun kumpulan datanya kecil, tampaknya kaya akan keragaman struktural.Tidak terlalu berat dan cocok untuk latihan. Anda juga dapat mengunduh dan menggunakan rdkit.
http://biosig.unimelb.edu.au/platinum/
Makalah terkait:Kumpulan Data Berkualitas Tinggi dari Konformasi Ligan Terikat Protein dan Aplikasinya untuk Benchmarking Conformer Ensemble Generator
Artikel referensi dalam bahasa Jepang: Paper Notes – Benchmarking Commercial Conformer Ensemble Generators
Kumpulan data gabungan
Kumpulan data yang berisi beberapa variabel target seperti senyawa dan nilai aktivitasnya.
racun21
Kumpulan data dari Tox21 Data Challenge 2014, kompetisi untuk akurasi prediksi toksisitas berdasarkan formula struktur kimia yang disponsori oleh Institut Kesehatan Nasional AS (NIH), Badan Perlindungan Lingkungan AS (EPA), dan Pangan dan Obat-obatan AS administrasi (FDA).
gen reporter reseptor nuklir (ER, AR, aromatase, dll.), respons stres (p53, ADALAH, HSElainnya) hasil pemeriksaan.
Jaring molekul
MoleculeNet adalah kumpulan data tolok ukur yang dirancang untuk menguji prediksi pembelajaran mesin dari sifat molekuler.Ini didasarkan pada beberapa database publik dan mencakup kumpulan data berikut.
- QM7, QM8, QM9: Kumpulan data yang merangkum struktur kimia dan nilai keluaran perhitungan kimia kuantum
- kelarutan air, logP
- penghambatan replikasi HIV, penghambatan β-sekresi manusia, dll.
- Permeabilitas Penghalang Darah-Otak, Database Obat Bebas dan Efek Samping, Tox21, ToxCast, dll.
kaggle: Memprediksi Sifat Molekul
Kumpulan data konstanta kopling antara dua atom yang digunakan dalam kompetisi kaggle.Ini diberikan oleh data koordinat xyz senyawa (sekitar 13 senyawa, 450 juta kombinasi atom dan konstanta kopling).
Referensi lain
Beberapa kumpulan data di atas telah diintegrasikan ke dalam kerangka pembelajaran mendalam ``DeepChem'' dan ``Chainer chemistry'' untuk kimia dan biologi. Jaring molekul untuk DeepChem, Jaring molekul untuk kimia Chainer, QM9, Tox21, Seng didukung.
Ada juga situs ini yang menyusun daftar database ilmu kehidupan.Tidak hanya senyawa, tetapi juga genom dan organisme.
Katalog database Integbio
Saya berpartisipasi dalam kompetisi kaggle "Memprediksi Properti Molekul", tetapi saya kesulitan menghitung dengan data yang sangat besar (lebih dari 300 MB saat menambahkan fitur).Saat mempraktikkan visualisasi data majemuk, pembentukan dan verifikasi model pembelajaran mesin, saya merasa jaring Molekul, Tox21, atau bahkan LogP sudah cukup.
diskusi
Daftar Pingback & Trackback
[…] Daftar kumpulan data majemuk (NoteBook) […]