Danh sách tập hợp dữ liệu

Ngày 2019 tháng 9 năm 13

Liệt kê các bộ dữ liệu máy học và hóa tin học có thể được sử dụng để thực hành sau này.

cơ sở dữ liệu hợp chất

Một nhóm cơ sở dữ liệu chứa thông tin cấu trúc của các hợp chất hóa học.

PubChem

PubChem là một trong những cơ sở dữ liệu phân tử hóa học.
Có thể tải xuống bộ dữ liệu gồm hàng triệu cấu trúc và mô tả phức hợp qua FTP. PubChem tích hợp các phân tử nhỏ có ít hơn 1000 nguyên tử và 1000 liên kết.
Hơn 80 nhà cung cấp cơ sở dữ liệu đã góp phần vào sự phát triển của PubChem.

wikipedia

https://pubchem.ncbi.nlm.nih.gov/

CheEMBL

Một cơ sở dữ liệu về dược phẩm và các hợp chất ứng cử viên của họ.Hiện tại, dữ liệu hoạt động của 180 triệu hợp chất và 1500 triệu trường hợp được ghi lại.54 bộ dữ liệu con tóm tắt dữ liệu từ các màn hình và xét nghiệm khác nhau trông dễ sử dụng.

https://www.ebi.ac.uk/chembl/

cơ sở dữ liệu ZINC15

Một bộ dữ liệu hợp chất hữu cơ giống như thuốc chứa thông tin 3D ban đầu được phát triển để sàng lọc ảo bằng cách tính toán lắp ghép. Hơn 7 triệu cấu trúc được liệt kê.

http://zinc15.docking.org/
Giấy tờ liên quan:ZINC 15 – Khám phá phối tử cho mọi người

Bộ dữ liệu bạch kim

Trước khi mô phỏng lắp ghép, cần phải tạo (tính toán) cấu hình của hợp chất và bộ dữ liệu này được sử dụng làm điểm chuẩn để xác minh tính chính xác của cấu hình.Các loại hợp chất được bao gồm là các phối tử liên kết với protein, với ít hơn 5000.

Mặc dù bộ dữ liệu nhỏ, nhưng nó có vẻ rất đa dạng về cấu trúc.Không quá nặng và hoàn hảo để luyện tập. Bạn cũng có thể tải xuống và sử dụng rdkit.

http://biosig.unimelb.edu.au/platinum/
Giấy tờ liên quan:Bộ dữ liệu chất lượng cao về sự phù hợp của phối tử liên kết với protein và ứng dụng của nó đối với các trình tạo tập hợp đồng bộ tuân thủ đo điểm chuẩn
Bài viết tham khảo bằng tiếng Nhật: Paper Notes – Benchmarking Commercial Conformer Ensemble Generators

tập dữ liệu tổng hợp

Một bộ dữ liệu chứa một số biến mục tiêu, chẳng hạn như các hợp chất và giá trị hoạt động của chúng.

độc tố21

Một bộ dữ liệu từ Thử thách dữ liệu Tox21 2014, một cuộc thi về độ chính xác của dự đoán độc tính dựa trên công thức cấu trúc hóa học được tài trợ bởi Viện Y tế Quốc gia Hoa Kỳ (NIH), Cơ quan Bảo vệ Môi trường Hoa Kỳ (EPA) và Cục Thực phẩm và Dược phẩm Hoa Kỳ Quản lý (FDA).

gen báo cáo thụ thể hạt nhân (ER, AR, aromatase, v.v.), phản ứng căng thẳng (p53, LÀ,  HSEkhác) kết quả xét nghiệm.

lưới phân tử

MoleculeNet là một bộ dữ liệu điểm chuẩn được thiết kế để kiểm tra các dự đoán của máy học về các đặc tính phân tử.Nó dựa trên nhiều cơ sở dữ liệu công cộng và bao gồm các bộ dữ liệu sau.

  • QM7, QM8, QM9: Tập dữ liệu tóm tắt các cấu trúc hóa học và giá trị đầu ra tính toán hóa học lượng tử
  • độ hòa tan trong nước, logP
  • Ức chế sao chép HIV, ức chế β-secretase của con người, v.v.
  • Khả năng thẩm thấu của hàng rào máu não, cơ sở dữ liệu về thuốc không kê đơn và tác dụng phụ, Tox21, ToxCast, v.v.

kaggle: Dự đoán thuộc tính phân tử

Một bộ dữ liệu về các hằng số liên kết giữa hai nguyên tử được sử dụng trong cuộc thi kaggle.Nó được đưa ra bởi dữ liệu tọa độ xyz của các hợp chất (xấp xỉ 13 hợp chất, 450 triệu tổ hợp nguyên tử và hằng số liên kết).

Tài liệu tham khảo khác

Một số bộ dữ liệu trên đã được tích hợp vào các khung học sâu ``DeepChem'' và ``Chainer chemistry'' cho hóa học và sinh học. Lưới phân tử cho DeepChem, Lưới phân tử cho hóa học Chainer, QM9, Tox21, Zinc được hỗ trợ.

Cũng có trang này tổng hợp danh sách cơ sở dữ liệu khoa học đời sống.Không chỉ các hợp chất, mà cả bộ gen và sinh vật.
Danh mục cơ sở dữ liệu Integrbio

Tôi đã tham gia cuộc thi kaggle "Dự đoán thuộc tính phân tử", nhưng tôi gặp khó khăn khi tính toán với dữ liệu khổng lồ (hơn 300 MB khi thêm tính năng).Khi thực hành trực quan hóa dữ liệu phức hợp, thiết lập và xác minh các mô hình học máy, tôi cảm thấy rằng Molecule net, Tox21 hoặc thậm chí LogP là đủ.