รายการชุดข้อมูลผสม

2019 9 年月日 13

ทำรายการชุดข้อมูลแมชชีนเลิร์นนิงและเคมีสารสนเทศที่สามารถใช้ในการฝึกฝนในภายหลัง

ฐานข้อมูลแบบผสม

กลุ่มฐานข้อมูลที่มีข้อมูลโครงสร้างของสารเคมี

PubChem

PubChem เป็นหนึ่งในฐานข้อมูลโมเลกุลเคมี
ชุดข้อมูลของโครงสร้างและคำอธิบายผสมหลายล้านรายการสามารถดาวน์โหลดได้ผ่าน FTP PubChem รวมโมเลกุลขนาดเล็กที่มีอะตอมน้อยกว่า 1000 ตัวและพันธะ 1000 ตัว
ผู้จำหน่ายฐานข้อมูลกว่า 80 รายมีส่วนสนับสนุนการเติบโตของ PubChem

วิกิพีเดีย

https://pubchem.ncbi.nlm.nih.gov/

เชียร์EMBL

ฐานข้อมูลเภสัชภัณฑ์และสารประกอบที่เป็นตัวเลือกปัจจุบัน ข้อมูลกิจกรรมของสารประกอบ 180 ล้านรายการและ 1500 ล้านกรณีถูกบันทึกไว้ชุดข้อมูลย่อย 54 ชุดที่สรุปข้อมูลจากหน้าจอและการทดสอบต่างๆ ดูใช้งานง่าย

https://www.ebi.ac.uk/chembl/

ฐานข้อมูล ZINC15

ชุดข้อมูลสารประกอบอินทรีย์ที่มีลักษณะคล้ายยาซึ่งมีข้อมูล 3 มิติที่เดิมพัฒนาขึ้นสำหรับการคัดกรองเสมือนจริงโดยการเชื่อมต่อการคำนวณ มีโครงสร้างมากกว่า 7 ล้านรายการ

http://zinc15.docking.org/
เอกสารที่เกี่ยวข้อง:ZINC 15 – การค้นพบลิแกนด์สำหรับทุกคน

ชุดข้อมูลแพลทินัม

ก่อนการจำลองการเชื่อมต่อ จำเป็นต้องสร้าง (คำนวณ) โครงสร้างของสารประกอบ และชุดข้อมูลนี้จะใช้เป็นเกณฑ์มาตรฐานสำหรับการตรวจสอบความถูกต้องของโครงสร้างประเภทของสารประกอบที่รวมเป็นลิแกนด์ที่จับกับโปรตีน ซึ่งมีน้อยกว่า 5000

แม้ว่าชุดข้อมูลจะมีขนาดเล็ก แต่ดูเหมือนว่าจะมีความหลากหลายทางโครงสร้างไม่หนักเกินไปเหมาะสำหรับฝึกซ้อม คุณยังสามารถดาวน์โหลดและใช้ rdkit

http://biosig.unimelb.edu.au/platinum/
เอกสารที่เกี่ยวข้อง:ชุดข้อมูลคุณภาพสูงของโครงสร้างลิแกนด์ที่จับกับโปรตีนและการประยุกต์ใช้กับเครื่องกำเนิด Ensemble ของ Conformer Benchmarking
บทความอ้างอิงภาษาญี่ปุ่น: Paper Notes – Benchmarking Commercial Conformer Ensemble Generators

ชุดข้อมูลผสม

ชุดข้อมูลที่ประกอบด้วยตัวแปรเป้าหมายบางอย่าง เช่น สารประกอบและค่ากิจกรรม

ท็อกซ์21

ชุดข้อมูลจาก Tox21 Data Challenge 2014 ซึ่งเป็นการแข่งขันเพื่อความแม่นยำของการทำนายความเป็นพิษตามสูตรโครงสร้างทางเคมีที่ได้รับการสนับสนุนจากสถาบันสุขภาพแห่งชาติของสหรัฐอเมริกา (NIH) สำนักงานคุ้มครองสิ่งแวดล้อมของสหรัฐอเมริกา (EPA) และองค์การอาหารและยาของสหรัฐอเมริกา การบริหาร(อย.).

ยีนตัวรับนิวเคลียส (ER, AR, อะโรมาเทส ฯลฯ ), การตอบสนองต่อความเครียด (p53, เป็น,  HSEอื่นๆ) ผลการทดสอบ

ตาข่ายโมเลกุล

MoleculeNet เป็นชุดข้อมูลเกณฑ์มาตรฐานที่ออกแบบมาเพื่อทดสอบการทำนายของแมชชีนเลิร์นนิงเกี่ยวกับคุณสมบัติของโมเลกุลมันขึ้นอยู่กับฐานข้อมูลสาธารณะหลายชุดและรวมถึงชุดข้อมูลต่อไปนี้

  • คิวเอ็ม7 คิวเอ็ม8 คิวเอ็ม9: ชุดข้อมูลที่สรุปโครงสร้างทางเคมีและค่าผลลัพธ์การคำนวณทางเคมีควอนตัม
  • ความสามารถในการละลายน้ำ logP
  • การยับยั้งการจำลองแบบของ HIV การยับยั้ง β-secretase ของมนุษย์ เป็นต้น
  • การซึมผ่านของ Barrier Barrier ของเลือด, ฐานข้อมูลของยาที่ไม่ต้องสั่งโดยแพทย์และผลข้างเคียง, Tox21, ToxCast เป็นต้น

kaggle: การทำนายคุณสมบัติของโมเลกุล

ชุดข้อมูลของค่าคงที่คู่ระหว่างสองอะตอมที่ใช้ในการแข่งขัน kaggle.ข้อมูลนี้กำหนดโดยข้อมูลพิกัด xyz ของสารประกอบ (สารประกอบประมาณ 13 รายการ ชุดค่าผสมอะตอม 450 ล้านชุด และค่าคงที่คู่ควบ)

ข้อมูลอ้างอิงอื่นๆ

ชุดข้อมูลด้านบนบางชุดได้รวมเข้ากับเฟรมเวิร์กการเรียนรู้เชิงลึก ``DeepChem'' และ ``เคมีเชนเนอร์'' สำหรับเคมีและชีววิทยา รองรับตาข่ายโมเลกุลสำหรับ DeepChem, ตาข่ายโมเลกุลสำหรับเคมี Chainer, QM9, Tox21, สังกะสี

นอกจากนี้ยังมีไซต์นี้ที่รวบรวมรายชื่อฐานข้อมูลวิทยาศาสตร์ชีวภาพไม่เพียงแต่สารประกอบเท่านั้น แต่ยังรวมถึงจีโนมและสิ่งมีชีวิตด้วย
แค็ตตาล็อกฐานข้อมูล Integbio

ฉันเข้าร่วมการแข่งขัน kaggle "การทำนายคุณสมบัติระดับโมเลกุล" แต่ฉันมีช่วงเวลาที่ยากลำบากในการคำนวณด้วยข้อมูลขนาดใหญ่ (มากกว่า 300 MB เมื่อเพิ่มคุณสมบัติ)เมื่อฝึกการแสดงภาพข้อมูลผสม การสร้างและการตรวจสอบโมเดลแมชชีนเลิร์นนิง ฉันรู้สึกว่า Molecule net, Tox21 หรือแม้แต่ LogP ก็เพียงพอแล้ว