รายการชุดข้อมูลผสม
ทำรายการชุดข้อมูลแมชชีนเลิร์นนิงและเคมีสารสนเทศที่สามารถใช้ในการฝึกฝนในภายหลัง
ฐานข้อมูลแบบผสม
กลุ่มฐานข้อมูลที่มีข้อมูลโครงสร้างของสารเคมี
PubChem
PubChem เป็นหนึ่งในฐานข้อมูลโมเลกุลเคมี
วิกิพีเดีย
ชุดข้อมูลของโครงสร้างและคำอธิบายผสมหลายล้านรายการสามารถดาวน์โหลดได้ผ่าน FTP PubChem รวมโมเลกุลขนาดเล็กที่มีอะตอมน้อยกว่า 1000 ตัวและพันธะ 1000 ตัว
ผู้จำหน่ายฐานข้อมูลกว่า 80 รายมีส่วนสนับสนุนการเติบโตของ PubChem
https://pubchem.ncbi.nlm.nih.gov/
เชียร์EMBL
ฐานข้อมูลเภสัชภัณฑ์และสารประกอบที่เป็นตัวเลือกปัจจุบัน ข้อมูลกิจกรรมของสารประกอบ 180 ล้านรายการและ 1500 ล้านกรณีถูกบันทึกไว้ชุดข้อมูลย่อย 54 ชุดที่สรุปข้อมูลจากหน้าจอและการทดสอบต่างๆ ดูใช้งานง่าย
ฐานข้อมูล ZINC15
ชุดข้อมูลสารประกอบอินทรีย์ที่มีลักษณะคล้ายยาซึ่งมีข้อมูล 3 มิติที่เดิมพัฒนาขึ้นสำหรับการคัดกรองเสมือนจริงโดยการเชื่อมต่อการคำนวณ มีโครงสร้างมากกว่า 7 ล้านรายการ
http://zinc15.docking.org/
เอกสารที่เกี่ยวข้อง:ZINC 15 – การค้นพบลิแกนด์สำหรับทุกคน
ชุดข้อมูลแพลทินัม
ก่อนการจำลองการเชื่อมต่อ จำเป็นต้องสร้าง (คำนวณ) โครงสร้างของสารประกอบ และชุดข้อมูลนี้จะใช้เป็นเกณฑ์มาตรฐานสำหรับการตรวจสอบความถูกต้องของโครงสร้างประเภทของสารประกอบที่รวมเป็นลิแกนด์ที่จับกับโปรตีน ซึ่งมีน้อยกว่า 5000
แม้ว่าชุดข้อมูลจะมีขนาดเล็ก แต่ดูเหมือนว่าจะมีความหลากหลายทางโครงสร้างไม่หนักเกินไปเหมาะสำหรับฝึกซ้อม คุณยังสามารถดาวน์โหลดและใช้ rdkit
http://biosig.unimelb.edu.au/platinum/
เอกสารที่เกี่ยวข้อง:ชุดข้อมูลคุณภาพสูงของโครงสร้างลิแกนด์ที่จับกับโปรตีนและการประยุกต์ใช้กับเครื่องกำเนิด Ensemble ของ Conformer Benchmarking
บทความอ้างอิงภาษาญี่ปุ่น: Paper Notes – Benchmarking Commercial Conformer Ensemble Generators
ชุดข้อมูลผสม
ชุดข้อมูลที่ประกอบด้วยตัวแปรเป้าหมายบางอย่าง เช่น สารประกอบและค่ากิจกรรม
ท็อกซ์21
ชุดข้อมูลจาก Tox21 Data Challenge 2014 ซึ่งเป็นการแข่งขันเพื่อความแม่นยำของการทำนายความเป็นพิษตามสูตรโครงสร้างทางเคมีที่ได้รับการสนับสนุนจากสถาบันสุขภาพแห่งชาติของสหรัฐอเมริกา (NIH) สำนักงานคุ้มครองสิ่งแวดล้อมของสหรัฐอเมริกา (EPA) และองค์การอาหารและยาของสหรัฐอเมริกา การบริหาร(อย.).
ยีนตัวรับนิวเคลียส (ER, AR, อะโรมาเทส ฯลฯ ), การตอบสนองต่อความเครียด (p53, เป็น, HSEอื่นๆ) ผลการทดสอบ
ตาข่ายโมเลกุล
MoleculeNet เป็นชุดข้อมูลเกณฑ์มาตรฐานที่ออกแบบมาเพื่อทดสอบการทำนายของแมชชีนเลิร์นนิงเกี่ยวกับคุณสมบัติของโมเลกุลมันขึ้นอยู่กับฐานข้อมูลสาธารณะหลายชุดและรวมถึงชุดข้อมูลต่อไปนี้
- คิวเอ็ม7 คิวเอ็ม8 คิวเอ็ม9: ชุดข้อมูลที่สรุปโครงสร้างทางเคมีและค่าผลลัพธ์การคำนวณทางเคมีควอนตัม
- ความสามารถในการละลายน้ำ logP
- การยับยั้งการจำลองแบบของ HIV การยับยั้ง β-secretase ของมนุษย์ เป็นต้น
- การซึมผ่านของ Barrier Barrier ของเลือด, ฐานข้อมูลของยาที่ไม่ต้องสั่งโดยแพทย์และผลข้างเคียง, Tox21, ToxCast เป็นต้น
kaggle: การทำนายคุณสมบัติของโมเลกุล
ชุดข้อมูลของค่าคงที่คู่ระหว่างสองอะตอมที่ใช้ในการแข่งขัน kaggle.ข้อมูลนี้กำหนดโดยข้อมูลพิกัด xyz ของสารประกอบ (สารประกอบประมาณ 13 รายการ ชุดค่าผสมอะตอม 450 ล้านชุด และค่าคงที่คู่ควบ)
ข้อมูลอ้างอิงอื่นๆ
ชุดข้อมูลด้านบนบางชุดได้รวมเข้ากับเฟรมเวิร์กการเรียนรู้เชิงลึก ``DeepChem'' และ ``เคมีเชนเนอร์'' สำหรับเคมีและชีววิทยา รองรับตาข่ายโมเลกุลสำหรับ DeepChem, ตาข่ายโมเลกุลสำหรับเคมี Chainer, QM9, Tox21, สังกะสี
นอกจากนี้ยังมีไซต์นี้ที่รวบรวมรายชื่อฐานข้อมูลวิทยาศาสตร์ชีวภาพไม่เพียงแต่สารประกอบเท่านั้น แต่ยังรวมถึงจีโนมและสิ่งมีชีวิตด้วย
แค็ตตาล็อกฐานข้อมูล Integbio
ฉันเข้าร่วมการแข่งขัน kaggle "การทำนายคุณสมบัติระดับโมเลกุล" แต่ฉันมีช่วงเวลาที่ยากลำบากในการคำนวณด้วยข้อมูลขนาดใหญ่ (มากกว่า 300 MB เมื่อเพิ่มคุณสมบัติ)เมื่อฝึกการแสดงภาพข้อมูลผสม การสร้างและการตรวจสอบโมเดลแมชชีนเลิร์นนิง ฉันรู้สึกว่า Molecule net, Tox21 หรือแม้แต่ LogP ก็เพียงพอแล้ว
ดิสโก้
รายการ Pingbacks & Trackbacks
[…] รายการชุดข้อมูลแบบผสม (NoteBook) […]