قائمة مجموعات البيانات المركبة

2019 9 年 月 日 13

ضع قائمة بمجموعات بيانات التعلم الآلي والمعلومات الكيميائية التي قد تستخدمها للتدرب لاحقًا.

مركب DB

مجموعة قواعد بيانات تحتوي على معلومات هيكلية للمركبات.

بوب كيم

PubChem هي إحدى قواعد بيانات الجزيئات الكيميائية.
يمكن تنزيل ملايين البنية المركبة ومجموعات البيانات الوصفية عبر FTP. يوجد أقل من 1000 ذرة و 1000 رابطة متراكمة في PubChem.
يساهم أكثر من 80 مصدرًا لقواعد البيانات في نمو PubChem.

ويكيبيديا

https://pubchem.ncbi.nlm.nih.gov/

شيمبل

قاعدة بيانات بالأدوية والمركبات المرشحة لها.حاليًا ، تم تسجيل بيانات نشاط 180 مليون مركب و 1500 مليون حالة.يبدو أن 54 مجموعة بيانات فرعية من بيانات الفحص والمقايسة المتنوعة سهلة الاستخدام.

https://www.ebi.ac.uk/chembl/

قاعدة بيانات ZINC15

مجموعة بيانات من المركبات العضوية الشبيهة بالعقاقير تحتوي على معلومات ثلاثية الأبعاد ، تم تطويرها في الأصل للفحص الافتراضي عن طريق حسابات الإرساء. تم سرد أكثر من 3 مليون مبنى.

http://zinc15.docking.org/
أوراق ذات صلة:ZINC 15 - اكتشاف Ligand للجميع

مجموعة البيانات البلاتينية

مجموعة بيانات تُستخدم كمعيار للتحقق من دقة تكوين المركب ، والتي يجب إنشاؤها (محسوبة) قبل محاكاة الإرساء.الأنواع المركبة الموجودة هي روابط ربط البروتين ، أقل من 5000.

على الرغم من أنها مجموعة بيانات صغيرة ، إلا أنها تبدو غنية بالتنوع الهيكلي.إنها ليست ثقيلة جدًا ويبدو أنها مثالية للممارسة. يمكنك أيضًا تنزيله واستخدامه مع rdkit.

http://biosig.unimelb.edu.au/platinum/
أوراق ذات صلة:مجموعة بيانات عالية الجودة من توافق البروتين المرتبط بالبروتين وتطبيقها على المقارنة المعيارية لمولدات مجموعات التوافق
مقالات مرجعية يابانية: مذكرة ورقية - المقارنة المعيارية لمولدات مجموعة المطابقة التجارية

مجموعة البيانات المركبة

مجموعة بيانات تحتوي على متغير موضوعي مثل المركب وقيمة نشاطه.

توكس 21

مجموعة بيانات لمسابقة Tox21 Data Challenge 2014 ، برعاية المعاهد الوطنية للصحة (NIH) ، ووكالة حماية البيئة الأمريكية (EPA) ، وإدارة الغذاء والدواء الأمريكية (FDA) للتنافس من أجل الدقة في التنبؤ بالسمية بناءً على المواد الكيميائية الصيغ الهيكلية.

جينات مراسل المستقبلات النووية (ER ، AR ، aromatase ، إلخ) ، استجابة الإجهاد (p53، نكون،  HSEيتم تضمين نتائج الفحص الأخرى).

شبكة الجزيء

MoleculeNet هي مجموعة بيانات معيارية مصممة لاختبار تنبؤات الخصائص الجزيئية عن طريق التعلم الآلي.يعتمد على قواعد بيانات عامة متعددة ويحتوي على مجموعات البيانات التالية:

  • QM7 ، QM8 ، QM9: مجموعة بيانات تلخص التركيب الكيميائي وقيمة إخراج حساب كيمياء الكم
  • الذوبان في الماء ، تسجيل ف
  • تثبيط تكاثر فيروس نقص المناعة البشرية ، تثبيط إفراز بيتا البشري ، إلخ.
  • نفاذية حاجز الدم في الدماغ ، قاعدة بيانات للأدوية التي لا تستلزم وصفة طبية والآثار الجانبية ، Tox21 ، ToxCast ، إلخ.

kaggle: توقع الخصائص الجزيئية

مجموعة بيانات من ثوابت الاقتران بين ذرتين تستخدم في مسابقة kaggle..معطى في بيانات إحداثيات xyz للمركب (حوالي 13 مركب ، 450 مليون توليفة ذرية وثوابت اقتران).

مراجع أخرى

تم دمج بعض مجموعات البيانات المذكورة أعلاه في أطر التعلم العميق "Deep Chem" و "Chainer chemistory" لمجالات الكيمياء والبيولوجيا. يدعم Deep Chem شبكة الجزيء ، وتدعم كيمياء السلسلة Molecule net و QM9 و Tox21 والزنك.

كان هناك أيضًا موقع مثل هذا قام بتجميع قائمة بقواعد بيانات علوم الحياة.ليس فقط المركبات ، ولكن أيضًا الجينومات والكائنات الحية.
كتالوج قاعدة بيانات Integbio

لقد شاركت في مسابقة kaggle "التنبؤ بالخصائص الجزيئية" ، ولكن الأمر استغرق وقتًا طويلاً لحساب البيانات الضخمة (300 ميجابايت أو أكثر مع إضافة الميزات) ، وواجهت وقتًا عصيبًا.عند ممارسة تصور البيانات المركبة ، وإنشاء نماذج التعلم الآلي والتحقق منها ، شعرت أن Molecule net ، Tox21 ، أو بالأحرى LogP ستكون كافية على الإطلاق.