यौगिक डेटासेट सूची

2019 9 年 月 日 13

मशीन लर्निंग और केमोइन्फॉर्मेटिक्स डेटासेट की सूची बनाएं जिनका उपयोग बाद में अभ्यास के लिए किया जा सकता है।

यौगिक डेटाबेस

डेटाबेस का एक समूह जिसमें रासायनिक यौगिकों की संरचनात्मक जानकारी होती है।

PubChem

पबकेम रासायनिक आणविक डेटाबेस में से एक है।
एफ़टीपी के माध्यम से लाखों यौगिक संरचनाओं और विवरणों के डेटासेट डाउनलोड किए जा सकते हैं। पबकेम 1000 से कम परमाणुओं और 1000 बंधों वाले छोटे अणुओं को एकीकृत करता है।
पबकेम के विकास में 80 से अधिक डेटाबेस विक्रेताओं ने योगदान दिया है।

विकिपीडिया

https://pubchem.ncbi.nlm.nih.gov/

CheEMBL

फार्मास्यूटिकल्स और उनके उम्मीदवार यौगिकों का एक डेटाबेस।वर्तमान में, 180 मिलियन यौगिकों और 1500 मिलियन मामलों का गतिविधि डेटा दर्ज किया गया है।54 उपडेटासेट जो विभिन्न स्क्रीन और परख से डेटा को सारांशित करते हैं, उपयोग करने में आसान लगते हैं।

https://www.ebi.ac.uk/chembl/

ZINC15 डेटाबेस

मूल रूप से डॉकिंग कंप्यूटेशन द्वारा वर्चुअल स्क्रीनिंग के लिए विकसित 3डी जानकारी वाले ड्रग-जैसी ऑर्गेनिक कंपाउंड डेटासेट। 7 मिलियन से अधिक संरचनाएं सूचीबद्ध हैं।

http://zinc15.docking.org/
संबंधित कागजात:ZINC 15 - सभी के लिए लिगेंड डिस्कवरी

प्लेटिनम डेटासेट

डॉकिंग सिमुलेशन से पहले, कंपाउंड की रचना (गणना) करना आवश्यक है, और इस डेटा सेट का उपयोग रचना की सटीकता की पुष्टि के लिए एक बेंचमार्क के रूप में किया जाता है।शामिल यौगिकों के प्रकार प्रोटीन-बाध्यकारी लिगेंड हैं, जिनमें 5000 से कम है।

हालाँकि डेटासेट छोटा है, लेकिन यह संरचनात्मक विविधता में समृद्ध प्रतीत होता है।अभ्यास के लिए बहुत भारी और सही नहीं है। आप rdkit को डाउनलोड और उपयोग भी कर सकते हैं।

http://biosig.unimelb.edu.au/platinum/
संबंधित कागजात:प्रोटीन-बाउंड लिगैंड कन्फॉर्मेशन के उच्च-गुणवत्ता वाले डेटासेट और बेंचमार्किंग कन्फॉर्मर एन्सेम्बल जेनरेटर के लिए इसका अनुप्रयोग
जापानी में संदर्भ लेख: पेपर नोट्स - बेंचमार्किंग कमर्शियल कन्फॉर्मर एन्सेम्बल जेनरेटर

यौगिक डेटासेट

एक डेटा सेट जिसमें कुछ लक्षित चर जैसे यौगिक और उनके गतिविधि मान होते हैं।

टोक्स21

Tox21 डेटा चैलेंज 2014 के लिए डेटा सेट, यूएस नेशनल इंस्टीट्यूट ऑफ हेल्थ (NIH), यूएस एनवायरनमेंटल प्रोटेक्शन एजेंसी (EPA) और यूएस फूड एंड ड्रग एडमिनिस्ट्रेशन द्वारा प्रायोजित रासायनिक संरचनात्मक सूत्रों के आधार पर विषाक्तता की भविष्यवाणी की सटीकता के लिए एक प्रतियोगिता (एफडीए)।

परमाणु रिसेप्टर रिपोर्टर जीन (ईआर, एआर, एरोमाटेज, आदि), तनाव प्रतिक्रिया (p53, हैं,  एचएसईअन्य) परख परिणाम।

अणु जाल

मॉलिक्यूलनेट एक बेंचमार्क डेटासेट है जिसे आणविक गुणों के मशीन लर्निंग पूर्वानुमानों का परीक्षण करने के लिए डिज़ाइन किया गया है।यह कई सार्वजनिक डेटाबेस पर आधारित है और इसमें निम्नलिखित डेटासेट शामिल हैं।

  • क्यूएम7, क्यूएम8, क्यूएम9: डेटा सेट जो रासायनिक संरचनाओं और क्वांटम रासायनिक गणना आउटपुट मानों को सारांशित करता है
  • पानी में घुलनशीलता, लॉग पी
  • एचआईवी प्रतिकृति निषेध, मानव β-secretase निषेध, आदि।
  • ब्लड-ब्रेन बैरियर पारगम्यता, ओवर-द-काउंटर ड्रग्स और साइड इफेक्ट्स का डेटाबेस, Tox21, ToxCast, आदि।

kaggle: आणविक गुणों की भविष्यवाणी करना

कागल प्रतियोगिता में प्रयुक्त दो परमाणुओं के बीच युग्मन स्थिरांक का एक डेटा सेट.यह यौगिकों के xyz निर्देशांक डेटा (लगभग 13 यौगिक, 450 मिलियन परमाणु संयोजन और युग्मन स्थिरांक) द्वारा दिया गया है।

अन्य संदर्भ

ऊपर दिए गए कुछ डेटासेट को रसायन विज्ञान और जीव विज्ञान के लिए डीप लर्निंग फ्रेमवर्क 'डीपकेम' और 'चेनर केमिस्ट्री' में एकीकृत किया गया है। डीपकेम के लिए मॉलिक्यूल नेट, चेनर केमिस्ट्री के लिए मॉलिक्यूल नेट, QM9, Tox21, जिंक समर्थित हैं।

यह साइट भी थी जिसने जीवन विज्ञान डेटाबेस की एक सूची तैयार की थी।न केवल यौगिक, बल्कि जीनोम और जीव भी।
इंटेगियो डेटाबेस कैटलॉग

मैंने कागल प्रतियोगिता "भविष्यवाणी आण्विक गुणों" में भाग लिया, लेकिन मुझे विशाल डेटा (300 एमबी से अधिक सुविधाओं को जोड़ते समय) के साथ गणना करने में कठिनाई हुई।कंपाउंड डेटा के विज़ुअलाइज़ेशन, मशीन लर्निंग मॉडल की स्थापना और सत्यापन का अभ्यास करते समय, मुझे लगा कि मॉलिक्यूल नेट, Tox21, या यहाँ तक कि LogP भी पर्याप्त होगा।