चैनर के साथ एक सरल QSAR मॉडल आज़माएं【यौगिकों की रक्त-मस्तिष्क बाधा पारगम्यता की भविष्यवाणी करें】

2020 3 年 月 日 2

क्यूएसएआर (मात्रात्मक संरचना-गतिविधि संबंध) एक रासायनिक पदार्थ की संरचना और इसकी शारीरिक गतिविधि (विषाक्तता, एंजाइमों को बाँधने की क्षमता, दवा के रूप में गतिविधि आदि) के बीच एक सांख्यिकीय सहसंबंध है।रसायनों के बड़े प्रयोगात्मक डेटा सेट के आधार पर सह-संबंधों से यौगिक प्रदर्शन की भविष्यवाणी करें।

इस बार, हम एक सरल QSAR मॉडल बनाने के लिए एक जापानी डीप लर्निंग फ्रेमवर्क चैनर का उपयोग करेंगे, जो "यौगिकों की रक्त-मस्तिष्क बाधा पारगम्यता की भविष्यवाणी करता है" और परीक्षण सेट पर इसके प्रदर्शन को सत्यापित करता है।

भविष्यवाणी लक्ष्य और डेटा

डेटा के लिए मॉलिक्यूलनेट के बीबीबीपी का उपयोग किया जाता है।डेटा के विहंगम दृश्य के लिए, निम्नलिखित का संदर्भ लें जो पहले किया गया था।

डेटा "प्रवेश" के लिए XNUMX और "गैर-प्रवेश" के लिए XNUMX के साथ यौगिकों की रक्त-मस्तिष्क बाधा पारगम्यता को सारांशित करता है।

एक मॉडल बनाएँ

环境

from rdkit import rdBase
import chainer
print('rdkit version: ',rdBase.rdkitVersion)
chainer.print_runtime_info()
rdkit संस्करण: 2019.03.4 प्लेटफ़ॉर्म: Linux-5.0.0-37-जेनेरिक-x86_64-साथ-डेबियन-बस्टर-सिड चेनर: 6.2.0 NumPy: 1.17.4 CuPy: CuPy संस्करण: 6.2.0 CUDA रूट: /usr / स्थानीय/कूडा CUDA बिल्ड संस्करण: 10010 CUDA ड्राइवर संस्करण: 10010 CUDA रनटाइम संस्करण: 10010 cuDNN बिल्ड संस्करण: 7500 cuDNN संस्करण: 7605 NCCL बिल्ड संस्करण: 2402 NCCL रनटाइम संस्करण: 2402 iDeep: उपलब्ध नहीं

आप चैनर.प्रिंट_रनटाइम_इन्फो () के साथ उपयोग किए जा रहे चैनर, नेम्पी और कपी के संस्करणों की जांच कर सकते हैं।

प्रतिरूप निर्माण

import numpy as np
import pandas as pd
from rdkit import Chem
from rdkit.Chem import Draw, PandasTools, Descriptors
 
# データの読み込み
df = pd.read_csv('BBBP.csv',index_col=0)
 
# smilesからmolファイルを生成し、データフレーム中に加える
PandasTools.AddMoleculeColumnToFrame(df, smilesCol = 'smiles')
 
# molができなかった行を削除する
df = df.dropna()
 
# molファイルから化合物記述子を算出する
for i,j in Descriptors.descList:
    df[i] = df['ROMol'].map(j)
df['Ipc'] = [Descriptors.Ipc(mol, avg=True) for mol in df['ROMol']]  
 
# chainer用にデータ型を変換
x = df.iloc[:,4:].values.astype('float32')
y = df['p_np'].values.astype('int32')
indices = np.array(range(x.shape[0])) # train_test_split後も列番号を保持しておく
 
# train, test, valに分割
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test, indices_train, indices_test = train_test_split(x, y, indices, test_size=0.05, random_state=123)
 
# 説明変数の標準化
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(x_train)
x_train= scaler.transform(x_train)
x_test = scaler.transform(x_test)
 
print(type(x_train), x_train.shape, type(y_train), y_train.shape)
print(type(x_test), x_test.shape, type(y_test), y_test.shape)
(1937, 200) (1937,) (102, 200) (102,) 

मॉल ऑब्जेक्ट्स से डिस्क्रिप्टर बनाने के लिए यहां देखें।
SMILES से आणविक विवरणकों और उंगलियों के निशान की गणना करें और उन्हें एक डेटा फ्रेम [पायथन, आरडीकिट] में संग्रहीत करें

चैनर के बुनियादी उपयोग के लिए आधिकारिक ट्यूटोरियल बहुत पूर्ण है।
डीप लर्निंग चेनर ट्यूटोरियल का परिचय

# 説明変数と目的変数のセットで使えるように変換する
from chainer.datasets import TupleDataset
train = TupleDataset(x_train, y_train)
test = TupleDataset(x_test, y_test)
 
# イテレータの準備
from chainer.iterators import SerialIterator
train_iter = SerialIterator(train, batch_size=64, repeat=True, shuffle=True)
test_iter = SerialIterator(test, batch_size=64, shuffle=False, repeat=False)
 
# ニューラルネットワークの作成
# 3層のmulti layer perceptron(MLP)
import chainer.links as L
import chainer.functions as F
from chainer import Chain
from chainer import optimizers, training
from chainer.training import extensions

class MLP(chainer.Chain):
 
    def __init__(self):
        super().__init__()
        with self.init_scope():
            self.fc1 = L.Linear(None, 100)
            self.fc2 = L.Linear(None, 20)
            self.fc3 = L.Linear(None, 2)
 
    def forward(self, x):
        h = F.relu(self.fc1(x))
        h = F.relu(self.fc2(h))
        h = self.fc3(h)
        return h
 
# ネットワークをClassifierでラップしする
# (目的関数(デフォルトはsoftmax交差エントロピー)の計算し、損失を返す)
predictor = MLP()
net = L.Classifier(predictor)
 
# 最適化手法を選択して、オプティマイザを作成する
optimizer = optimizers.MomentumSGD(lr=0.1).setup(net)
 
# アップデータにイテレータとオプティマイザを渡す
updater = training.StandardUpdater(train_iter, optimizer, device=-1)
trainer = training.Trainer(updater, (50, 'epoch'), out='/results/')
from chainer.training import extensions
 
trainer.extend(extensions.LogReport(trigger=(5, 'epoch'), log_name='log'))
trainer.extend(extensions.snapshot(filename='snapshot_epoch-{.updater.epoch}'))
trainer.extend(extensions.dump_graph('main/loss'))
trainer.extend(extensions.Evaluator(test_iter, net, device=-1), name='val')
trainer.extend(extensions.PrintReport(['epoch', 'iteration', 'main/loss', 'main/accuracy', 'val/main/loss', 'val/main/accuracy', 'fc1/W/data/mean', 'elapsed_time']))
trainer.extend(extensions.PlotReport(['fc1/W/grad/mean'], x_key='epoch', file_name='mean.png'))
trainer.extend(extensions.PlotReport(['main/loss', 'val/main/loss'], x_key='epoch', file_name='loss.png'))
trainer.extend(extensions.PlotReport(['main/accuracy', 'val/main/accuracy'], x_key='epoch', file_name='accuracy.png'))
trainer.extend(extensions.ParameterStatistics(net.predictor.fc1, {'mean': np.mean}, report_grads=True))
 
trainer.run()
from IPython.display import Image, display
display(Image(filename='results/accuracy.png'))

ऐसा लगता है कि इसमें कुछ हद तक सटीकता है, लेकिन जैसे-जैसे सीखने की प्रगति होती है, परीक्षण सेट पर सटीकता में बहुत सुधार नहीं हुआ है ...

अनुमान

# 学習したモデルで推論してみる
with chainer.using_config('train', False), chainer.using_config('enable_backprop', False):
    y_pred = predictor(x_test)
 
# 推論結果の確認
print('accuracy', F.accuracy(y_pred, y_test)) # accuracy variable(0.88235295)
 
from sklearn.metrics import confusion_matrix
confusion_matrix(y_test, y_pred.data.argmax(axis=1))
 सरणी ([[21, 7], [5, 69]]) 

सटीकता एक मान है जैसा कि आप चित्र से देख सकते हैं।भ्रम मैट्रिक्स का उपयोग करके वर्ग वर्गीकरण की सटीकता का मूल्यांकन करते समय, झूठे सकारात्मक और झूठे नकारात्मक होते हैं, लेकिन ऐसा लगता है कि सटीकता एकतरफा वर्गीकरण द्वारा अर्जित नहीं की जाती है।

# 一部予測結果を見てみる
for i in range(int(len(y_pred)/10)):
    print('No.', indices_test[i])
    print('label:', y_test[i])
    print('pred :', np.argmax(y_pred[i].array))
    img = Draw.MolToImage(df.ROMol[indices_test[i]])
    display(img)

छवि आउटपुट का हिस्सा है, लेकिन यह सही है कि इसे मानवीय आंखों से भी पहचाना जा सकता है।आपने जो गलत किया उसकी जांच करना भी मजेदार है।