Pycharm再インストール時のエラー

状況

Pycharmをアンインストール → 再度インストールした時に以下のエラーメッセージが出て起動できなくなりました。

PermissionError: [Errno 13] Permission denied: ‘C:\Program Files\JetBrains\PyCharm 2020.1.2\plugins\python\helpers\pydev\pydevconsole.html’

Internal error. please refer to http://jb.gg/ide/critical-startup-errors java.lang.verifyerror: expecting a stack map frame exception details: location: com/intellij/openapi/util/text/stringutil.pluralize(ljava/lang/string;i)ljava/lang/string; @28: athrow reason: expected stackmap frame at this location.

原因は、サードパーティ製のPycharm日本語化プラグイン「pleiades-win」が本体のアンインストールでは削除されずにフォルダ内に残っていたことです。

対処法

  • Pycharmのアンインストール時には「キャッシュとプラグインの削除」にもチェックをつける。(公式のプラグインならこれだけでOK)
  • サードパーティ製のプラグインの場合は上記では削除されないので、手動で該当フォルダを削除する

ちなみにpleiades-winは以下のフォルダに入ってました。設定によって保存先のフォルダは異なるかもしれませんので、忘れてしまった場合はプラグイン名やJetBrainsで検索をかけてみましょう。

・C:\Users\ユーザー名\AppData\Local\JetBrains
・C:\Users\ユーザー名\AppData\Roaming\JetBrains

PyCharm+pipenvでPython開発環境の構築【Windows10】

データ解析、機械学習、ディープラーニング内で収まればAnaconda環境で十分でしたが、スクレイピングやAPI利用などもやってみたくなりました。そうなるとcondaではフォローしていないパッケージのインストールも増えてきたため、思い切ってAnacondaを卒業して、純粋なPython(”VanillaPythonと呼ぶらしい)で環境を再構築することにします。ここでは、その手順を残しておきます。

Windows10でPyCharm+pipenvのPython環境の構築する方法

まずAnaconda等が入っている場合は、素のPythonをインストールする前に削除しておきます。

Cコンパイラのインストール

Pythonの拡張モジュールをインストールする際に、Cコンパイラが必要となる場合があります。WindowsではCコンパイラが添付されていないため、必要に応じて別途インストールします。

python japan:Cコンパイラのインストール

VanillaPythonのインストール

① 以下から、OSにあったpythonインストーラーをインストールしてくる。

https://www.python.org/downloads/

Windows10 64bit向けのPython 3.7.7 (リリースMarch 10, 2020)のWeb経由のインストーラーはこちら→Windows x86-64 web-based installer

② ダウンロードしたら起動し、「install launcher for all users」と「Add Python x.x to Path」にチェックして「Install Now」を選択。

pipenvのインストール

① コマンドプロンプトを開き、py -m pip install pipenvと入力

※「Could not build wheels since package wheel is not installed」というエラーが出る場合は、py -m pip install wheelでwheelをインストールする。

PyCharmのインストール

PyCharm+pipenvを使えるようにする設定

PyCharmのプロジェクトとしてpipenv環境を作成する

  1. PyCharmを開く → 新規プラジェクトの作成。
  2. プロジェクト・インタープリター:「Pipenv」を選択。
  3. ベースインタープリターにインストールした素のPythonを指定。
    自分の場合は「C:\Users\ユーザー名\AppData\Local\Programs\Python\Python37\python.exe」
  4. Pipenv executableにインストールしたpipenvのpathを指定
    たいていPython下のフォルダにある。自分の場合は「C:\Users\ユーザー名\AppData\Local\Programs\Python\Python37\Script\pipenv.exe」
  5. 作成をクリック

作成したpipenv仮想環境へのパッケージのインストールは、プロジェクト内の「ターミナル」(デフォルトで下の方のタブにある)からpip installで行えます。

【GitHub:Gist】ブログに表示させるサイズを調整する方法

Gistとは

GistはGitHubのサービスの一つで、これを利用するとソースコード1ファイル単位(複数もOK)でGit管理し、公開することができます。

https://qiita.com/hkusu/items/18cbe582abb9d3172019

ソースコードをブログに貼り付けたりする場面でも活躍しますが、サイズは固定されています。デフォルトでは表示枠が小さいため、拡大したいと思います。

サイズの調整方法

CSSで以下のように入力することで調整できます。

/*gist表示サイズ変更*/
.gist iframe.render-viewer {
	height: 700px !important;
	width: 1000px !important;
}

縦長に調整しました。

難点はブログ中のすべてのGistに適応されてしまうため、コードが少ししかない場合は余白が余ってしまうことです。その場合は、大・中・小などの追加CSSクラスを設定することで解決しても良いかもしれません。

【速習】Pytorch入門②:MLP回帰を実装してPyTorchの基礎を学ぶ

前回はPyTorchのベースとなるtorchの扱い方をおさらいできました。

今回は、PyTorchで多層パーセプトロン(Multilayer perceptron:MLP)回帰を実装するとともに、主要なPyTorchパッケージを確認したいと思います。

全体の流れ

モデル実装の全体的な流れは下のようになります。()内はその際に使用するPyTorchパッケージです。

  • 入力データセットの作成、反復処理(Dataset, Dataloader)
  • ニューラルネットワークの定義(nn.Module)
  • 損失の計算、勾配をネットワークのパラメーターに伝播(nn.Module)
  • ネットワークの重みを更新(Optimaizer)

主要なPyTorchパッケージ

PyTorchに関わらず、多くのディープラーニングフレームワークでは実装を簡易化するために様々なパッケージを提供しています。PyTorchでは主に以下のものがあります。

torch.tensor多次元配列。PyTorchで使うデータ構造。
torch.autograd順伝播・逆伝播を実装する。逆伝播(backward())などでのTensorに対する自動微分操作をサポートする。
torch.utils.data入力するデータとそのラベルをセットにしてまとめる「Dataset」やDatasetからミニバッチでデータを取り出しモデルへ渡す「Dataloader」などのユーティリティを含む。
torch.nn.Moduleニューラルネットワークの構築に用いる。モデルの保存や読み込み、GPUへの移動など、パラメーターのカプセル化を担う。
torch.optimSDGやAdamなどのパラメータ最適化アルゴリズムを使えるようにする。
主要なPyTorchパッケージ

モデルの実装

データセットの作成

今回は、練習用データとして sin(5x) に乱数を加えたものをnumpyで用意します。from_numpy()でtorch.tensorに変換します。

モデルの定義

pytorchでは、nn.Moduleクラスを継承した「pythonのclass」としてモデルを定義します。

class MLP(nn.Module): 定義するMLPというclassは、親クラスnn.Moduleを継承
def init(): 引数を受け取ってインスタンス化する
super(MLP, self).init(): super関数で親クラスを継承する
def forward(self, x): インスタンス化した後、その関数が呼び出されたときに動作する。forward関数を定義するとbackward 関数(勾配計算)も自動的に定義される

.parameters()でnetworkの構造やパラメータを取得できます。

損失の計算・逆伝播・重みの更新

個々の動作を理解するために、xからデータを1つ取り出してニューラルネットワークに入力し、誤差の計算や重みの更新によるパラメータの変化をみてみます。

学習ループを回してみる

上記の流れをバッチごとに行い、ニューラルネットワークを学習させます。
Datasetはデータとそれに対応するラベルを1組返し、DataLoaderはデータをバッチサイズにまとめて返すクラスです。

計算グラフの可視化

今回作成した3層のMLPの構造はtorchvizというpythonのパッケージを使うことで可視化できます。parameters()だけでは物足りない時にどうぞ。

以上、MLP回帰の実装を通して、PyTorchとその主要なPyTorchパッケージを確認しました。

【速習】Pytorch入門①:torchを扱ってみる

PyTorchとは

PyTorchとは、Facebookが開発したディープラーニングフレームワークです。TensorFlowやkerasに比べると利用者人口は少ないですが、柔軟なネットワーク構築が可能なDefine by run形式を特徴とし、今急速に成長しています。もともとはChainerのforkでしたが、先行して欧米圏の研究者に広く普及したことから、現在はPFN側がChainerを中止し、PyTorchの開発に協力・合流する形となったようです。

PyTorchは以下の2つと特徴としています。

・GPUによる高速化が可能なNumPyに相当する「torch」
・柔軟性で高速なDefineByRun型の深層学習プラットフォーム

PyTorchのインストール方法はこちらの公式ページから:https://pytorch.org/
詳細などは多くの日本語記事にて取り上げられています(参考:PyTorch 入門!人気急上昇中のPyTorchで知っておくべき6つの基礎知識

Torchの使い方

Pytorchでは、numpy型のデータを入力しても計算はできず、torch.tensorというデータ型を使って演算を行います。そのためデータはtorch.tensor型で作成・変換する必要があります。これは、ほぼnumpyのようなものですが、NvidiaのGPUで高速な演算が可能です。

また、torchモジュール内には多次元テンソル(高次の行列みたいなもの)のデータ構造が含まれており、テンソルの計算や型変換などを効率的に行うことができます。

In [2]:
・ .size()でtensorサイズを確認できる
・ リストのスライスで行列の要素を取り出すことができ、numpy配列と同様に扱える。
In [3]: 加減剰余や微分など基本的な演算が実行可能
In [4]: .view()で配列の形状を変更
In [5]: numpyと相互変換できる
In [6]: GPU上で計算させるには、.to(device)で渡す

 

Chainerで簡単なQSARモデルを試してみる【化合物の血液脳関門透過性を予測する】

QSAR(定量的構造活性相関:Quantitative Structure-Activity Relationship)とは、化学物質の構造とその生理活性(毒性・酵素への結合能・医薬品としての作用性など)の統計的な相関関係のことをいいます。膨大な化学物質の実験データセットをもとにした相関から化合物の性能を予測することができます。

今回は日本製のディープラーニングフレームワークであるChainerを用いて「化合物の血液脳関門透過性を予測する」簡単なQSARモデルが作成し、テストセットに対する性能を検証してみます。

予測対象とデータ

データには、MoleculeNetのBBBPを利用。データの俯瞰は以前に実施した以下を参照。

化合物の血液脳関門透過性について「透過性あり(penetration)」を1、「透過性なし(non-penetration)」を0でまとめたデータになります。

モデルの作成

環境

from rdkit import rdBase
import chainer
print('rdkit version: ',rdBase.rdkitVersion)
chainer.print_runtime_info()
rdkit version:  2019.03.4
Platform: Linux-5.0.0-37-generic-x86_64-with-debian-buster-sid
Chainer: 6.2.0
NumPy: 1.17.4
CuPy:
  CuPy Version          : 6.2.0
  CUDA Root             : /usr/local/cuda
  CUDA Build Version    : 10010
  CUDA Driver Version   : 10010
  CUDA Runtime Version  : 10010
  cuDNN Build Version   : 7500
  cuDNN Version         : 7605
  NCCL Build Version    : 2402
  NCCL Runtime Version  : 2402
iDeep: Not Available

chainer.print_runtime_info()で使用しているChainer、Numpy、Cupyのバージョンを確認できます。

モデル構築

import numpy as np
import pandas as pd
from rdkit import Chem
from rdkit.Chem import Draw, PandasTools, Descriptors
 
# データの読み込み
df = pd.read_csv('BBBP.csv',index_col=0)
 
# smilesからmolファイルを生成し、データフレーム中に加える
PandasTools.AddMoleculeColumnToFrame(df, smilesCol = 'smiles')
 
# molができなかった行を削除する
df = df.dropna()
 
# molファイルから化合物記述子を算出する
for i,j in Descriptors.descList:
    df[i] = df['ROMol'].map(j)
df['Ipc'] = [Descriptors.Ipc(mol, avg=True) for mol in df['ROMol']]  
 
# chainer用にデータ型を変換
x = df.iloc[:,4:].values.astype('float32')
y = df['p_np'].values.astype('int32')
indices = np.array(range(x.shape[0])) # train_test_split後も列番号を保持しておく
 
# train, test, valに分割
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test, indices_train, indices_test = train_test_split(x, y, indices, test_size=0.05, random_state=123)
 
# 説明変数の標準化
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(x_train)
x_train= scaler.transform(x_train)
x_test = scaler.transform(x_test)
 
print(type(x_train), x_train.shape, type(y_train), y_train.shape)
print(type(x_test), x_test.shape, type(y_test), y_test.shape)
<class 'numpy.ndarray'> (1937, 200) <class 'numpy.ndarray'> (1937,) 
<class 'numpy.ndarray'> (102, 200) <class 'numpy.ndarray'> (102,) 

molオブジェクトからの記述子作成についてはこちらを参照。
SMILESから分子記述子とフィンガープリントを算出して、データフレームに格納する【Python, RDKit】

Chainerの基本的な使い方は公式チュートリアルが非常に充実しています。
ディープラーニング入門 Chainer チュートリアル

# 説明変数と目的変数のセットで使えるように変換する
from chainer.datasets import TupleDataset
train = TupleDataset(x_train, y_train)
test = TupleDataset(x_test, y_test)
 
# イテレータの準備
from chainer.iterators import SerialIterator
train_iter = SerialIterator(train, batch_size=64, repeat=True, shuffle=True)
test_iter = SerialIterator(test, batch_size=64, shuffle=False, repeat=False)
 
# ニューラルネットワークの作成
# 3層のmulti layer perceptron(MLP)
import chainer.links as L
import chainer.functions as F
from chainer import Chain
from chainer import optimizers, training
from chainer.training import extensions

class MLP(chainer.Chain):
 
    def __init__(self):
        super().__init__()
        with self.init_scope():
            self.fc1 = L.Linear(None, 100)
            self.fc2 = L.Linear(None, 20)
            self.fc3 = L.Linear(None, 2)
 
    def forward(self, x):
        h = F.relu(self.fc1(x))
        h = F.relu(self.fc2(h))
        h = self.fc3(h)
        return h
 
# ネットワークをClassifierでラップしする
# (目的関数(デフォルトはsoftmax交差エントロピー)の計算し、損失を返す)
predictor = MLP()
net = L.Classifier(predictor)
 
# 最適化手法を選択して、オプティマイザを作成する
optimizer = optimizers.MomentumSGD(lr=0.1).setup(net)
 
# アップデータにイテレータとオプティマイザを渡す
updater = training.StandardUpdater(train_iter, optimizer, device=-1)
trainer = training.Trainer(updater, (50, 'epoch'), out='/results/')
from chainer.training import extensions
 
trainer.extend(extensions.LogReport(trigger=(5, 'epoch'), log_name='log'))
trainer.extend(extensions.snapshot(filename='snapshot_epoch-{.updater.epoch}'))
trainer.extend(extensions.dump_graph('main/loss'))
trainer.extend(extensions.Evaluator(test_iter, net, device=-1), name='val')
trainer.extend(extensions.PrintReport(['epoch', 'iteration', 'main/loss', 'main/accuracy', 'val/main/loss', 'val/main/accuracy', 'fc1/W/data/mean', 'elapsed_time']))
trainer.extend(extensions.PlotReport(['fc1/W/grad/mean'], x_key='epoch', file_name='mean.png'))
trainer.extend(extensions.PlotReport(['main/loss', 'val/main/loss'], x_key='epoch', file_name='loss.png'))
trainer.extend(extensions.PlotReport(['main/accuracy', 'val/main/accuracy'], x_key='epoch', file_name='accuracy.png'))
trainer.extend(extensions.ParameterStatistics(net.predictor.fc1, {'mean': np.mean}, report_grads=True))
 
trainer.run()
from IPython.display import Image, display
display(Image(filename='results/accuracy.png'))

それなりの精度は出ていそうですが、学習が進んでもテストセットに対するaccuracyがあまり改善していっていない…

推論

# 学習したモデルで推論してみる
with chainer.using_config('train', False), chainer.using_config('enable_backprop', False):
    y_pred = predictor(x_test)
 
# 推論結果の確認
print('accuracy', F.accuracy(y_pred, y_test)) # accuracy variable(0.88235295)
 
from sklearn.metrics import confusion_matrix
confusion_matrix(y_test, y_pred.data.argmax(axis=1))
 array([[21,  7],
       [ 5, 69]]) 

accuracyは図からもわかる通りの値。混同行列でクラス分類の精度を評価してみると偽陽性、偽陰性もありますが、一方に偏った分類で精度を稼いでるわけでもなさそう。

# 一部予測結果を見てみる
for i in range(int(len(y_pred)/10)):
    print('No.', indices_test[i])
    print('label:', y_test[i])
    print('pred :', np.argmax(y_pred[i].array))
    img = Draw.MolToImage(df.ROMol[indices_test[i]])
    display(img)

画像は出力の一部ですが、人目でも判別できそうなのはちゃんと正解できています。間違えたのを精査するのも楽しそうです。