プログラミング, 科学

Pythonでケモインフォマティクスをやる際に必須のライブラリ群として、RDkit・Open Babel・Pybelがあります。どのライブラリも基本的に化合物をmol objectに変換するのを起点として各種操作を行います。あるライブライラリで作成したmol objectは別のでは読み込めないので、変換する必要があります。

プログラミング

フリーで公開されている化合物データセットで、化学構造に基づいた化合物空間(ケミカルスペース)の可視化をしてみます。フィンガープリント(MorganとRDkit)を算出し、PCAまたはUMAPで2次元空間にプロットできるようにします。プロットはクラスタリング結果と物性値でラベルします。

機械学習, 科学

後々練習用で使えそうな機械学習やケモインフォマティクスのデータセットをリストアップしておく。

機械学習

分子記述子(molecular descriptor)とは

その分子の特徴を化学構造に基づいて、数値として表わした値。記述子計算の際に考慮する化合物空間よって、記述子のタイプは0-4次元に区別される。

次元数別の記述子一覧次元数記述子具体例0D構造記述子
カウント記述子分子量、結合数
C,H,O,N等の原子数1Dフラグメント数
Fingerprints特定の部分構 ...

機械学習, 科学

1つの化合物に対してCAS番号(CAS No.)やIUPAC Nameを入力するとSMILESを出力してくれるサイトは多数ありますが、たくさんのリストになっている場合を1つ1つ入力して変換するのは不可能です。この記事では数千コ単位で含まれる化合物表記のリストをSMILESかInChI Keyに一括変換する方法を紹介します。

ChemCellとは

ChemCellは、Microsof ...