分子描述符的尺寸表

2019年1月5日

什么是分子描述符?

根据分子的化学结构表达分子特征的数值。根据在计算描述符时考虑的复合空间,描述符的类型分为0-4维。

描述符列表(按维数)

尺寸数 描述符 具体例子
0D 配置描述符
计数描述符
分子量,键数
C,H,O,N等的原子数
1D 碎片数
指纹
计数和特定子结构的存在/不存在(0或1)
-CH3,-OH,-NH2,-COOH
-CH2-,-CH2-CH2-…等
2D 拓扑描述符
(拓扑索引,连接性索引)
Balaban J指数,Zagreb指数,Wiener指数,
Chi连接性指数,Kappa形状指数,
BCUT
3D 几何描述符
(几何描述符)
3D-MoRSE描述符
WHIM描述符
GETAWAY描述符
量子化学描述符
大小,空间,表面和体积描述符等。
4D 相互作用能 3D坐标+构象的采样。
网格,CoMFA,Volsurf

0-3尺寸的图片

下图很容易理解。这是法国斯特拉斯堡大学实验室(化学计量学和QSAR研究小组)的幻灯片。

资料来源:http://infochim.u-strasbg.fr/CS3/program/material/Todeschini.pdf

0D描述符

0D分子描述符也称为构造描述符和计数描述符。

包括分子量,分子中某些原子的数目(C,H,O,N,卤素,环数,重原子总数等),可旋转键的数目,2的数目(或3)双键等。列出了可以从分子式获得的值。

1D描述符

一组描述符,用于对特定的功能组和子结构(=片段数)进行计数,并以0和1(=指纹)表示其存在或不存在。
目标官能团和部分结构包括伯,仲和叔碳,末端和内部碳,羟基,氨基,酰胺基,亚氨基,羧酸,硫醇,苯环,芳环等。

一维描述符中还包括氢键供体和受体原子的数量以及诸如各种LogP(AlogP,ClogP,SlogP,XlogP等)的物理性质值。

2D描述符

二维描述符包括拓扑描述符。也称为拓扑索引或连接性索引。御茶之水大学的名誉教授春尾春也教授被认为是发明者。

拓扑描述符化合物是作为图结构及其分子图的化合物的不变性而计算出的值。

例如:
维纳指数:分子中某些原子之间最短距离的总和
拓扑极性表面积(TPSA):分子表面极性部分的面积。 需要三维结构的PSA的高速近似计算。

根据2D信息(例如TPSA)对3D信息进行的近似计算也称为2.5D描述符,并且3D描述符的一部分也适用于此。

3D描述符

三维描述符是基于化合物的三维结构计算的值。 需要精确的3D结构来计算3D描述符。

放置一个分子图,该分子图根据每个原子的特性对从量子化学计算(HOMO / LUMO能级等)和x,y和z的三维坐标进行加权计算得出的值进行加权分子矩阵。使用从中计算出的特征值。

4D描述符

通过与其他化合物的相互作用(例如相互作用能)定义的描述符。 它是从Grid,CoMFA,Volsurf方法等获得的。

描述符的维度分类

この記述子の次元は英語版wikiで0-4次元では0-3次元、RDkitやPaDEL‐descriptorでは1&2と3次元に分類されており、分類の仕方も様々です(Grid, CoMFA, Volsurfを3次元としているところもありました)。出典やソフトにより違いがありますが、運用上はSMILESからも計算できる0-2次元以内の記述子と立体構造情報が必要な3次元以上に大別して考えればよいのではないかと思います。

参考
・英文Wiki https://en.wikipedia.org/wiki/Molecular_descriptor
・ ScienceDirect主题  https://www.sciencedirect.com/topics/medicine-and-dentistry/molecular-descriptor
·http://infochim.u-strasbg.fr/CS3/program/material/Todeschini.pdf