プログラミング, 機械学習, 科学

PythonでDataFrame中の時系列・スペクトルデータを間引きたい時の方法です。

「pandas.DataFrame.resample」だと引数でD(日次)、W(週次)などの時間設定をしないといけません。日時の列がない時系列データやスペクトルデータの間引きたい時は以下の方法が使えます。

時系列・スペクトルデータとは

時系列・スペクトルデータとは、ある軸に沿って一定 ...

機械学習, 科学

1つの化合物に対してCAS番号(CAS No.)やIUPAC Nameを入力するとSMILESを出力してくれるサイトは多数ありますが、たくさんのリストになっている場合を1つ1つ入力して変換するのは不可能です。この記事では数千コ単位で含まれる化合物表記のリストをSMILESかInChI Keyに一括変換する方法を紹介します。

ChemCellとは

ChemCellは、Microsof ...

プログラミング, 機械学習

pandasにおける欠損値

実験系のデータセットなどでは、空欄がNA, N.A.(Not analyzed)やND, N.D.(Not detected)で補完されていることがあります。pandasでは、NAやNDはただの文字列(object)として認識されているため、そのままの状態ではdropna()、fillna()、isnull()関数を用いた欠損値に対する一括処理をすることができません ...