総ての分野で言えることですが、データ解析手法を個々の分野で適用する時はデータ解析手法と個々の適用分野単位で要求される特有の基準項目を満たすことが必要です。化学上の問題をテーマにした解析である以上、化学上での基準を満たすことが必要です。同時に、データ解析である以上、データ解析上での基準のクリアも求められます。
*有機金属化合物を1としたパラメータはデータ解析上での要求事項を満たしていない:Organometallic parameter does not meet requirements on data analysis
有機金属化合物を特別なサンプルとして扱うパラメータは、化合物のインデックス番号をそのままパラメータ化した最初の事例と異なり、単純な情報といえども化学的な情報を持ったパラメータであることは事実です。従って、化学上での問題はクリアできています。しかし、データ解析ということから発生するもう一つの制限事項、即ちデータ解析を正しく行う為の基準もクリアすることが必要ですが、この場合はクリアできていません。
*データ解析実行以前にクリアすべきサンプルポピュレーションの偏り問題:Misalignment problem of sample population
有機金属化合物を識別するのに用いられるパラメータがデータ解析の観点でクリアできていない事項は、有機金属と判定したパラメータを構成する1(有機金属化合物の場合)および0(それ以外)の値の割合が偏りすぎていることです。総サンプル数が約3000あったとしても、有機金属化合物が30しかなければ1の値は全体の1%しかありません。これは、事例1で扱った100サンプル中の1個のサンプルをアサインする「インデックスパラメータ」と同じ1と0の比率となります。一般的にパラメータが2値データの場合、少ないポピュレーションの方のサンプルデータは全体の10%以上あることが望ましいとされます。有機金属化合物の総数が他の一般化合物と比較して極端に小さいため、この有機金属化合物を1とするパラメータはデータ解析自体に利用することが出来ないパラメータとなっているのです。従って、このようなパラメータを用いた化学データ解析は、化学的には問題なくとも、データ解析的に欠陥のある解析を行っていることとなります。
*化学を隠れ蓑としたパラメータを見逃さない:Do not miss the parameter that assumed chemistry a cover
通常の化学データ解析では今回の有機金属パラメータのみならず、多種多様の正規のパラメータ群を二次元構造式より創出して利用しています。従って、これらのパラメータ群の中に、一部上記のような有機金属用の「インデックスパラメータ」が混在していても、他の正常な化学パラメータの陰に隠れてしまい、見逃すことが多くなります。
必死になってR値やR2値の向上ばかりを考えていると、このような不適切なパラメータの存在が見えなくなり、結果的にとんでもない結論に導かれてしまうこととなります。
ソフトがあればプログラムを実行することは簡単にできます。しかし、出てくる結果を保証し、より深い議論や結論に導くためには、化学のみならずデータ解析上での問題点のクリアといった地味な作業が極めて重要となります。
文責: 株式会社 インシリコデータ 湯田 浩太郎
文責: 株式会社 インシリコデータ 湯田 浩太郎
0 件のコメント:
コメントを投稿