「インデックスパラメータ」はサンプルのインデックス番号の代わりとして利用するパラメータです。パラメータの値が1と0の数値しか使えないような場合に利用されます。
通常はサンプルのIDと同じ番号の時に1を取り、それ以外は0とします。総てのサンプルに1:1に対応させることが必要なために、総パラメータ数はサンプル数と同じ数(次元)となります。
*化学分野での「インデックスパラメータ」事例:An example of the index parameter in the chemical data analysis field
無意識のうちにこの「インデックスパラメータ」と同じことを行っている化学パラメータの事例をお話します。これは、米国のある環境関連データベースで実際に使われています。
化合物の物性データを目的変数として重回帰分析を実施する場合、他とは異なる特殊な化合物が回帰式の相関係数を大きく下げてしまうことがあります。例えば有機金属化合物等はその典型的な例です。通常、有機金属化合物は他の汎用化合物とその物性値が大きく異なります。 このため、有機金属化合物群と汎用化合物とを一緒にして線形重回帰等を用いて物性値の解析を行うと、有機金属化合物群は常に回帰式から大きく外れてしまい、アウトライヤーとなります。 従って、有機金属化合物群は相関係数を大きく下げる原因となる扱いにくい厄介な化合物群です。
*有機金属化合物の「インデックスパラメータ」化:
Generate an index parameter of organometallic compounds
Generate an index parameter of organometallic compounds
有機金属化合物群を「インデックスパラメータ」で扱うことで、回帰式からのズレ(残差)を殆ど0とすることが可能です。例えば、有機金属化合物を1とし、他の化合物を0とするパラメータ。あるいは有機金属の、金属の種類単位にパラメータを用意して、該当する金属の有機金属化合物を1としたパラメータ群を構築します。これで、有機金属化合物の情報は「インデックスパラメータ」化されたことになります。このようなパラメータですと、用意するパラメータ数も大きく増えないため、別の機会に述べる「偶然相関(チャンスコリレーション)」の問題もクリアできます。この結果、残差値も劇的に減少し、相関が見違えるほど向上します。
皆様は、このようなパラメータは化学的に有機金属と一般化合物を識別しているだけだから、先の「インデックスパラメータ」みたいな意味の無いことではない。従って、何も悪いことはしていないと感じるでしょう。これは本当に真実でしょうか? これが、化学という隠れ蓑の現実です。
文責: 株式会社 インシリコデータ 湯田 浩太郎
文責: 株式会社 インシリコデータ 湯田 浩太郎
0 件のコメント:
コメントを投稿