インシリコデータとの連携ブログ : これって「インデックスパラメータ」？（１／２）： Is this an index parameter ?

インシリコデータ株式会社関連ブログ；Blog of the In Silico Data Ltd..

　ようこそ（株）インシリコデータブログへ。このブログでは、主としてインシリコデータのホームページでは直接編集できない細かな内容をフォローいたします。本ブログ内容等に関する質問／要望／意見等はこちらのブログか、インシリコデータのコンタクトアドレス(insilicodata.contact@gmail.com)にメールをいただければ幸いです。
　なお、一部で著者の私的な情報に関する掲示板としても本ブログを利用いたしますが、この点お許しください。
　In this blog, I discuss and write various themes which I cannot edit on the homepage of the In Silico Data. This blog also partly include a little personal themes.

2012/01/11

これって「インデックスパラメータ」？（１／２）： Is this an index parameter ?

＊「インデックスパラメータ」とは： What is the index parameter ?

「インデックスパラメータ」はサンプルのインデックス番号の代わりとして利用するパラメータです。パラメータの値が１と０の数値しか使えないような場合に利用されます。

通常はサンプルのＩＤと同じ番号の時に１を取り、それ以外は０とします。総てのサンプルに１：１に対応させることが必要なために、総パラメータ数はサンプル数と同じ数（次元）となります。

＊化学分野での「インデックスパラメータ」事例：An example of the index parameter in the chemical data analysis field

　無意識のうちにこの「インデックスパラメータ」と同じことを行っている化学パラメータの事例をお話します。これは、米国のある環境関連データベースで実際に使われています。

化合物の物性データを目的変数として重回帰分析を実施する場合、他とは異なる特殊な化合物が回帰式の相関係数を大きく下げてしまうことがあります。例えば有機金属化合物等はその典型的な例です。通常、有機金属化合物は他の汎用化合物とその物性値が大きく異なります。　このため、有機金属化合物群と汎用化合物とを一緒にして線形重回帰等を用いて物性値の解析を行うと、有機金属化合物群は常に回帰式から大きく外れてしまい、アウトライヤーとなります。　従って、有機金属化合物群は相関係数を大きく下げる原因となる扱いにくい厄介な化合物群です。

＊有機金属化合物の「インデックスパラメータ」化：
Generate an index parameter of organometallic compounds

有機金属化合物群を「インデックスパラメータ」で扱うことで、回帰式からのズレ（残差）を殆ど０とすることが可能です。例えば、有機金属化合物を１とし、他の化合物を０とするパラメータ。あるいは有機金属の、金属の種類単位にパラメータを用意して、該当する金属の有機金属化合物を１としたパラメータ群を構築します。これで、有機金属化合物の情報は「インデックスパラメータ」化されたことになります。このようなパラメータですと、用意するパラメータ数も大きく増えないため、別の機会に述べる「偶然相関（チャンスコリレーション）」の問題もクリアできます。この結果、残差値も劇的に減少し、相関が見違えるほど向上します。

皆様は、このようなパラメータは化学的に有機金属と一般化合物を識別しているだけだから、先の「インデックスパラメータ」みたいな意味の無いことではない。従って、何も悪いことはしていないと感じるでしょう。これは本当に真実でしょうか？　これが、化学という隠れ蓑の現実です。

文責：　株式会社　インシリコデータ　湯田　浩太郎

0 件のコメント:

コメントを投稿

インシリコデータ関連ブログ：
Welcome to the home page and blog of the In Silico Data, Ltd.

**************************************************
◇本ブログの親となるホームページです。
（株）インシリコデータのホームページへ
Welcome to the In Silico Data homepage
**********************************************

インシリコデータとの総合連携ブログ
◇本ブログです
Visit to the blog of In Silico Data

**********************************************

AI時代の AI創薬研究
◆創薬研究へのAI適用に関する研究
Visit to the blog of AI Drug Design

**********************************************

AI時代を支えるAIの研究討論
◆時代を変えるAI基本技術
（Attention, Transformer, 他）の検討
Come to the blog of AI releted discussion

**********************************************
AI時代の化学・創薬関連研究討論
◆AI時代の化学情報学およびケモメトリクス
Come to the blog of Chemical Information and Chemometrics
**********************************************
AI技術の歴史的討論
◆ルールベース、パーセプトロン、深層学習、大規模生成AI
Come to the blog of various AI basic technologies
****************************************************