多くの研究者の方々は、このようなことは自分の研究ではあり得ないと思っているかと思います。しかし、注意してデータ解析を検証してゆくと欧米の著名な国や研究機関により公開されているWEBサイトであっても、先のような事象と同じようなことが行われている事例が見られます。多数のサンプル数と高いR及びR2値が勲章のようにして堂々と公開されています。当然担当者に悪意はないのですが、意識しないうちに先の事例と同様なことを行っているのが多いのです。
重回帰解析の達成目標としてRやR2値が有名なので、一般的にはこれらの値の改善を目標として重回帰解析を実施します。パラメータを追加すると、少しであってもRやR2値が向上するので、研究者は新たなパラメータを考えてどんどん追加してゆきます。
この場合、先の例にあったように化合物IDのような不自然な値をパラメータとするわけではなく、少なくとも目標とする研究に関係するパラメータなので変だなーとは感じません。この結果、RやR2値は高い値を実現しているのに、よく当たらないという結果になってしまいます。
一体何が起きているのでしょうか? 多変量解析/パターン認識によるデータ解析を行うときに常に留意しなければならない複数の要因が絡まってこのような結果となっています。
1.過剰適合 ( Over Fitting)
2.偶然性 ( Chance Correlation )
3.インデックスパラメータ (Index Parameter) の使用
データ解析を実行する時には様々な守るべき条件や、留意点、データ解析手法の特徴と適用限界等に気をつけながら実行することが必要です。さもなければ、まったく意味のない結果に左右され、翻弄されてしまいます。
データ解析の基本が守られているということを前提として、データ解析を道具とする構造-活性相関(QSAR)やケモメトリックス等の二次的な研究分野が存在します。従って、構造-活性相関(QSAR)やケモメトリックス研究で多変量解析/パターン認識の基本がクリアされていない場合、どんなに素晴らしい結論を導き出しても、先の事例のようにそれらの結論はFAKEにしかすぎません。
構造-活性相関(QSAR)やケモメトリックス研究で正しく討論するためには、先に述べましたような多変量解析/パターン認識の基本をしっかりと理解しておくことが大切です。これらの制限事項は先の事例以外にも多数存在しますが、常にこれらの制限事項を意識して解析することが必要です。これらの制限事項は今後順次このブログ上で説明してゆきます。
なお、構造-活性相関(QSAR)やケモメトリックス分野には、データ解析とは異なる、これらの分野特有の制限事項や適用限界等が存在します。こちらの制限事項等も正しく理解しながら実施することが必要です。
I never do such funny data analysis.
The most of researchers think that such case is impossible to happen on their research.
However if we careful and verifying a data analysis results which are published open on WEB by famous national research center and institution in Europe and USA, we notice that the case that a thing like these operation is seen on WEB when we check those results of data analysis cautiously. More over on those WEB site, high R and R2 values and large number of samples are written just like the decoration and proof of an excellent data analysis. Of course, there is not malevolence but it is often doing a thing like the case on the person in charge while not conscious.
Because R and R2 values are the most important and famous index of goodness of results of regression data analysis, generally, a multiple regression analysis has been processed for achieving high R and R2 values. In general, R and R2 values are improve even if it is a little when adding a parameter, most of researcher think and generate various parameters and adds it steadily.
In this case, those generated parameters which are related with the research subjects to make a goal at least, by not making an unnatural value like the compound ID. Therefore most of researcher doesn't feel unusual or abnormal status. As a result, in the case that R and R2 values have been achieved high values, but it can’t get well and excellent prediction results.
What will get up on this case? More than one which must be always pay attention while doing a data analysis by multi-variate analysis and pattern recognition analysis becomes such a result.
1. Over Fitting
2. Chance Correlation
3. The use of ‘index parameter’
It is necessary to execute while careful of the various conditions and restrictions that comes from basis of data analysis methods. Otherwise, the conclusion which derived from the data analysis is influenced by the meaningless result and it has been made fun of it.
The research fields, for example the ‘QSAR (Quantitative Structure – Activity Relationships)’ and the ‘Chemometrics’, are constructed based on the assumption that the applied data analysis are processed correctly.
Therefore, the ‘QSAR’ and ‘Chemometrics’, when the basics of the multi-variate analysis and the pattern recognition aren't applied correctly, obtained results of the data analysis, like the case at the end, those conclusions pass only to FAKE. On the ‘QSAR’ and the ‘Chemometrics’ research works, it is important to understand the basics of the multi-variate analysis and the pattern recognition. There are some more important limitations on data analysis methods. The detail of those limitations are explained on this blog in order in the future.
Incidentally, the limitation and the application limit which are derived from the ‘QSAR’ and the ‘Chemometrics’ research. It is necessary to implement while understanding these limitations.
文責: 株式会社 インシリコデータ 湯田 浩太郎