◇学会発表やパンフレットで使われている分類率、予測率、相関係数、決定係数の指標はどうして高い値が多いのかなーー?:Why the value that a classification rate, a predictive rate, a coefficient of correlation and determination used by a presentation at the meeting and a pamphlet shows high and excellent value?
いつも思うのですが、学会発表やパンフレットに書かれている分類率、予測率、相関係数、決定係数の値は素晴らしい値が多いと思いませんか。日常的にデータ解析を行っていると、学会発表やパンフレットで書かれている値を達成するのは至難の技で、かなり現実と離れた値ではないのかなーと不思議に思っています。
ちょっとこの点について考えてみました。
* 学会発表やパンフレットの「見せかけの指標」と、現場で行う実際のデータ解析とのギャップはどこからでるのでしょうか?
一般的に、学会発表やパンフレット等の広告では結構高い値が示され、その気になってしまいがちです。しかし、実際の現場で行うデータ解析では様々な条件からもっと低い値となるのが現状です。このように、現実のデータ解析と学会発表やパンフレットのデータ解析結果の値とのギャップが生じる大きな原因としては、データ解析の本質を無視し、「見せかけの指標」だけを良くすることに集中することの弊害と考えます。データ解析では様々な条件を変えて行うことが可能であり、意図的でなく、また本人が気付かないとしても嘘をつかずにかなり良い値を示すことは可能です。ちょうど、理想的な環境下での瞬間風速と、暴風雨の中での瞬間風速のような違いと言えるでしょう。どちらも瞬間風速であることには変わりありません。あるいは、サーキット上で500Km/h出せる車を一般道路で走らせると、急なカーブ、信号、通行人、でこぼこ等が邪魔して走れなくなり、このような道路では一般車の方が早く走れるようになる。こんな状態の方がイメージしやすいかもしれませんね。
ちょっとフォーマルな形にしたい時は理想的な環境で実験を行い結果を出す。日常的に行う場合には現実的な環境下で、最悪の事態も想定しながら値を出すというシチュエーションの違いでしょうか? それとも、自分がやっている実験では技術が未熟なために良い値が出ず、これが原因で専門家が行った実験結果である学会発表やパンフレットと大きな差が出たのでしょうか?
単に、発表やパンフレット等に用いられる「見せかけの指標」に頼ることなく、データ解析の本質を洞察出来れば、高い値になった理由がケースバイケースの様々な要因の結果なのか、あるいはこれらの総合的な効果により高い値となったかが見えてくるようになります。この種の悪しき事例は、世界的に公表されているパブリックで著名なデータベースでもしばしば見られます。この原因は、「見せかけの指標」重視のあまり、データ解析の本質がおろそかになったためと考えます。
これらのアプローチの極端な例や、データ解析手法の基本的な戦略等の違いについて、その一部はすでにこのブログに書きましたので、もう一度確認してください。
いつも思うのですが、学会発表やパンフレットに書かれている分類率、予測率、相関係数、決定係数の値は素晴らしい値が多いと思いませんか。日常的にデータ解析を行っていると、学会発表やパンフレットで書かれている値を達成するのは至難の技で、かなり現実と離れた値ではないのかなーと不思議に思っています。
ちょっとこの点について考えてみました。
* 学会発表やパンフレットの「見せかけの指標」と、現場で行う実際のデータ解析とのギャップはどこからでるのでしょうか?
一般的に、学会発表やパンフレット等の広告では結構高い値が示され、その気になってしまいがちです。しかし、実際の現場で行うデータ解析では様々な条件からもっと低い値となるのが現状です。このように、現実のデータ解析と学会発表やパンフレットのデータ解析結果の値とのギャップが生じる大きな原因としては、データ解析の本質を無視し、「見せかけの指標」だけを良くすることに集中することの弊害と考えます。データ解析では様々な条件を変えて行うことが可能であり、意図的でなく、また本人が気付かないとしても嘘をつかずにかなり良い値を示すことは可能です。ちょうど、理想的な環境下での瞬間風速と、暴風雨の中での瞬間風速のような違いと言えるでしょう。どちらも瞬間風速であることには変わりありません。あるいは、サーキット上で500Km/h出せる車を一般道路で走らせると、急なカーブ、信号、通行人、でこぼこ等が邪魔して走れなくなり、このような道路では一般車の方が早く走れるようになる。こんな状態の方がイメージしやすいかもしれませんね。
ちょっとフォーマルな形にしたい時は理想的な環境で実験を行い結果を出す。日常的に行う場合には現実的な環境下で、最悪の事態も想定しながら値を出すというシチュエーションの違いでしょうか? それとも、自分がやっている実験では技術が未熟なために良い値が出ず、これが原因で専門家が行った実験結果である学会発表やパンフレットと大きな差が出たのでしょうか?
単に、発表やパンフレット等に用いられる「見せかけの指標」に頼ることなく、データ解析の本質を洞察出来れば、高い値になった理由がケースバイケースの様々な要因の結果なのか、あるいはこれらの総合的な効果により高い値となったかが見えてくるようになります。この種の悪しき事例は、世界的に公表されているパブリックで著名なデータベースでもしばしば見られます。この原因は、「見せかけの指標」重視のあまり、データ解析の本質がおろそかになったためと考えます。
これらのアプローチの極端な例や、データ解析手法の基本的な戦略等の違いについて、その一部はすでにこのブログに書きましたので、もう一度確認してください。
・線形重回帰で常に相関係数(R)、および決定係数(R2)を1(100%)とするアプローチ
フェイクパラメータの適用による完全フィッティングの実現
・サンプル空間に合わせて解析を行うアプローチと、サンプル空間を作り直すアプローチ
科学に基づいたアプローチと、科学と関係のないアプローチ(線形及び非線形問題)
(a) 二クラス分類手法
(b) フィッティング(重回帰)関連手法
まだブログには書いておりませんが、上記の他にも「見せかけの指標」を向上するアプローチが種々存在します。無意識のうちに使っていることが殆どでしょうが、正しいデータ解析を行うためには重要なことですので、よく意識しておいてください。これらについては今後、このブログにて順次解説してゆきますので、興味のある方は注意していてください。
データ解析手法の差を論じるのも良いのですが、実際のデータ解析の現場では、厳しい条件下でも如何に正しいデータ解析を行うかを追求する方が大事です。
最近の学会発表では非線形解析手法の発展につれて、先に述べた「見せかけの指標」だけでは予測率とのギャップが著しいので、クロスバリデーション(CV:Cross Varidation)を行う事が一般的になっています。従って、多変量解析/パターン認識によるデータ解析を既に行っている研究者の方々は、自分はCVを出しているから、こんな「見せかけの指標」の問題はないと考えていると思います。しかし、このCVは単なるリサンプリングによる予測評価なので、CVといえども限界があります。これも、インシリコデータのブログで取り上げてゆく予定です。
発表用の「見せかけの指標」を信じるだけだと、実際にデータ解析を行う時に苦労や失敗を繰り返すことになります。難しいかもしれませんが、実際に自分で内容を理解し、影にある見えない操作等のポイントを見ることが出来るようにすることが必要です。
文責: 株式会社 インシリコデータ 湯田 浩太郎
0 件のコメント:
コメントを投稿