インシリコデータ株式会社関連ブログ;Blog of the In Silico Data Ltd..

 ようこそ(株)インシリコデータブログへ。このブログでは、主としてインシリコデータのホームページでは直接編集できない細かな内容をフォローいたします。本ブログ内容等に関する質問/要望/意見等はこちらのブログか、インシリコデータのコンタクトアドレス(contact@insilicodata.com)にいただければ幸いです。
 なお、一部で著者の私的な情報に関する掲示板としても本ブログを利用いたしますが、この点お許しください。
 In this blog, I discuss and write various themes which I cannot edit on the
homepage of the In Silico Data. This blog also partly include a little personal themes.

2012/08/22

「最少サンプル数」に関する特許が日本で承認されました:The new technology about "the number of the minimum samples" was patented in Japan.


◇多変量解析/パターン認識における、「最少サンプル数」に関する特許が日本で承認されました



  本特許は、サンプル数が少ない条件下に行われる多変量解析/パターン認識によるデータ解析の解析信頼性を保つための手法に関する特許です。

      一般的に多変量解析/パターン認識を用いてデータ解析を行う場合、利用可能なサンプル数が少なくなってくると「チャンスコリレーション(偶然相関)」「オーバーフィッティング(過剰適合)」等の問題等が顕著となり、データ解析そのものの信頼性が急激に低下してきます。 本特許はこのように、サンプル数が少ない時のデータ解析を安全に実施出来るようにするための操作技術に関する特許であり、この意味では基本特許となります。 


      サンプルデータを集めることが極めて困難な研究分野の場合、多変量解析/パターン認識によるデータ解析を行うには多くの場合困難が付きまといます。 本特許は、サンプル数が少ない場合であっても安心してデータ解析を実施する技術に関するものです。

      サンプルの総数が大きい場合であっても、例えば「KY法」を実施すると、ステップ(個々の繰り返し操作)数が大きくなり、最後のステップ近くになるとサンプル数が急激に減少し、解析に利用できるサンプル数が少なくなります。 この点で「KY法」を実施する場合、最終ステップに近づいてくるとデータ解析そのものの信頼性が落ちてくることになります。 このために「KY法」実施において、最後の方のステップではこのような問題を避けるべく最新の注意を払ってデータ解析を行う事が必要となります。 本特許はこのような場合にも適用可能であり、「KY法」の実施をより安全かつ容易にする特許となります。


◇ より具体的にはどのような特許ですか?


      サンプルの絶対数が小さい時、データ解析実施上での禁じ手である「チャンスコレレーション」や「過剰適合」が発生しやすくなり、信頼性の高いデータ解析を実施することが困難となります。 本特許は、このようにサンプル数が小さい時でも安心してデータ解析を行えるように環境を整える手法に関する特許です。

     サンプル数が少ないという事は、多変量解析/パターン認識を行う場合には様々な観点からデータ解析の信頼性に関する問題が出てきます。 この結果、データ解析自体が出来なくなる、たとえデータ解析が出来たとしてもその解析結果の信頼性が低くなる、等々の問題が発生し、先に説明しました「チャンスコリレーション」や「過剰適合」自体の問題も顕著化してきます。

     本特許は、サンプル数の絶対数が小さい時に行う多変量解析/パターン認識によるデータ解析のデータ解析信頼性を高度に保つようにすることに関する特許です。
     これらの問題に対して、仮想サンプルの創出という手法でサンプル数の問題を解決します。 つまり、サンプル数が少ないのであるから、サンプル数を追加してデータ解析を行うというものです。 この場合のサンプル追加に関する様々なテクニックをまとめて特許としたものです。

 内容に関しましては、今後時間がある時にまとめて本ブログにアップします。


文責:株式会社 インシリコデータ 湯田 浩太郎




2012/08/16

二クラス分類で、常に100%(完全)分類を実現する手法を公開いたします:


◆ 「チャンスコリレーション(偶然相関)」や「過剰適合(Over Fitting)」等のトリックを使うと簡単に良好な解析結果が得られます。 しかし、これは絶対に行ってはならない禁じ手です。



  以前、「常に相関係数を1(100%)とする秘伝中の秘伝を公開します」というタイトルでWEBにアップしました。 これは、データ解析でいわゆる「チャンスコリレーション(偶然相関)」を意図的に引き起こし、かつ「過剰適合(Over Fitting)」と称される禁じ手を上手に(???)利用することで、常に相関係数1(100%)を実現するものでした。 いわば多変量解析/パターン認識によるデータ解析では決して実行してはならない悪質な(本人がこのことに気がつかないと、大変な被害を受けますので常に注意してください)トリックを使うことで完全相関を実現したものでした。

  現在、多変量解析/パターン認識によるデータ解析はソフトウエアを使えば気軽に実行できるようになり、結果も簡単に出るようになっています。 本人が気付かないうちに前記の「チャンスコリレーション(偶然相関)」や「過剰適合(Over Fitting)」を起こしてしまうと、外見上は良好な結果が出たように見えます。 つまり、データ解析結果の指標(分類率や相関係数等)が良好な値となることが多くなります。 一般的には、これらの禁じ手を避けた正しいデータ解析を行う場合、良好なデータ解析結果を導き出すことは簡単なことではありません。 従って、これらの禁じ手に関する予備知識が無い状態のままデータ解析を行うと、大きな間違いを起こしているにもかかわらず、むしろ良い結果が出たと誤判断し、結果的に大きな被害を受けてしまいます。 多変量解析/パターン認識によるデータ解析を行う場合は、常にこれらの点に留意しつつデータ解析を行う事が必要です。 

  このようなマイナーな内容のことをわざわざWEBにアップしたのは、何も知らないでデータ解析を実行すると、とんでもない結果を導き出す事がありますよという、いわゆるデータ解析の内側に潜んでいる危険性を理解していただきたかったためです。



◇ トリックなしで、常に100%(完全)分類を実現する方法があるのでしょうか? ⇒ 「KY法」


  今回ここで紹介する手法は、先に述べたような禁じ手となるトリックを用いて100%分類を実現するフェークな手法ではありません。 データ解析の特性を上手に利用することで、トリック無く、真に100%(完全)分類を実現する手法です。 これは「KY(K-step Yard sampling) 法」と呼ばれる最新のデータ解析手法です




◇ 「KY(K-step Yard sampling) 法」とはどのような手法ですか?


  従来、他のデータ解析手法では実現が遠く及ばなかった100%(完全)分類を、どんな厳しい条件下であっても常に実現させる手法です。 例えば、クラス間重なりが非常に大きく分離しにくいサンプル群、サンプル数が非常に大きい場合等です。 開発者の私もここまで出来るとは思っていませんでしたので、最初はビックリしました。 
  「KY法」はデータ解析の手順に、従来手法とは全く異なる考え方を導入しますので、この意味では他の人から見ると大きなトリックかもしれませんが、これは良い意味でのトリックです。 意外なことに、これだけのパフォーマンス(100%(完全)分類)を実現するにもかかわらず、この「KY法」は全く新しい理論(アルゴリズムや計算手法)の展開に基づいたデータ解析手法ではありません。「KY法」は、従来手法の内容をそのままにして、その運用方法を変えただけの手法にしかすぎません。 データ解析としての基本的なアルゴリズム等は従来手法そのままを踏襲しております。 いわゆる、「メタ手法」となります。 詳細はKY法のブログか、インシリコデータのホームページにアップされている「KY法」の説明、あるいは「分子科学会」のMolecular Scienceへの投稿(2モデルKY法)を参照してください。

  「KY法」は二クラス分類のみならず、フィッティング(重回帰)でも適用されます。 フィッティング(重回帰)で適用されると、従来手法で同じサンプルを用いて実行した場合と比較してはるかに高い相関係数や決定係数を実現します。
  この「KYフィッティング」によるデータ解析結果は、禁じ手を用いたフェークな操作によるアプローチは相関係数や決定係数の値を常に最大値の1(100%)を実現しますので、その相関係数や決定係数の値だけを比較するとフェークなアプローチには負けてしまいます。 しかし、この「KYフィッティング」は多変量解析/パターン認識によるデータ解析上での禁じ手(「チャンスコリレーション(偶然相関)」や「過剰適合」等)を一切使うことなく実施される正当な手法です。 しかも、従来のフィッティング(重回帰)手法をそのまま適用した時と比較すると、この「KYフィッティング」では極めて高い相関係数や決定係数が実現されます。


◇ 現時点で「KY法」は、二クラス分類3種類、フィッティング(重回帰)3種類の、総計6種類開発されています


  現在、二クラス分類用のKY法として3種類、またフィッティング(重回帰)用のKY法として3種類の総計6種類のKY法が開発されています。 これらの詳細に関しましては今後インシリコデータのホームページ、あるいはKY法のブログにて順番に紹介させていただきます。


◇ 「KY法」の特徴とは何でしょう?


  「KY法」は従来手法と比較して、劇的な分類率(100%)の向上および極めて高い相関係数や決定係数を実現します。 しかし、「KY法」内部で使われる基本的なデータ解析手法は、現在利用されているデータ解析手法そのもの(線形/非線形判別分析、ニューラルネットワーク、サポートベクターマシン、アダブースト等)であり、「KY法」として全く新しい手法やアルゴリズム等が開発されているわけではありません。 単に、サンプル群の取り扱いと繰り返し操作を組み入れただけです。
  従って、「KY法」となるための特徴は以下に示す二つです。

 1.サンプル群(空間)の扱い手法の違い
 2.操作の繰り返し実行



  上記の手続きをとることで、「KY法」は他の手法には無い優れた特性を有する事となります。 分類率や相関係数等のデータ解析指標のみならず、対象となるサンプルセットは二クラス分類であるならば、クラス間重なりが極めて高いサンプル群を扱っても100%分類を実現します。 また、フィッティング(重回帰)でも残差の大きなサンプルセットを用いても、その相関係数を劇的に改良出来ます。 さらに、サンプル数が増えても完全分類や高い相関係数を実現します。
  従って、「KY法」が扱うサンプルの特徴は以下のようになります。

1.データ解析が困難なサンプル空間を持つサンプルセットであっても、高いパフォーマンスを実現する。
2.サンプル数がどんなに増えても、良好な解析結果を出せる



  要因解析を行うという観点でも「KY法」は優れた、便利な機能を有します。 「KY法」は対象とするサンプル群をより小さなサブサンプル群に分けることが出来るので、大量のサンプル群を一度に用いて要因解析するよりも、高い精度での要因解析が可能となります。 これは、用いたサンプル群のみならず、データ解析に用いたパラメータ群もより小さなサブセット化されているので、パラメータからの情報読み取りもサンプル同様に容易になります。
  従って、「KY法」を用いた要因解析の特徴は以下のようになります。

1.サンプル群やパラメータ群のサブセット化を実現する
2.サンプルやパラメータを対象とした要因解析が容易になる


  「KY法」のもう一つの特徴は、データ解析手法としての柔軟性が高い事です。「KY法」で作成される判別関数や重回帰式は従来の手法を用いて作成されますが、一つの「KY法」の中で利用される複数の判別関数や重回帰式は、それぞれ異なる手法を用いて構築する事が可能です。
  例えば、2本の判別関数を用いた「KY法」では、線形および非線形判別関数を組み合わせて用いることが可能です。 しかも同一のステップ内で両方用いても良いし、個々のステップ単位で線形、あるいは非線形というように組み合わせることが可能です。
  さらに、一つの「KY法」内部で、2モデルKY法、1モデルKY法、モデルフリーKY法と個々のステップ単位で組み合わせて利用する事も可能です。 これらの組み合わせは、「KY法」を実行する過程でそのデータ解析の進行状況に応じて臨機応変に変化させることが可能です。


1.「KY法」内部で使うデータ解析手法の組み合わせ様式は自由
  例:同じステップ内で線形/非線形判別関数を組み合わせる
    異なったステップ単位で線形/非線形を組み合わせる
2.基本的な「KY法」自体も混在して利用可能
  例:一つの「KY法」中で、1モデルKY法、2モデルKY法、さらにはモデルフリーKY法等を組み合わせて利用可能




  以上、「KY法」の特徴について様々な観点からまとめてみました。 実に多くの特徴を有した手法であることを理解いただけたかと思います。

  このように従来手法をそのまま用いるのではなく、「KY法」として用いることで、従来手法では実現できなかった様々なことが簡単に実現出来るようになります。 現時点で「KY法」は、二クラス分類とフィッティング(重回帰)のデータ解析分野で適用可能です。 「KY法」の基本的な考えを適用することで、二クラス分類、フィッティング(重回帰)以外のデータ解析分野にも展開可能になるものと思いますが、これは今後の課題となるでしょう。

  「KY法」はクラス間重なりの大きなサンプル空間、あるいは分散の大きな空間といった、従来からのデータ解析手法では扱いにくく、良い結果を出すことが出来なかった分野での解析に強力な効果をもたらします。 また、「KY法」の基本原理(繰り返し操作)からわかるように、サンプル数がどんなに多くなってもその最高のパフォーマンスを保持する事が可能な手法です。 大量のデータ解析を扱う事が求められる今後のビッグデータ時代に、多変量解析/パターン認識の厳密なデータ解析力をそのままビッグデータにも適用できる強力な道具になるものと思います。


文責:株式会社 インシリコデータ 湯田 浩太郎




2012/08/12

多変量解析/パターン認識データ解析を行う時の最小サンプル数について:

◆ 多変量解析/パターン認識によるデータ解析を行う時の最小サンプル数はいくつでしょうか?


    実際に多変量解析/パターン認識によるデータ解析を行っていると、良く問われる質問として「データ解析を行う時の最小サンプル数を教えてください」という質問があります。

 私が行っている創薬関連研究分野では、データ解析に使えるサンプル数が少ないという事が特徴です。これは、一つのサンプルを作るのに時間と手間そして多額の費用がかかるのが大きな原因です。このため、“統計や多変量解析/パターン認識は多数のサンプルを扱うための手法”というイメージを持ち、あまりデータ解析に慣れていない研究者の方々にこのような質問をされる方が多いのだと思います。

  以下にまとめる「最小サンプル数」とは多変量解析/パターン認識(二クラス分類およびフィッティング(重回帰))を行う時のもので、統計等でアンケート用のサンプルを集める時の「最小サンプル数」とは考え方の基本が異なります。この点ご注意ください。
  多変量解析/パターン認識での基本は、「チャンスコリレーション(偶然相関)」の回避です。

 

 

◆ データ解析を行う場合の最小サンプル数は手法により変わりますが、以下のようになります


    ◇ 二クラス分類では4サンプル、フィッティング(重回帰)では5から6サンプルとなります。

   *但し、 データ解析に用いるパラメータとして1個だけ用いたとして・・。


    最小サンプル数は、正しいデータ解析を行った場合に必要となるサンプル数という事です。多変量解析/パターン認識によるデータ解析で正しい解析を行っているという保証は、その解析はチャンスコリレーション(偶然相関)を起こしていないという事が証明されている事であり、このような条件下でデータ解析を行うのに必要なサンプル数となります。

    先のチャンスコリレーション(偶然相関)の話でも述べましたように、信頼性指標(R)の値がその最低基準を超えていることが、多変量解析/パターン認識のデータ解析の信頼性を保証します。このため、信頼性指標(R)が最低とされる値の時のサンプル数が「データ解析時の最小サンプル数」となります。この場合、データ解析のコンディションは最低条件ですので、分母のパラメータ数は最低の数である1を採用します。この結果、上記の最小サンプル数を用いたデータ解析の実行時に利用可能となるパラメータ数は一個となります。パラメータ数が増えると、信頼性指標(R)の分母が大きくなりますので、最小サンプル数も大きくなります。
  *パラメータ数が1ということは、統計みたいな感じで、とても多変量解析/パターン認識とは言えないかもしれませんが・・・、とりあえず理論上でのお話です。お許しください。

  つまり、最小サンプル数はデータ解析に用いるパラメータ数と連動して変化します。

 データ解析に用いるパラメータ数が多くなると、最小サンプル数も大きくなります。


  従って、最小サンプル数として絶対的な値というものは決まっておらず、そのデータ解析に用いたパラメータの数に従って増減するというものです。簡単に考えるならば、最小サンプル数は二クラス分類の時はパラメータ数×4、フィッティング(重回帰)の時はパラメータ数×5から6と覚えてください。少ないサンプル数の時に、多数のパラメータを使えば良好な解析結果を出すことは簡単ですが、チャンスコリレーション(偶然相関)を引き起こしたとんでもない解析となります。

 但し、この基準は最低レベルの条件です。しいて確率的に言うならば10%程度の誤差発生のレベルです。この値を導く条件を厳しくすると(パラメータの取りうる値の数等)この誤差発生率の値はさらに大きくなります。従って、より安定した信頼性の高いデータ解析結果であることを保証するならば、先の信頼性指標(R)の値はこれよりもずっと大きな値が必要です。



◆ 多変量解析/パターン認識によるデータ解析実施上での基本的な考え


 多変量解析/パターン認識、特に二クラス分類やフィッティング(重回帰)では、通常の条件下では絶対に起こらないことが起きた、その結果であるという事が重要なポイントです。偶然に起こるのではなく、絶対に起こらないことが起きた。しかも、素晴らしい結果(高い分類率や高い相関係数)を伴って・・。従って、このような結果が出たからには、用いたパラメータ(説明変数)と目的変数との間には何らかの必然的な関係が存在するはずである。この必然性を解明するのが多変量解析/パターン認識における要因解析となります。これが、多変量解析/パターン認識による要因解析を行う上での最も重要な前提です。

 絶対に起こり得ない筈のことが、偶然にしかも簡単に起こる(つまり、チャンスコリレーション(偶然相関)が起こった)。このような条件下では何の必然性も存在しません。要因解析を行ってもフェークな結果に振り回されるだけです。

 例えば、総計100個(50個ずつの2クラス)のサンプルを用いて、わずか1個のパラメータで完全分類に成功したのであれば、この1個のパラメータは100個のサンプルを完全分類するための何らかの情報を持っているという事を疑うはずはありませんね。

 しかし、同じ完全分類であっても、100個のパラメータを用いた結果であるならば、これらのパラメータに二クラス分類に重要な情報を持っているとは考えにくいし、100個のパラメータの情報を解読するのも困難で、する気にもなりませんね。このような事を引き起こした人工的な事例としてフィッティング(重回帰)を例として、以前このブログにアップしてありますので見てください。



◆ サンプル数の大小と多変量解析/パターン認識


 正しいデータ解析を行うという前提であるならば、サンプル数が少なくなると利用できるパラメータ数も少なくなるので、良好な解析結果を出すことは難しくなります。また、サンプル数が少なくなると真の解析母集団との整合性が保ちにくくなるので、データ解析上での別の問題が大きくなってきます。このような問題を避けるには、良好なサンプリングが極めて重要です。こちらのサンプリング問題の方は明確な指標が見えないので、データ解析を行うという観点からは、より難しい問題となるでしょう。この場合は、データ解析研究者のノウハウが生きてくる仕事になります。

 このようなサンプリング問題を避けたいならば、可能な限りサンプル数を増やす努力が必要となります。

  信頼性指標(R)が同じとすると、サンプル数が大きいほどデータ解析時に利用できるパラメータ数は増えてきます。サンプル数が増えて、利用できるパラメータ数が増えるとデータ解析が楽になります。しかし、サンプル数が増えすぎると、こんどはサンプル中に含まれるノイズサンプルの絶対数も大きくなってきます。このようになると、ノイズ情報を嫌い(多変量解析/パターン認識ではノイズをノイズとして切り出せる技術が重要となります)、厳密な解を求める多変量解析/パターン認識の場合はデータ解析実施自体が困難になります。この点が、統計と多変量解析/パターン認識との大きな違いとなります。これとは逆に、サンプル数が少なすぎると、上でも述べましたように解析母集団を正しくあらわしているかという、サンプリングの問題が顕在化してきます。

    チャンスコリレーション(偶然相関)の問題はデータ解析に用いるサンプル数が少ない場合に特に注意しなければならない重要な問題です。常に多数のサンプルを扱う、あるいはサンプルを集め易い研究分野ではチャンスコリレーションについて強く意識する必要は無くなります。この問題は、サンプルを集めにくい創薬やその他の関連分野の研究で特に注意することが必要です。


◆ チャンスコリレーションと線形/非線形問題


 このチャンスコリレーション(偶然相関)の問題は今回まとめた最小サンプル数の問題に関係するのみならず、データ解析の線形/非線形問題にも大きく関与してきます。この場合は「過剰適合(Over fitting)」の問題も強く絡んできます。これらについては別の機会にまとめます。


文責:株式会社 インシリコデータ 湯田 浩太郎



2012/08/04

チャンスコリレーション(偶然相関)とは:Chance corelation

 「チャンスコリレーション(偶然相関)」とは何でしょうか:

What is the "chance correlation" ?




 「チャンスコリレーション(偶然相関)」の言葉をご存知ですか?:

Do you know the term "chance corelation" ?



◇    全く不思議ですが、「チャンスコリレーション」あるいは「偶然相関」という言葉をインターネット上で検索しても殆どヒットしません。統計や多変量解析/パターン認識関連で、個々の手法等に関する情報や解説は山ほど出てくるのですが、データ解析を実際に行う時に最も重視すべき「チャンスコリレーション(偶然相関)」に関する議論や討論が殆ど無いことに本当にビックリします。 この原因としては、統計や多変量解析/パターン認識の専門家が主体でWEBを書いており、実際にデータ解析を行って、そのデータ解析の結果やその正しい解析を重視するという立場で考えていないため、あるいはこのような運用技術を重視していないせいかと思います。

◇    データ解析手法自体も大事ですが、実際のデータ解析に利用されてこそデータ解析手法としての価値が出るはずです。 例えば、自動車を作る技術は大切で、機能もディスプレイしても素晴らしいものを作るのは大変な技術です。 しかし、自動車は実際に人を乗せ、荷物を積んで走ってこそ価値の出るものです。 事故を起こさないための交通ルールの整備や、快適に運転できる運転技術の普及、天候や地形に左右されずに確実に移動できる技術、車種が異なっても安全に運転できる技術等、自動車の運用には様々な技術やルールが必要です。

◇    統計や多変量解析/パターン認識も、手法自体の問題も重要ですが、自動車のように一般に普及させ、道具のように広く利用されるためには、これらのデータ解析手法を確実に個々の分野に正しく適応する技術の確立と、その普及も大事と考えます。

◇    確かにこれを書いている私自身、統計や多変量解析/パターン認識の専門家ではありません。これらのデータ解析技術を自分の研究分野(創薬、ケモメトリックス、化学解析、等々)に適用し、素晴らしい、あるいは新しい事実を導き出すという事を実施目的として日々データ解析を行っております。従って、データ解析手法自体に興味があるわけではありません。この立場から、いかに正しいデータ解析を行うか、いかにすれば貴重な情報を取り出せるかの方に注力しています。
    もっとも、私自身はKY法という新しいデータ解析手法を開発しておりますが・・。これは、従来からの手法をそのまま適用しているだけでは、自分が行っている研究分野(安全性(毒性)解析)の解析が出来ないと感じたため、必要に迫られて開発したもので、私のオリジナル手法です。

◇    統計や多変量解析/パターン認識手法を用いてデータ解析を行い、何らかの情報を取り出すという時に最も気をつけなければいけないことは、データ解析手法そのものの新規性や理論ではありません。そのデータ解析が正しく行われているか、その解析が手法の限界を超えてはいないのか、正しい適用をしているのか、データ解析手法以外の適用分野特有の問題をきちんと満たしているのか、等々の様々な問題をクリアしてデータ解析を行う事です。

◇    データ解析を行っていると、学会発表等では新しいデータ解析手法を一歩でも早く適用して、発表したり、複数の手法を組み合わせて新規性を出したり等されており、データ解析の手法に重点が置かれた発表が多いようです。しかし、殆どの研究者の方はデータ解析を道具として使う立場の方々ですし、そういう方々が統計や多変量解析/パターン認識を行ってこそ真の普及ですし、データ解析が社会に役立つ手法となります。そのような方々は、データ解析の本質を考えて、失敗のないデータ解析を行う事に注力するべきです。そうでないと、データ解析からとんでもないしっぺ返しを受けることになります。


◆    「チャンスコリレーション(偶然相関)」は正しいデータ解析を行う上でクリアすべき、最も重要な問題です。また、最小サンプル数の問題や、線形/非線形問題にも関係してきます。



◇データ解析の外見と中身の違いを生じさせる悪魔の要因:「チャンスコリレーション」

The devil factor which induce serious big difference between appearance and contents of data-analysis


◇    チャンスコリレーション(偶然相関)の言葉の通り、全く偶然に解析が成功する事を意味します。つまり、解析目的とは全く関係のない要因によりクラス分類では100%分類が達成され、フィッティング(重回帰)であっても100%の相関が簡単に実現してしまいます。ちょっと喩が良くないですが、外から見るときれいな容器でありながら、中には腐った食べ物が入っているような状況です。外見が素晴らしいので、中に入っている物も当然素晴らしいと考えががちですが・・・・。

◇    データ解析の常識でいえば、100%分類や100%相関は出来うる最高のデータ解析が出来た(外見が素晴らしい容器となった)ことを意味しますが、これが全くの偶然により達成される場合があり、これがチャンスコリレーション(偶然相関)が起こった(容器の中に入っている物が腐っている)結果であることになります。このために、多変量解析/パターン認識のデータ解析では常にこのチャンスコリレーション(偶然相関)に注意することが必要です。



◇失敗のないデータ解析を行うため、常に留意すべき「チャンスコリレーション」の問題:

"Chance corelation" which should always mind in order to make successful data-analysis


◇    データ解析結果の信頼性を高く保ち、後から失敗解析とすることのないようにするには、データ解析の実施にあたり常に守らなければならない留意点がいくつかあります。その中でも、よく議論されるチャンスコリレーション(偶然相関)の問題は、知っていてもデータ解析に夢中になると忘れてしまう事が多いことなので、特に注意が必要です。

◇    チャンスコリレーション(偶然相関)の問題が、実際のデータ解析上でどのような形や問題として出てくるかについてしっかりと理解しておくことが大事です。この問題がクリアされていなくとも、データ解析自体は正常に実行されるので、データ解析を行っている研究者自体が常に注意しなければなりません。結局、チャンスコリレーション(偶然相関)が起こったデータ解析では、そのデータ解析結果の信頼性が極めて低いために、分類結果や、その結果を用いて行う要因解析、さらには予測等の作業の一切が無駄になります。自分の仕事に失敗結果のしわ寄せがきてしまいます。



◇チャンスコリレーションが起こっていることはどのようにしてチェックしますか:

How to check that chance corelation has happened ?


◇    一般的にチャンスコリレーション(偶然相関)を起こしているデータ解析結果は、データ解析過程で利用するデータ解析の指標(分類率や相関係数等)が良好な値となっている事が多く、このためにチャンスコリレーション(偶然相関)を起こしていることに気がつかずに、その解析結果を信用して次の解析に進むことが多くなります。このために、最終的なデータ解析結果が示す様々な要因を検証した段階で、データ解析結果と新たな実験結果が全く合わないという結果となります。この段階でやっとチャンスコリレーション(偶然相関)の問題に気がつくか、気がつかなければデータ解析自体への不信感が芽生えることになります。

◇    データ解析過程で意図的にチャンスコリレーション(偶然相関)を起こして良好な結果を得る。この極端な事例が、先に述べた重回帰解析における100%相関の出し方の秘訣です。

◇    この事例でも述べましたが、解析結果は100%相関なので最高の解析結果が出ています。丁度、容器が九谷焼の最高級品になった感じです。ですが、なんかおかしいですね。先の事例では、解析目的と全く関係のないパラメータを使っていたので、すぐにおかしいことに気が付きます。しかし、日常行う解析では100%相関を達成することは殆どなく(あると殆どの人は、データ解析自体を疑いますが・・)、代わりに高い相関係数が達成されるため、解析が良好と考えます。さらに殆どの場合は、解析目的と何らかの関係があると考えられるパラメータを用いて解析を行いますので、解析結果が変だなー(つまり、チャンスコリレーション(偶然相関)を起こしている:中身が腐っている)と感じることは少ないようです。

容器の中身を見ることのできるレントゲンを使う:

The X-rays which can see the contents of the vessel are used

◇    データ解析の質を評価する指標(分類/予測率や相関/決定係数)がどんなに素晴らしくとも、これは容器の外見を評価するもので、その容器の中に入っているものの評価を意味するものではありません。この、データ解析で最も重要な中身の評価はどのようにするのでしょうか。

◇    一般的に、中の見えない容器の中身を評価する手法として工学的には非破壊検査がありますが、このとき主として利用されるレントゲン技術のようなものが、チャンスコリレーションにも存在します。これは、単なるインデックスですが、このインデックスの存在を知ってデータ解析を行っている人は少ないようです。特に、少ないサンプルを扱い、多数のパラメータを使うチャンスの多い研究分野でデータ解析を行う場合は注意が必要で、このインデックスを常に意識する事が必要です。

チャンスコリレーション(偶然相関)を避けるための指標:「信頼性指標」

What is the index for avoiding chance corelation?

It is the "Index of Reliability"


◇    このチャンスコリレーション(偶然相関)が起きているか否かをチェックする事は簡単です。データ解析に用いたサンプルの数(S)と、パラメータの数(P)に留意するだけで良いのです。実際にはサンプルの数(S)を、解析に用いたパラメータの数(P)で割った値(信頼性指標(R): Index of Reliability)をチャンスコリレーション(偶然相関)が起こっているか否かの指標とします。この指標は二クラス分類の場合とフィッティング(重回帰)の場合とで若干異なります。

二クラス分類の場合 ⇒ 

信頼性指標値(R = S/P)は ≧ 4

フィッティング(重回帰)の場合 ⇒ 

信頼性指標値(R = S/P)は ≧ 5から6


◇    上記の信頼性指標を常に念頭に置きながらデータ解析を行う事が必要です。これが守られれば、チャンスコリレーション(偶然相関)の問題に悩まされることなく、良質のデータ解析を行う事が出来ます。フィッティング(重回帰)の場合の信頼性指標値は国際的には5ですが、日本国内ではより厳しい基準となる6が使われます。特に、構造-活性相関等の研究分野では厳しくなりますのでご注意ください。一方で、構造-活性相関分野ではチャンスコリレーション(偶然相関)の問題が一部にあったとしても、要因解析の内容や、他の解析結果との総合的な議論や討論のレベルで、この問題の扱いがケースバイケースで判断されます。

◇ 上記の信頼性指標の値は、いわばデータ解析を行う時の最低条件です。実際にこの値よりも大きな値となるようにする事が必要です。この信頼性指標の値が大きいという事は、実際に起こる確率が極めて低い事象であることを意味します。言い換えれば、「事実上起こり得ない事が起こった」という事です。この起こり得ない条件下でありながら極めて高い相関係数や分類率が達成されているならば、いわば「奇跡が起こった」事になります。これは、解析目的と用いたパラメータ間に何らかの強い必然性/相関があったために起こった現象と言えます。これは、安心して要因解析が行えることを意味します。

◆ 安心して、新しい事実を発見し、自身を持って発表しましょう。R(信頼性指標)値が大きければ、あなたの行ったデータ解析の解析信頼性は極めて高いと保証されています。データ解析の品質に関して誰も疑問を挟む余地はありません。


文責:株式会社 インシリコデータ 湯田 浩太郎