インシリコデータ株式会社関連ブログ;Blog of the In Silico Data Ltd..

 ようこそ(株)インシリコデータブログへ。このブログでは、主としてインシリコデータのホームページでは直接編集できない細かな内容をフォローいたします。本ブログ内容等に関する質問/要望/意見等はこちらのブログか、インシリコデータのコンタクトアドレス(insilicodata.contact@gmail.com)にメールをいただければ幸いです。
 なお、一部で著者の私的な情報に関する掲示板としても本ブログを利用いたしますが、この点お許しください。
 In this blog, I discuss and write various themes which I cannot edit on the
homepage of the In Silico Data. This blog also partly include a little personal themes.

2012/08/12

多変量解析/パターン認識データ解析を行う時の最小サンプル数について:

◆ 多変量解析/パターン認識によるデータ解析を行う時の最小サンプル数はいくつでしょうか?


    実際に多変量解析/パターン認識によるデータ解析を行っていると、良く問われる質問として「データ解析を行う時の最小サンプル数を教えてください」という質問があります。

 私が行っている創薬関連研究分野では、データ解析に使えるサンプル数が少ないという事が特徴です。これは、一つのサンプルを作るのに時間と手間そして多額の費用がかかるのが大きな原因です。このため、“統計や多変量解析/パターン認識は多数のサンプルを扱うための手法”というイメージを持ち、あまりデータ解析に慣れていない研究者の方々にこのような質問をされる方が多いのだと思います。

  以下にまとめる「最小サンプル数」とは多変量解析/パターン認識(二クラス分類およびフィッティング(重回帰))を行う時のもので、統計等でアンケート用のサンプルを集める時の「最小サンプル数」とは考え方の基本が異なります。この点ご注意ください。
  多変量解析/パターン認識での基本は、「チャンスコリレーション(偶然相関)」の回避です。

 

 

◆ データ解析を行う場合の最小サンプル数は手法により変わりますが、以下のようになります


    ◇ 二クラス分類では4サンプル、フィッティング(重回帰)では5から6サンプルとなります。

   *但し、 データ解析に用いるパラメータとして1個だけ用いたとして・・。


    最小サンプル数は、正しいデータ解析を行った場合に必要となるサンプル数という事です。多変量解析/パターン認識によるデータ解析で正しい解析を行っているという保証は、その解析はチャンスコリレーション(偶然相関)を起こしていないという事が証明されている事であり、このような条件下でデータ解析を行うのに必要なサンプル数となります。

    先のチャンスコリレーション(偶然相関)の話でも述べましたように、信頼性指標(R)の値がその最低基準を超えていることが、多変量解析/パターン認識のデータ解析の信頼性を保証します。このため、信頼性指標(R)が最低とされる値の時のサンプル数が「データ解析時の最小サンプル数」となります。この場合、データ解析のコンディションは最低条件ですので、分母のパラメータ数は最低の数である1を採用します。この結果、上記の最小サンプル数を用いたデータ解析の実行時に利用可能となるパラメータ数は一個となります。パラメータ数が増えると、信頼性指標(R)の分母が大きくなりますので、最小サンプル数も大きくなります。
  *パラメータ数が1ということは、統計みたいな感じで、とても多変量解析/パターン認識とは言えないかもしれませんが・・・、とりあえず理論上でのお話です。お許しください。

  つまり、最小サンプル数はデータ解析に用いるパラメータ数と連動して変化します。

 データ解析に用いるパラメータ数が多くなると、最小サンプル数も大きくなります。


  従って、最小サンプル数として絶対的な値というものは決まっておらず、そのデータ解析に用いたパラメータの数に従って増減するというものです。簡単に考えるならば、最小サンプル数は二クラス分類の時はパラメータ数×4、フィッティング(重回帰)の時はパラメータ数×5から6と覚えてください。少ないサンプル数の時に、多数のパラメータを使えば良好な解析結果を出すことは簡単ですが、チャンスコリレーション(偶然相関)を引き起こしたとんでもない解析となります。

 但し、この基準は最低レベルの条件です。しいて確率的に言うならば10%程度の誤差発生のレベルです。この値を導く条件を厳しくすると(パラメータの取りうる値の数等)この誤差発生率の値はさらに大きくなります。従って、より安定した信頼性の高いデータ解析結果であることを保証するならば、先の信頼性指標(R)の値はこれよりもずっと大きな値が必要です。



◆ 多変量解析/パターン認識によるデータ解析実施上での基本的な考え


 多変量解析/パターン認識、特に二クラス分類やフィッティング(重回帰)では、通常の条件下では絶対に起こらないことが起きた、その結果であるという事が重要なポイントです。偶然に起こるのではなく、絶対に起こらないことが起きた。しかも、素晴らしい結果(高い分類率や高い相関係数)を伴って・・。従って、このような結果が出たからには、用いたパラメータ(説明変数)と目的変数との間には何らかの必然的な関係が存在するはずである。この必然性を解明するのが多変量解析/パターン認識における要因解析となります。これが、多変量解析/パターン認識による要因解析を行う上での最も重要な前提です。

 絶対に起こり得ない筈のことが、偶然にしかも簡単に起こる(つまり、チャンスコリレーション(偶然相関)が起こった)。このような条件下では何の必然性も存在しません。要因解析を行ってもフェークな結果に振り回されるだけです。

 例えば、総計100個(50個ずつの2クラス)のサンプルを用いて、わずか1個のパラメータで完全分類に成功したのであれば、この1個のパラメータは100個のサンプルを完全分類するための何らかの情報を持っているという事を疑うはずはありませんね。

 しかし、同じ完全分類であっても、100個のパラメータを用いた結果であるならば、これらのパラメータに二クラス分類に重要な情報を持っているとは考えにくいし、100個のパラメータの情報を解読するのも困難で、する気にもなりませんね。このような事を引き起こした人工的な事例としてフィッティング(重回帰)を例として、以前このブログにアップしてありますので見てください。



◆ サンプル数の大小と多変量解析/パターン認識


 正しいデータ解析を行うという前提であるならば、サンプル数が少なくなると利用できるパラメータ数も少なくなるので、良好な解析結果を出すことは難しくなります。また、サンプル数が少なくなると真の解析母集団との整合性が保ちにくくなるので、データ解析上での別の問題が大きくなってきます。このような問題を避けるには、良好なサンプリングが極めて重要です。こちらのサンプリング問題の方は明確な指標が見えないので、データ解析を行うという観点からは、より難しい問題となるでしょう。この場合は、データ解析研究者のノウハウが生きてくる仕事になります。

 このようなサンプリング問題を避けたいならば、可能な限りサンプル数を増やす努力が必要となります。

  信頼性指標(R)が同じとすると、サンプル数が大きいほどデータ解析時に利用できるパラメータ数は増えてきます。サンプル数が増えて、利用できるパラメータ数が増えるとデータ解析が楽になります。しかし、サンプル数が増えすぎると、こんどはサンプル中に含まれるノイズサンプルの絶対数も大きくなってきます。このようになると、ノイズ情報を嫌い(多変量解析/パターン認識ではノイズをノイズとして切り出せる技術が重要となります)、厳密な解を求める多変量解析/パターン認識の場合はデータ解析実施自体が困難になります。この点が、統計と多変量解析/パターン認識との大きな違いとなります。これとは逆に、サンプル数が少なすぎると、上でも述べましたように解析母集団を正しくあらわしているかという、サンプリングの問題が顕在化してきます。

    チャンスコリレーション(偶然相関)の問題はデータ解析に用いるサンプル数が少ない場合に特に注意しなければならない重要な問題です。常に多数のサンプルを扱う、あるいはサンプルを集め易い研究分野ではチャンスコリレーションについて強く意識する必要は無くなります。この問題は、サンプルを集めにくい創薬やその他の関連分野の研究で特に注意することが必要です。


◆ チャンスコリレーションと線形/非線形問題


 このチャンスコリレーション(偶然相関)の問題は今回まとめた最小サンプル数の問題に関係するのみならず、データ解析の線形/非線形問題にも大きく関与してきます。この場合は「過剰適合(Over fitting)」の問題も強く絡んできます。これらについては別の機会にまとめます。


文責:株式会社 インシリコデータ 湯田 浩太郎



0 件のコメント:

コメントを投稿