多変量解析/パターン認識実施時のサンプリングの重要性:
Importance of sampling on multi-variate analysis and pattern recognition techniques
◆ データ解析時におけるサンプリングについてまとめてみます。
一回目は全体的な観点から見た場合のサンプリングの重要性です。
データ解析時に最も重要なことは?⇒サンプリング
実際にデータ解析を行なうと、データ解析手法の差異やパラメータ選択(特徴抽出)等様々な問題が複雑に絡んできます。 これらの様々な問題を解決しながらベストの答えを探すのがデータ解析の面白いところで、成功すると達成感が出て楽しい作業となります。
このようなデータ解析を常々行なっていると、成功のみならず失敗も数多く経験します。 このような経験に基づいて、データ解析を行なう時に最も大事なことは何なのかと考えると、「データ解析を実施する時に最も重要なことは、サンプリングである」という結論に至ります。
サンプリングに失敗したままデータ解析を行なっても、当然ながら良い結果は得られません。 何らかの結果は出ますが、何の役にも立たない結果であり、データ解析そのものを邪魔、あるいは間違った方向に導いてしまう事になります。 多変量解析/パターン認識では最初に行うサンプリングが極めて大事であり、このサンプリングに成功すれば、良好なデータ解析結果は必ず付いてくると言っても過言ではないでしょう。
このサンプリングの問題は、依然説明したようなデータ解析自体の信頼性保持のための「チャンスコリレーション(偶然相関)」や「オーバーフィッティング(過剰適合)」といった問題とは別次元の問題です。 既にこれらの問題を意図的に起こすことで、100%分類や相関/決定係数の100%を簡単に実現できることを、重回帰を例にとって示してあります。
皆様も、データ解析という一見綺麗に見える包装紙に包まれた中身の良否を冷静に判断できる、あるいは判断する習慣や力を身につけてください。
サンプリングが怖いのは、サンプリングが良くない場合でもデータ解析は実施出来るので、必ず解析結果が出ることです。 先に述べた「チャンスコリレーション」や「オーバーフィッティング」を起こしていなければ、一般的にこのような場合は、分類率や相関/決定係数というものは低い値になるため、データ解析に用いたサンプルを疑う事になります。
この時、「チャンスコリレーション」や「オーバーフィッティング」を知らずに、分類率や相関/決定係数のみをデータ解析結果の評価指標としていると、パラメータを追加したりといった自殺行為を起こしやすく、別な意味での失敗を起こすことになります。
しかし、運悪くこれらの評価指標値が比較的高い値となった場合はサンプルを疑う事は無くなり、データ解析結果を信じて、次の段階となる要因解析等に移ることになります。 この後はノイズ情報に惑わされ、まともな解析が出来なくなり、混迷という泥沼に入ってしまいます。
この混迷から抜け出すのは、最終的にはその研究分野での常識や慣習という事になります。 結論が、その研究分野の常識や慣習と照らし合わせて納得のゆくときは問題ないのですが、納得がゆかない場合は、データ解析そのものが否定される場合と、従来の常識や慣習にとらわれない全く新しい事実が発見されたという二つの可能性があることとなります。 この証明には追試や検証試験が必要となりますが、楽しい試験となるでしょう。
文責:
株式会社 インシリコデータ
湯田 浩太郎
時代は「コンピュータ時代」から、データが総てを支配する「情報時代」へと急速に変化しつつあります。研究業務自体も、このような時代の変化に対応することが求められます。来るべき「情報時代」におけるAI 革命での「自律型(知的、オートノマス)研究」との適合性を議論することは喫緊の課題となります。
本ブログでは、AI 革命の推進技術である「(大規模)生成AI」が研究業務に与える様々な影響や効果について討論してまいります。興味ある方は、フォローと積極的な討論参加お願いいたします。
インシリコデータ株式会社関連ブログ;Blog of the In Silico Data Ltd..
ようこそ(株)インシリコデータブログへ。このブログでは、主としてインシリコデータのホームページでは直接編集できない細かな内容をフォローいたします。本ブログ内容等に関する質問/要望/意見等はこちらのブログか、インシリコデータのコンタクトアドレス(insilicodata.contact@gmail.com)にメールをいただければ幸いです。
なお、一部で著者の私的な情報に関する掲示板としても本ブログを利用いたしますが、この点お許しください。
In this blog, I discuss and write various themes which I cannot edit on the homepage of the In Silico Data. This blog also partly include a little personal themes.
なお、一部で著者の私的な情報に関する掲示板としても本ブログを利用いたしますが、この点お許しください。
In this blog, I discuss and write various themes which I cannot edit on the homepage of the In Silico Data. This blog also partly include a little personal themes.
0 件のコメント:
コメントを投稿