インシリコデータとの連携ブログ : 無駄なデータ解析を避けるために：In order to avoid useless data analysis

インシリコデータ株式会社関連ブログ；Blog of the In Silico Data Ltd..

　ようこそ（株）インシリコデータブログへ。このブログでは、主としてインシリコデータのホームページでは直接編集できない細かな内容をフォローいたします。本ブログ内容等に関する質問／要望／意見等はこちらのブログか、インシリコデータのコンタクトアドレス(insilicodata.contact@gmail.com)にメールをいただければ幸いです。
　なお、一部で著者の私的な情報に関する掲示板としても本ブログを利用いたしますが、この点お許しください。
　In this blog, I discuss and write various themes which I cannot edit on the homepage of the In Silico Data. This blog also partly include a little personal themes.

2012/07/17

無駄なデータ解析を避けるために：In order to avoid useless data analysis

◆正しいデータ解析を行うための条件とは：

The conditions for executing correct data analysis

◇判別関数や重回帰式を作成する時に用いる指標とデータ解析の信頼性の問題：

The problem of the reliability of the index used when creating a discriminant function and a multiple regression equation on data-analysis

データ解析を行う時、通常は良いデータ解析を行うための目標（指標）として分類率や相関係数の値のみを目標値として判別関数や重回帰式を作成していませんか。確かにデータ解析という観点では高い分類率を達成する判別関数の構築や、フィッティング（重回帰）では高い相関係数を達成する重回帰式を求めることが重要です。しかし、高い分類率と高い相関係数を達成することは、単に作成した判別関数や重回帰式の性能を示すものであり、データ解析そのものの解析信頼性を保証するものではありません。性能が良くとも、信頼性が低いという事は良くありますし、この点に注意することはデータ解析を行う時の基本的な心構えです。

◇データ解析におけるチャンスコリレーション（偶然相関）の問題：

The problem of the " Chance corelation" in data-analysis

    信頼性の高いデータ解析を行うためには、データ解析が本質的に有する問題点やデータ解析に潜む危険な要因をクリアすることが必要です。データ解析実施上における危険要因は幾つかありますが、この中でも最も重要で、データ解析時に常に意識しなければならない事項として「チャンスコリレーション（偶然相関）：Chance correlation」の問題があります。
    多変量解析/パターン認識を行う上ではこの問題は極めて重要です。しかし、このチャンスコリレーションをＷＥＢ上で検索してみると、殆どヒットしてきません。あるのは構造-活性相関や化学解析分野での記事が多く、一般的な工学分野での記載は殆どありません。これは、チャンスコリレーションはサンプル数とデータ解析に用いるパラメータ数との関係で決まるため、多数のサンプルを調達することが容易な工学分野ではあまり意識する必要が無いという点が大きな原因と思われます。。
    しかし、この「チャンスコリレーション（偶然相関）」の問題は信頼性の高いデータ解析を実施するという点で極めて重要であり、データ解析の様々な場面で出てきますので、ここで改めてこの問題についてまとめてみます。

◇チャンスコリレーション（偶然相関）とサンプル数、パラメータ数：

The chance corelation, the number of samples, the number of parameters

チャンスコリレーションを監視する、あるいはモニターするためにはデータ解析に用いるサンプルの数（Ｓ）を解析に用いたパラメータの数（Ｐ）で割った値である信頼性指標（Ｒ）が用いられます。
データ解析を行う時は分類率や相関係数の値を高いものとすることが大きな目標であることは間違いありません。と同時に、この信頼性指標（Ｒ）が高いという条件下であるという事も忘れないでください。信頼性指標（Ｒ）の値が小さい場合（即ち、データ解析の信頼性が低い）は、どのように高い分類率や相関係数が達成されていても、殆ど意味のない危険なデータ解析をしていることになります。

◇信頼性指標（Ｒ）から見えてくる、最小サンプル数、および線形および非線形問題：

The reliability index (R), shows us that the "number of the minimum samples" and problems on the "linear and nonlinear problems"

チャンスコリレーション（偶然相関）を回避出来る最低限の条件を考えると、データ解析に必要な最小サンプル数が見えてきます。ここでは詳しく書きませんが、二クラス分類では４サンプル、フィッティング（重回帰）では５から６サンプルとなります。但し、この場合データ解析に利用できるパラメータ数は１となります。
また、線形および非線形分類とフィッティングに関してもこのチャンスコリレーション（偶然相関）の問題が大きく影響してきます。全ての非線形手法が該当するわけではありませんが、非線形手法を利用する時はチャンスコリレーション（偶然相関）の影響が大きくなりますので、線形手法を用いた解析と比較して、よりいっそうの注意が必要です。これらについては、今後まとめてゆきます。

文責：株式会社　インシリコデータ　湯田　浩太郎

0 件のコメント:

コメントを投稿

インシリコデータ関連ブログ：
Welcome to the home page and blog of the In Silico Data, Ltd.

**************************************************
◇本ブログの親となるホームページです。
（株）インシリコデータのホームページへ
Welcome to the In Silico Data homepage
**********************************************

インシリコデータとの総合連携ブログ
◇本ブログです
Visit to the blog of In Silico Data

**********************************************

AI時代の AI創薬研究
◆創薬研究へのAI適用に関する研究
Visit to the blog of AI Drug Design

**********************************************

AI時代を支えるAIの研究討論
◆時代を変えるAI基本技術
（Attention, Transformer, 他）の検討
Come to the blog of AI releted discussion

**********************************************
AI時代の化学・創薬関連研究討論
◆AI時代の化学情報学およびケモメトリクス
Come to the blog of Chemical Information and Chemometrics
**********************************************
AI技術の歴史的討論
◆ルールベース、パーセプトロン、深層学習、大規模生成AI
Come to the blog of various AI basic technologies
****************************************************