◆正しいデータ解析を行うための条件とは:
The conditions for executing correct data analysis
◇判別関数や重回帰式を作成する時に用いる指標とデータ解析の信頼性の問題:
The problem of the reliability of the index used when creating a discriminant function and a multiple regression equation on data-analysis
データ解析を行う時、通常は良いデータ解析を行うための目標(指標)として分類率や相関係数の値のみを目標値として判別関数や重回帰式を作成していませんか。確かにデータ解析という観点では高い分類率を達成する判別関数の構築や、フィッティング(重回帰)では高い相関係数を達成する重回帰式を求めることが重要です。しかし、高い分類率と高い相関係数を達成することは、単に作成した判別関数や重回帰式の性能を示すものであり、データ解析そのものの解析信頼性を保証するものではありません。性能が良くとも、信頼性が低いという事は良くありますし、この点に注意することはデータ解析を行う時の基本的な心構えです。◇データ解析におけるチャンスコリレーション(偶然相関)の問題:
The problem of the " Chance corelation" in data-analysis
信頼性の高いデータ解析を行うためには、データ解析が本質的に有する問題点やデータ解析に潜む危険な要因をクリアすることが必要です。データ解析実施上における危険要因は幾つかありますが、この中でも最も重要で、データ解析時に常に意識しなければならない事項として「チャンスコリレーション(偶然相関):Chance correlation」の問題があります。多変量解析/パターン認識を行う上ではこの問題は極めて重要です。しかし、このチャンスコリレーションをWEB上で検索してみると、殆どヒットしてきません。あるのは構造-活性相関や化学解析分野での記事が多く、一般的な工学分野での記載は殆どありません。これは、チャンスコリレーションはサンプル数とデータ解析に用いるパラメータ数との関係で決まるため、多数のサンプルを調達することが容易な工学分野ではあまり意識する必要が無いという点が大きな原因と思われます。。
しかし、この「チャンスコリレーション(偶然相関)」の問題は信頼性の高いデータ解析を実施するという点で極めて重要であり、データ解析の様々な場面で出てきますので、ここで改めてこの問題についてまとめてみます。
◇チャンスコリレーション(偶然相関)とサンプル数、パラメータ数:
The chance corelation, the number of samples, the number of parameters
チャンスコリレーションを監視する、あるいはモニターするためにはデータ解析に用いるサンプルの数(S)を解析に用いたパラメータの数(P)で割った値である信頼性指標(R)が用いられます。データ解析を行う時は分類率や相関係数の値を高いものとすることが大きな目標であることは間違いありません。と同時に、この信頼性指標(R)が高いという条件下であるという事も忘れないでください。信頼性指標(R)の値が小さい場合(即ち、データ解析の信頼性が低い)は、どのように高い分類率や相関係数が達成されていても、殆ど意味のない危険なデータ解析をしていることになります。
◇信頼性指標(R)から見えてくる、最小サンプル数、および線形および非線形問題:
The reliability index (R), shows us that the "number of the minimum samples" and problems on the "linear and nonlinear problems"
チャンスコリレーション(偶然相関)を回避出来る最低限の条件を考えると、データ解析に必要な最小サンプル数が見えてきます。ここでは詳しく書きませんが、二クラス分類では4サンプル、フィッティング(重回帰)では5から6サンプルとなります。但し、この場合データ解析に利用できるパラメータ数は1となります。また、線形および非線形分類とフィッティングに関してもこのチャンスコリレーション(偶然相関)の問題が大きく影響してきます。全ての非線形手法が該当するわけではありませんが、非線形手法を利用する時はチャンスコリレーション(偶然相関)の影響が大きくなりますので、線形手法を用いた解析と比較して、よりいっそうの注意が必要です。これらについては、今後まとめてゆきます。
文責:株式会社 インシリコデータ 湯田 浩太郎