◆ 「チャンスコリレーション(偶然相関)」や「過剰適合(Over Fitting)」等のトリックを使うと簡単に良好な解析結果が得られます。 しかし、これは絶対に行ってはならない禁じ手です。
以前、「常に相関係数を1(100%)とする秘伝中の秘伝を公開します」というタイトルでWEBにアップしました。 これは、データ解析でいわゆる「チャンスコリレーション(偶然相関)」を意図的に引き起こし、かつ「過剰適合(Over Fitting)」と称される禁じ手を上手に(???)利用することで、常に相関係数1(100%)を実現するものでした。 いわば多変量解析/パターン認識によるデータ解析では決して実行してはならない悪質な(本人がこのことに気がつかないと、大変な被害を受けますので常に注意してください)トリックを使うことで完全相関を実現したものでした。
現在、多変量解析/パターン認識によるデータ解析はソフトウエアを使えば気軽に実行できるようになり、結果も簡単に出るようになっています。 本人が気付かないうちに前記の「チャンスコリレーション(偶然相関)」や「過剰適合(Over Fitting)」を起こしてしまうと、外見上は良好な結果が出たように見えます。 つまり、データ解析結果の指標(分類率や相関係数等)が良好な値となることが多くなります。 一般的には、これらの禁じ手を避けた正しいデータ解析を行う場合、良好なデータ解析結果を導き出すことは簡単なことではありません。 従って、これらの禁じ手に関する予備知識が無い状態のままデータ解析を行うと、大きな間違いを起こしているにもかかわらず、むしろ良い結果が出たと誤判断し、結果的に大きな被害を受けてしまいます。 多変量解析/パターン認識によるデータ解析を行う場合は、常にこれらの点に留意しつつデータ解析を行う事が必要です。
このようなマイナーな内容のことをわざわざWEBにアップしたのは、何も知らないでデータ解析を実行すると、とんでもない結果を導き出す事がありますよという、いわゆるデータ解析の内側に潜んでいる危険性を理解していただきたかったためです。
◇ トリックなしで、常に100%(完全)分類を実現する方法があるのでしょうか? ⇒ 「KY法」
今回ここで紹介する手法は、先に述べたような禁じ手となるトリックを用いて100%分類を実現するフェークな手法ではありません。 データ解析の特性を上手に利用することで、トリック無く、真に100%(完全)分類を実現する手法です。 これは「KY(K-step Yard sampling) 法」と呼ばれる最新のデータ解析手法です。
◇ 「KY(K-step Yard sampling) 法」とはどのような手法ですか?
従来、他のデータ解析手法では実現が遠く及ばなかった100%(完全)分類を、どんな厳しい条件下であっても常に実現させる手法です。 例えば、クラス間重なりが非常に大きく分離しにくいサンプル群、サンプル数が非常に大きい場合等です。 開発者の私もここまで出来るとは思っていませんでしたので、最初はビックリしました。
「KY法」はデータ解析の手順に、従来手法とは全く異なる考え方を導入しますので、この意味では他の人から見ると大きなトリックかもしれませんが、これは良い意味でのトリックです。 意外なことに、これだけのパフォーマンス(100%(完全)分類)を実現するにもかかわらず、この「KY法」は全く新しい理論(アルゴリズムや計算手法)の展開に基づいたデータ解析手法ではありません。「KY法」は、従来手法の内容をそのままにして、その運用方法を変えただけの手法にしかすぎません。 データ解析としての基本的なアルゴリズム等は従来手法そのままを踏襲しております。 いわゆる、「メタ手法」となります。 詳細はKY法のブログか、インシリコデータのホームページにアップされている「KY法」の説明、あるいは「分子科学会」のMolecular Scienceへの投稿(2モデルKY法)を参照してください。
「KY法」は二クラス分類のみならず、フィッティング(重回帰)でも適用されます。 フィッティング(重回帰)で適用されると、従来手法で同じサンプルを用いて実行した場合と比較してはるかに高い相関係数や決定係数を実現します。
この「KYフィッティング」によるデータ解析結果は、禁じ手を用いたフェークな操作によるアプローチは相関係数や決定係数の値を常に最大値の1(100%)を実現しますので、その相関係数や決定係数の値だけを比較するとフェークなアプローチには負けてしまいます。 しかし、この「KYフィッティング」は多変量解析/パターン認識によるデータ解析上での禁じ手(「チャンスコリレーション(偶然相関)」や「過剰適合」等)を一切使うことなく実施される正当な手法です。 しかも、従来のフィッティング(重回帰)手法をそのまま適用した時と比較すると、この「KYフィッティング」では極めて高い相関係数や決定係数が実現されます。
◇ 現時点で「KY法」は、二クラス分類3種類、フィッティング(重回帰)3種類の、総計6種類開発されています
現在、二クラス分類用のKY法として3種類、またフィッティング(重回帰)用のKY法として3種類の総計6種類のKY法が開発されています。 これらの詳細に関しましては今後インシリコデータのホームページ、あるいはKY法のブログにて順番に紹介させていただきます。
◇ 「KY法」の特徴とは何でしょう?
「KY法」は従来手法と比較して、劇的な分類率(100%)の向上および極めて高い相関係数や決定係数を実現します。 しかし、「KY法」内部で使われる基本的なデータ解析手法は、現在利用されているデータ解析手法そのもの(線形/非線形判別分析、ニューラルネットワーク、サポートベクターマシン、アダブースト等)であり、「KY法」として全く新しい手法やアルゴリズム等が開発されているわけではありません。 単に、サンプル群の取り扱いと繰り返し操作を組み入れただけです。
従って、「KY法」となるための特徴は以下に示す二つです。
1.サンプル群(空間)の扱い手法の違い
2.操作の繰り返し実行
上記の手続きをとることで、「KY法」は他の手法には無い優れた特性を有する事となります。 分類率や相関係数等のデータ解析指標のみならず、対象となるサンプルセットは二クラス分類であるならば、クラス間重なりが極めて高いサンプル群を扱っても100%分類を実現します。 また、フィッティング(重回帰)でも残差の大きなサンプルセットを用いても、その相関係数を劇的に改良出来ます。 さらに、サンプル数が増えても完全分類や高い相関係数を実現します。
従って、「KY法」が扱うサンプルの特徴は以下のようになります。
1.データ解析が困難なサンプル空間を持つサンプルセットであっても、高いパフォーマンスを実現する。
2.サンプル数がどんなに増えても、良好な解析結果を出せる
要因解析を行うという観点でも「KY法」は優れた、便利な機能を有します。 「KY法」は対象とするサンプル群をより小さなサブサンプル群に分けることが出来るので、大量のサンプル群を一度に用いて要因解析するよりも、高い精度での要因解析が可能となります。 これは、用いたサンプル群のみならず、データ解析に用いたパラメータ群もより小さなサブセット化されているので、パラメータからの情報読み取りもサンプル同様に容易になります。
従って、「KY法」を用いた要因解析の特徴は以下のようになります。
1.サンプル群やパラメータ群のサブセット化を実現する。
2.サンプルやパラメータを対象とした要因解析が容易になる
「KY法」のもう一つの特徴は、データ解析手法としての柔軟性が高い事です。「KY法」で作成される判別関数や重回帰式は従来の手法を用いて作成されますが、一つの「KY法」の中で利用される複数の判別関数や重回帰式は、それぞれ異なる手法を用いて構築する事が可能です。
例えば、2本の判別関数を用いた「KY法」では、線形および非線形判別関数を組み合わせて用いることが可能です。 しかも同一のステップ内で両方用いても良いし、個々のステップ単位で線形、あるいは非線形というように組み合わせることが可能です。
さらに、一つの「KY法」内部で、2モデルKY法、1モデルKY法、モデルフリーKY法と個々のステップ単位で組み合わせて利用する事も可能です。 これらの組み合わせは、「KY法」を実行する過程でそのデータ解析の進行状況に応じて臨機応変に変化させることが可能です。
1.「KY法」内部で使うデータ解析手法の組み合わせ様式は自由
例:同じステップ内で線形/非線形判別関数を組み合わせる
異なったステップ単位で線形/非線形を組み合わせる
2.基本的な「KY法」自体も混在して利用可能
例:一つの「KY法」中で、1モデルKY法、2モデルKY法、さらにはモデルフリーKY法等を組み合わせて利用可能
以上、「KY法」の特徴について様々な観点からまとめてみました。 実に多くの特徴を有した手法であることを理解いただけたかと思います。
このように従来手法をそのまま用いるのではなく、「KY法」として用いることで、従来手法では実現できなかった様々なことが簡単に実現出来るようになります。 現時点で「KY法」は、二クラス分類とフィッティング(重回帰)のデータ解析分野で適用可能です。 「KY法」の基本的な考えを適用することで、二クラス分類、フィッティング(重回帰)以外のデータ解析分野にも展開可能になるものと思いますが、これは今後の課題となるでしょう。
「KY法」はクラス間重なりの大きなサンプル空間、あるいは分散の大きな空間といった、従来からのデータ解析手法では扱いにくく、良い結果を出すことが出来なかった分野での解析に強力な効果をもたらします。 また、「KY法」の基本原理(繰り返し操作)からわかるように、サンプル数がどんなに多くなってもその最高のパフォーマンスを保持する事が可能な手法です。 大量のデータ解析を扱う事が求められる今後のビッグデータ時代に、多変量解析/パターン認識の厳密なデータ解析力をそのままビッグデータにも適用できる強力な道具になるものと思います。
文責:株式会社 インシリコデータ 湯田 浩太郎
0 件のコメント:
コメントを投稿