インシリコデータとの連携ブログ : データ解析を行う時、あなたはどちらのアプローチを取りますか？（２／２）：When you perform data analysis, which approach do you take?(2/2)

フィッティング（重回帰）を行う時のサンプル空間の扱いについてまとめます。

１．サンプル空間に合わせて分類する。

２．サンプル空間を作り直して分類する。

　先にもまとめましたように、この「サンプル空間に合わせる」ことと、「サンプル空間を作り直す」という問題は、二クラス分類に限らず重回帰手法等で代表されるフィッティング手法にも同様な問題が生じます。今回のテーマでの解析目的はフィッティングを行い、少しでも高い相関係数（Ｒ）や決定係数（Ｒ２）を達成し、出来ればフィッティングによる要因解析も行いたいということです。

◇フィッティング手法でも、サンプル空間は用いたパラメータの種類と数で決定されます

　サンプル空間に関しては、先の二クラス分類にしてもフィッティングにしてもまったく同じことです。従って、「サンプル空間にあわせて」フィッティングすることは、「サンプル空間の形を変えない」でフィッティングを行うという意味です。
　一方、「サンプル空間を作り直して」フィッティングを行うことは、先の二クラス分類の時に述べたように、パラメータの組み合わせや数を変えてフィッティングを行うということを意味します。このサンプル空間再構築のために行う手続きは二クラス分類時と同様「パラメータ選択（あるいは特徴抽出(Feature selection)）」と言います。

◇特徴抽出（Feature selection)について
　この特徴抽出手法もいろいろあり、二クラス分類やフィッティングの両方で利用される手法と、二クラス分類とフィッティングとで別々に適用される手法、さらには用いるデータ解析手法単位で適用される手法といろいろあります。これらの手法には、それぞれ特徴や適用限界等がありますので、正しく使い分けることが必要です。
　この、特徴抽出手法に関し、多くのデータ解析関連情報ソースは殆ど触れていません。殆どがデータ解析手法の解説ばかりで、実際にデータ解析を行う時に最も重要となるこの特徴抽出手法にはあまり触れていません。たとえ議論していても、本当に簡単なことしか述べていません。十分な特徴抽出をせずに、実際に研究上でデータ解析を行おうとするとよい結果が得られないばかりか、次元圧縮や変換等をおこない、データ解析上での禁則に抵触しつつ無理に解析を行うことになります。このように特徴抽出は、実際にデータ解析を行う上で、データ解析手法の選択や適用問題よりも重要な技術となります。特にサンプル数があまり多くなく、さらには要因解析が重要となる創薬や一般化学分野の研究では特に重要です。このような研究分野では、少ないパラメータで高い分類率、相関／決定係数を達成することが求められます。このような、データ解析上極めて重要な特徴抽出に関しましては、機会を見て改めてまとめます。

◇サンプル空間とフィッティング手法（線形及び非線形）との関係
　
　二クラス分類の時と同様に、フィッティング（重回帰）の適用においてもサンプル空間に合わせた解析と、サンプル空間を作り直して行う解析の両方が存在します。こちらでも、データ解析手法を線形および非線形特徴抽出に分けて考えると、サンプル空間との関係がより明白になります。
　「サンプル空間が固定されている状態」の時。すなわち、利用するパラメータが固定されている場合は、少しでも高い相関／決定係数値を達成するために非線形フィッティング手法が良く利用されます。これは、同じパラメータ群と同じサンプル群を用いたフィッティングでは、線形フィッティング手法よりも非線形フィッティング手法による解析結果の方が常に高い値を示すためです。これも原理的に明白です。
　一般的に、与えられた、あるいは定まったパラメータ群を用いて作成されるサンプル空間は図１に示されるように、多くのサンプル群がバラバラになってサンプル空間上に存在しています。このようなサンプル空間である場合、図１に示されるような線形の重回帰直線は、回帰線上へのサンプルの集まり度が悪く、一般的には低い相関（Ｒ）／決定（Ｒ２）係数値となります。

　　　　　　　　　　図１．サンプル空間の線形フィッティングイメージ図

　図２は図１と全く同じサンプル空間を代表的な非線形フィッティング手法であるニューラルネットワーク(Neural network）を適用して解析した時の様子が示されています。図１のように線形フィッティング手法では回帰直線から大きく離れていたサンプルが、非線形フィッティング手法を適用することで、非線形回帰線（図中赤の曲線）からの逸脱が大きく減少していることがわかります。
　このように二クラス分類時と同様、フィッティングの場合であってもサンプル空間の形を変えることなく、フィッティング手法を線形から非線形手法に変えることで線形手法とは比較にならない極めて高い相関／決定係数を簡単に得ることが可能となります。
　これも二クラス分類時と同様、非線形フィッティング手法が有する極めて強力なフィッティング能力のおかげと言えます。

図２．　図１と同じサンプル空間を非線形フィッティング手法を適用したイメージ図

◇フィッティング手法（線形及び非線形）の違いによる種々特性の差異
　しかしこの場合、図２をより詳細に見ていただければわかりますが、線形フィッティング手法を適用した場合との違いが相関／決定係数だけでなく、外挿性に関する特性や線上から大きく逸脱したサンプル（アウトライアー）に関する情報が大きく変化していることが分かります。
　つまり、外挿しようとすると図２の非線形回帰式の両端を見ればわかりますが、その線の行く先は、次にくるサンプルにより前後左右にどこにでも行くことになります。これが非線形重回帰の極めて高いフィッティング能力を示す原因ですが、予測という観点ではマイナスです。一般的にニューラルネットワークが予測性が弱いということは図２を見ればよくわかります。
　また、重回帰分析ではアウトライアーサンプルを特定することで、サンプルに関する貴重な情報を得ることが出来ます。このような目的で考えた場合、図２にはにこのサンプルがアウトライアーとなりますが、通常の線形重回帰の場合とニューラルネットワークによる非線形フィッティングを行った時では選択されるアウトライアーサンプルが異なることがわかります。線形重回帰では最も重要なサンプルがニューラルネットワークではアウトライアーとなり、ニューラルネットワークで重要なサンプルが線形重回帰ではアウトライアーとなる。これでは正しい解析が出来なくなってしまいます。
　これらの結果からもわかりますように、単に相関／決定係数のみを解析結果の品質の評価基準にしていると、真のデータ解析の目的を達成できなくなることがあるし、間違った結論に導かれることがあるということです。

図３．　作り直されたサンプル空間に対して線形フィッティング手法を適用したイメージ図

　図３にはサンプル空間を作り直し、線形重回帰でも可能な限り高い相関／決定係数が得られるようにした場合の図です。こちらの図はしょっちゅう見９なれた図ですね。この場合も新たに形成されたサンプル空間に非線形フィッティング手法（ニューラルネットワーク等）を適用すれば相関／決定係数判別関数さらに向上しますが、先に述べた問題を抱えてしまいます。
　図３の場合、この線形重回帰の外挿は、回帰式作成に用いたサンプル群の情報に基づくものとなっており、非線形フィッティングのように、次、あるいは近傍のサンプルニューラルネットワーク支配される状態でないことは明確です。

◇サンプル空間とデータ解析との関係
　これまでに、二クラス分類とフィッティングの場合におけるサンプル空間の問題についてまとめてきました。データ解析手法はサンプル空間を基準として眺めると、全く方向性の異なる二つのアプローチがあることがわかったかと思います。つまり、サンプル空間に合わせてデータ解析を行う場合と、サンプル空間の方をデータ解析手法にあわせて変形させて行う場合です。
　単に分類率や相関／決定係数が高いことを求める場合は、サンプル空間を変えずに実施できるアプローチの方がデータ解析を気軽に行えるので良いでしょう。但し、非線形手法の適用は今後まとめるチャンスコリレーション等の問題を避けるために、サンプル数を多く集めることが必要になります。従って、サンプルが集まりにくい研究分野では気軽に使えないことになります。
　分類率や相関／決定係数の高さよりも、要因解析が主体でデータ解析から得られる様々な情報を重視する場合は「サンプル空間を作り直す」アプローチをとることが必要です。適用するデータ解析に最適な形にサンプル空間を再構築するのは大変な作業となりますが、より科学的な根拠に基づいた解析や、科学的な要因を求める場合はこちらのアプローチをとることが必要となるでしょう。

文責：　株式会社　インシリコデータ　湯田　浩太郎

インシリコデータとの連携ブログ

インシリコデータ株式会社関連ブログ；Blog of the In Silico Data Ltd..

2012/02/26

データ解析を行う時、あなたはどちらのアプローチを取りますか？（２／２）：When you perform data analysis, which approach do you take?(2/2)

0 件のコメント:

コメントを投稿