インシリコデータとの総合連携ブログ
---情報時代の自律（オートノマス）型研究---

　時代は「コンピュータ時代」から、データが総てを支配する「情報時代」へと急速に変化しつつあります。研究業務自体も、このような時代の変化に対応することが求められます。来るべき「情報時代」におけるAI 革命での「自律型（知的、オートノマス）研究」との適合性を議論することは喫緊の課題となります。
　本ブログでは、AI 革命の推進技術である「(大規模)生成AI」が研究業務に与える様々な影響や効果について討論してまいります。興味ある方は、フォローと積極的な討論参加お願いいたします。

インシリコデータ株式会社関連ブログ；Blog of the In Silico Data Ltd..

　ようこそ（株）インシリコデータブログへ。このブログでは、主としてインシリコデータのホームページでは直接編集できない細かな内容をフォローいたします。本ブログ内容等に関する質問／要望／意見等はこちらのブログか、インシリコデータのコンタクトアドレス(insilicodata.contact@gmail.com)にメールをいただければ幸いです。
　なお、一部で著者の私的な情報に関する掲示板としても本ブログを利用いたしますが、この点お許しください。
　In this blog, I discuss and write various themes which I cannot edit on the homepage of the In Silico Data. This blog also partly include a little personal themes.

2012/02/26

データ解析を行う時、あなたはどちらのアプローチを取りますか？（２／２）：When you perform data analysis, which approach do you take?(2/2)

フィッティング（重回帰）を行う時のサンプル空間の扱いについてまとめます。

１．サンプル空間に合わせて分類する。

２．サンプル空間を作り直して分類する。

　先にもまとめましたように、この「サンプル空間に合わせる」ことと、「サンプル空間を作り直す」という問題は、二クラス分類に限らず重回帰手法等で代表されるフィッティング手法にも同様な問題が生じます。今回のテーマでの解析目的はフィッティングを行い、少しでも高い相関係数（Ｒ）や決定係数（Ｒ２）を達成し、出来ればフィッティングによる要因解析も行いたいということです。

◇フィッティング手法でも、サンプル空間は用いたパラメータの種類と数で決定されます

　サンプル空間に関しては、先の二クラス分類にしてもフィッティングにしてもまったく同じことです。従って、「サンプル空間にあわせて」フィッティングすることは、「サンプル空間の形を変えない」でフィッティングを行うという意味です。
　一方、「サンプル空間を作り直して」フィッティングを行うことは、先の二クラス分類の時に述べたように、パラメータの組み合わせや数を変えてフィッティングを行うということを意味します。このサンプル空間再構築のために行う手続きは二クラス分類時と同様「パラメータ選択（あるいは特徴抽出(Feature selection)）」と言います。

◇特徴抽出（Feature selection)について
　この特徴抽出手法もいろいろあり、二クラス分類やフィッティングの両方で利用される手法と、二クラス分類とフィッティングとで別々に適用される手法、さらには用いるデータ解析手法単位で適用される手法といろいろあります。これらの手法には、それぞれ特徴や適用限界等がありますので、正しく使い分けることが必要です。
　この、特徴抽出手法に関し、多くのデータ解析関連情報ソースは殆ど触れていません。殆どがデータ解析手法の解説ばかりで、実際にデータ解析を行う時に最も重要となるこの特徴抽出手法にはあまり触れていません。たとえ議論していても、本当に簡単なことしか述べていません。十分な特徴抽出をせずに、実際に研究上でデータ解析を行おうとするとよい結果が得られないばかりか、次元圧縮や変換等をおこない、データ解析上での禁則に抵触しつつ無理に解析を行うことになります。このように特徴抽出は、実際にデータ解析を行う上で、データ解析手法の選択や適用問題よりも重要な技術となります。特にサンプル数があまり多くなく、さらには要因解析が重要となる創薬や一般化学分野の研究では特に重要です。このような研究分野では、少ないパラメータで高い分類率、相関／決定係数を達成することが求められます。このような、データ解析上極めて重要な特徴抽出に関しましては、機会を見て改めてまとめます。

◇サンプル空間とフィッティング手法（線形及び非線形）との関係
　
　二クラス分類の時と同様に、フィッティング（重回帰）の適用においてもサンプル空間に合わせた解析と、サンプル空間を作り直して行う解析の両方が存在します。こちらでも、データ解析手法を線形および非線形特徴抽出に分けて考えると、サンプル空間との関係がより明白になります。
　「サンプル空間が固定されている状態」の時。すなわち、利用するパラメータが固定されている場合は、少しでも高い相関／決定係数値を達成するために非線形フィッティング手法が良く利用されます。これは、同じパラメータ群と同じサンプル群を用いたフィッティングでは、線形フィッティング手法よりも非線形フィッティング手法による解析結果の方が常に高い値を示すためです。これも原理的に明白です。
　一般的に、与えられた、あるいは定まったパラメータ群を用いて作成されるサンプル空間は図１に示されるように、多くのサンプル群がバラバラになってサンプル空間上に存在しています。このようなサンプル空間である場合、図１に示されるような線形の重回帰直線は、回帰線上へのサンプルの集まり度が悪く、一般的には低い相関（Ｒ）／決定（Ｒ２）係数値となります。

　　　　　　　　　　図１．サンプル空間の線形フィッティングイメージ図

　図２は図１と全く同じサンプル空間を代表的な非線形フィッティング手法であるニューラルネットワーク(Neural network）を適用して解析した時の様子が示されています。図１のように線形フィッティング手法では回帰直線から大きく離れていたサンプルが、非線形フィッティング手法を適用することで、非線形回帰線（図中赤の曲線）からの逸脱が大きく減少していることがわかります。
　このように二クラス分類時と同様、フィッティングの場合であってもサンプル空間の形を変えることなく、フィッティング手法を線形から非線形手法に変えることで線形手法とは比較にならない極めて高い相関／決定係数を簡単に得ることが可能となります。
　これも二クラス分類時と同様、非線形フィッティング手法が有する極めて強力なフィッティング能力のおかげと言えます。

図２．　図１と同じサンプル空間を非線形フィッティング手法を適用したイメージ図

◇フィッティング手法（線形及び非線形）の違いによる種々特性の差異
　しかしこの場合、図２をより詳細に見ていただければわかりますが、線形フィッティング手法を適用した場合との違いが相関／決定係数だけでなく、外挿性に関する特性や線上から大きく逸脱したサンプル（アウトライアー）に関する情報が大きく変化していることが分かります。
　つまり、外挿しようとすると図２の非線形回帰式の両端を見ればわかりますが、その線の行く先は、次にくるサンプルにより前後左右にどこにでも行くことになります。これが非線形重回帰の極めて高いフィッティング能力を示す原因ですが、予測という観点ではマイナスです。一般的にニューラルネットワークが予測性が弱いということは図２を見ればよくわかります。
　また、重回帰分析ではアウトライアーサンプルを特定することで、サンプルに関する貴重な情報を得ることが出来ます。このような目的で考えた場合、図２にはにこのサンプルがアウトライアーとなりますが、通常の線形重回帰の場合とニューラルネットワークによる非線形フィッティングを行った時では選択されるアウトライアーサンプルが異なることがわかります。線形重回帰では最も重要なサンプルがニューラルネットワークではアウトライアーとなり、ニューラルネットワークで重要なサンプルが線形重回帰ではアウトライアーとなる。これでは正しい解析が出来なくなってしまいます。
　これらの結果からもわかりますように、単に相関／決定係数のみを解析結果の品質の評価基準にしていると、真のデータ解析の目的を達成できなくなることがあるし、間違った結論に導かれることがあるということです。

図３．　作り直されたサンプル空間に対して線形フィッティング手法を適用したイメージ図

　図３にはサンプル空間を作り直し、線形重回帰でも可能な限り高い相関／決定係数が得られるようにした場合の図です。こちらの図はしょっちゅう見９なれた図ですね。この場合も新たに形成されたサンプル空間に非線形フィッティング手法（ニューラルネットワーク等）を適用すれば相関／決定係数判別関数さらに向上しますが、先に述べた問題を抱えてしまいます。
　図３の場合、この線形重回帰の外挿は、回帰式作成に用いたサンプル群の情報に基づくものとなっており、非線形フィッティングのように、次、あるいは近傍のサンプルニューラルネットワーク支配される状態でないことは明確です。

◇サンプル空間とデータ解析との関係
　これまでに、二クラス分類とフィッティングの場合におけるサンプル空間の問題についてまとめてきました。データ解析手法はサンプル空間を基準として眺めると、全く方向性の異なる二つのアプローチがあることがわかったかと思います。つまり、サンプル空間に合わせてデータ解析を行う場合と、サンプル空間の方をデータ解析手法にあわせて変形させて行う場合です。
　単に分類率や相関／決定係数が高いことを求める場合は、サンプル空間を変えずに実施できるアプローチの方がデータ解析を気軽に行えるので良いでしょう。但し、非線形手法の適用は今後まとめるチャンスコリレーション等の問題を避けるために、サンプル数を多く集めることが必要になります。従って、サンプルが集まりにくい研究分野では気軽に使えないことになります。
　分類率や相関／決定係数の高さよりも、要因解析が主体でデータ解析から得られる様々な情報を重視する場合は「サンプル空間を作り直す」アプローチをとることが必要です。適用するデータ解析に最適な形にサンプル空間を再構築するのは大変な作業となりますが、より科学的な根拠に基づいた解析や、科学的な要因を求める場合はこちらのアプローチをとることが必要となるでしょう。

文責：　株式会社　インシリコデータ　湯田　浩太郎

2012/02/14

データ解析を行う時、あなたはどちらのアプローチを取りますか？（１／２）：When you perform data analysis, which approach do you take? (1/2)

二クラス分類を行う時のサンプル空間について考えます。

１．サンプル空間に合わせて分類する。

２．サンプル空間を作り直して分類する。

　「サンプル空間に合わせる」ことと、「サンプル空間を作り直す」ということは、具体的にはどのようなことを意味しているのでしょうか。ターゲットとする解析目的は二クラス分類を行い、少しでも高い分類率を達成し、出来れば二つのクラスに分ける要因の解析も行いたいということです。

◇サンプル空間は、用いたパラメータの種類と数で決定されます

　サンプル空間は用いたパラメータにより構築されます。従って、「サンプル空間にあわせて」分類するということは、「サンプル空間の形を変えない」という意味です。従ってこの要求事項は、サンプル空間の構築に必要となるパラメータの種類と数を固定することで実現されます。この条件下で分類手法を適用することで「サンプル空間に合わせた分類」が実現されます。
　では、「サンプル空間を作り直す」とは具体的にどのようなことでしょうか。これは、先と逆の操作、すなわちパラメータの組み合わせや数を変えるということを意味します。このサンプル空間再構築のために行う手続きを「パラメータ選択（あるいは特徴抽出(Feature selection)）」と言います。

◇サンプル空間と分類手法（線形及び非線形）との関係
　利用するパラメータが固定されている場合。即ち、「サンプル空間が固定されている状態」の時、少しでも高い分類率を達成するために非線形分類手法が良く利用されます。これは、同じパラメータ群と同じサンプル群を用いて二クラス分類を行うならば、線形分類手法よりも非線形分類手法による分類結果の方が常に高い値を示すためです。これは原理的に明白です。

　一般的に、与えられた、あるいは定まったパラメータ群を用いて作成されるサンプル空間は図１に示されるように、ＡとＮのサンプル群がバラバラになってサンプル空間上に存在しています。このようなサンプル空間である場合、図１に示されるような線形の判別関数を用いた場合はパラメータの係数（パラメータの大小と方向性）をどのように変えても、サンプル空間上に複雑に分布しているサンプル群を完全に分類することは極めて困難です。

　
　　　　　　　　　　図１．サンプル空間の線形分類イメージ図

　図２は図１と全く同じサンプル空間を代表的な非線形分類手法である（ニューラルネットワーク(Neural network）と決定木（Recursive partitioning）とで分類した時の様子を示しています。図２のように線形分類手法では分類不可能なサンプル空間も非線形分類手法を適用することで完全分類が実現できるようになったことが分かります。
　この場合、サンプル空間の形を変えることなく分類手法を線形から非線形手法に変えることで１００％分類を実現しています。すなわち、１番の「サンプル空間に合わせて分類する」が実現されたことになります。これは、非線形分類手法が有する極めて強力な分類能力のおかげと言えます。

図２．　図１と同じサンプル空間を非線形分類手法を適用したイメージ図

　一方、図３は線形分類手法であっても完全分類される場合が示されています。すぐわかるように、この場合のサンプル空間は図１と図２とは全く異なっていることが分かりますね。
すなわち、２番目の「サンプル空間を作り直して分類する」とはこのような場合や手順を意味しています。

図３．　作り直されたサンプル空間に対して線形分類手法を適用したイメージ図

これで「サンプル空間」と線形分類及び非線形分類との関係が大まかにイメージされたかと思います。では次に、実際に二クラス分類を実行するに当たり、このようなサンプル空間の扱い方の問題がデータ解析にどのような結果や効果を与えるかについて考えてみましょう。

文責：　株式会社　インシリコデータ　湯田　浩太郎

2012/02/02

富士通の元社長である山本卓眞顧問のご逝去に謹んで哀悼の意を表します：I express a condolence for loss of Takuma Yamamoto, advisor and former Fujitsu president heartily.

富士通の元社長である山本卓眞顧問が逝去されたという訃報がＷＥＢに公表されました。

http://pr.fujitsu.com/jp/news/2012/01/30-1.html

ここに、謹んで哀悼の意を表させていただきます。

◇この場を借りて、私が富士通で働いていた時の３人の社長のパーソナリテイについてお話致します。

　私が富士通に入社した時の社長が山本卓眞社長でした。社長ですから一般社員が実際に会うチャンスも殆どありませんでしたが、社内研修の時に「山本社長の講和」というプログラムがあり、この時に実際に山本社長を見て話しを聴くことが出来ました。

　社長はどんな人かなーとセミナー室で待っていると、これから山本社長が来られますというアナウンス直後に山本社長がバタバタという感じで入室されました。紹介なしでそのまま話をされました。内容は当時大きなニュースとなっていたＩＢＭとの著作権抗争に関する話で、「アメリカのロビーストが頼りないのでこうなる、彼らは首だー」と話し、非常に強烈な印象を残してあっという間に退室されました。突然台風が来て、またたく間に過ぎ去っていった感じです。まさに、富士通を立ち上げて大きくするような人は、山本社長のように、「自ら先頭に立ち、グイグイ人を引っ張ってゆく」というタイプの凄い人なのだなーとつくづく感じました。

　私は、幸運なことに富士通の社長であった秋草直之社長と黒川博昭社長の下で働くチャンスに恵まれました。入社時、既に秋草社長は当時統括部長で、かなり偉かったために日常的に接触するチャンスは殆どありませんでした。しかし、稟議にハンコをいただく時は稟議内容の説明が必要であり、特に専門システムの稟議ということで、直接話をするチャンスを得ました。

　稟議は、留学先で使っていたADAPTシステムを富士通の汎用コンピュータ上に移植するという内容でした。一通り聴き終えた後、余計なことはいわずに「大丈夫か」との一言。「大丈夫です」と答えたら、そのままＯＫとなりました。まさに「部下を信頼して任せる」というタイプの方です。後に、秋草統括部長は元ＮＴＴの秋草総裁の御子息で、将来的には富士通のトップになられるだろうという噂話を聴きました。体が大きくガッシリされ、何とも言えない風格と風貌がありました。富士通の業績が安定し、定常的な環境である時にトップに就かれれば、社員は働きやすいだろうなーと感じました。

　黒川社長は入社時の直属の上司（当時課長）でした。従って、かなりの時間を黒川社長と過ごせましたし、黒川社長の人となりを肌で感じることが出来ました。黒川社長は山本社長とも、秋草社長とも異なるタイプの方です。言葉でいうならば、「人のやる気を起こさせ、一緒に走ってゆく」というタイプの方です。

　黒川社長に関する話はいっぱいあるのですが、例えば部下が新規プロジェクトを提案する時、その是非を判断する場合についての話をしましょう。黒川社長は東大の法学部出身なので典型的な文科系です。私は、当時最先端を行く化学システムのプロであるという意識がありましたので、上司といえども何たるものぞという感じでいました。

　新規プロジェクトについて説明し始めると、疑問点等があると黒川社長は直ぐに質問してきます。どうせ分からないだろうと思いつつ説明しますが、説明に疲れてくると専門用語を多くして質問をあきらめるように仕向けます。殆どの人はこれであきらめるのですが、黒川社長は自分が納得するまであきらめません。そのうち、黒川社長の質問と私の答える内容が少しでも一致する点が出てくると、この時点を出発点として黒川社長の考えとのすり合わせが始まり、いつの間にか二人とも納得点や同意点を見出すようになります。いわゆる夢を共有したということです。ここまでの過程はいつもお決まりのパターンで、黒川社長は「そうなんだな」、「そのように理解すればいいんだな」、と畳みかけるように何度も手を変え品を変えつつ質問してきます。一致点を見出した時、私が「その通りです」と相槌をうつと、「そうかー、そういうことなんだー。だったら、明日からと言わず、今日からでもやろうよ」、と言われます。こちらも、充分納得しているので、やる気が出て「やりましょう」と答えます。ここまで人を引っ張ってくる黒川社長はこれだけでもかなり凄い方なのですが、最後にもう一つ、決定的な言葉で背中を押してきます。「ジャーやろうか、もし失敗したら俺が全責任取るよ」という一言を必ず付け加えます。ここまで言われたら、私に限らず、誰でも男として全力尽くしてやるぞーという気持ちになりますよね。いつの間にか、お釈迦様の手の上で暴れまわっている孫悟空のような状態になっています。当然、私は孫悟空で、お釈迦様は黒川社長です。本人が意識することなく自然に、つまり私はルンルン状態のフルパワーで働いているような状況になっています。このような状況に人を持ってゆくことを自然に出来るのが黒川社長です。

この他にも黒川社長はあっと驚くような様々なことを見せてくれましたし、私も大いに学ばせていただきました。今となって考えると、これが社長となる人の器だったのかと考えさせられますが、当時は他の上司とは異なる非常にユニークな人だなーと感じていました。
　残念ながら入社以来退職までズート一般社員のままでいた私は、同じ期間内に富士通のトップにまでなられた黒川社長から見れば、落差が大きすぎて比較しようもない落第生なのですが・・。このような方の下で仕事が出来たことは、私にとりかけがえのない財産となっています。

文責：　株式会社　インシリコデータ　湯田　浩太郎

登録: 投稿 (Atom)

インシリコデータ関連ブログ：
Welcome to the home page and blog of the In Silico Data, Ltd.

**************************************************
◇本ブログの親となるホームページです。
（株）インシリコデータのホームページへ
Welcome to the In Silico Data homepage
**********************************************

情報時代の自律（オートノマス）型研究
◆インシリコデータとの総合連携ブログ
◇本ブログです
Visit to the blog of In Silico Data

**********************************************

情報時代の自律（オートノマス）型研究
◆自律型および自動型研究討論
Visit to the blog of Autonomous Research

**********************************************

情報時代の自律（オートノマス）型研究
◆自律への（大規模）生成AIの原理と役割Come to the blog of Large Generative AI

**********************************************
情報時代の自律（オートノマス）型研究
◆データサイエンスおよび（大規模）生成AI
Come to the blog of Data Science
**********************************************
情報時代の自律（オートノマス）型研究
◆自律型創薬と（大規模）生成AIの連携
Come to the blog of
the Autonomous Drug Design
****************************************************