インシリコデータ株式会社関連ブログ;Blog of the In Silico Data Ltd..

 ようこそ(株)インシリコデータブログへ。このブログでは、主としてインシリコデータのホームページでは直接編集できない細かな内容をフォローいたします。本ブログ内容等に関する質問/要望/意見等はこちらのブログか、インシリコデータのコンタクトアドレス(insilicodata.contact@gmail.com)にメールをいただければ幸いです。
 なお、一部で著者の私的な情報に関する掲示板としても本ブログを利用いたしますが、この点お許しください。
 In this blog, I discuss and write various themes which I cannot edit on the
homepage of the In Silico Data. This blog also partly include a little personal themes.

2012/03/29

ICOH 2012 Congress 参加報告(カンクン):Report of a participation in ICOH 2012 Congress : Cancun, Mexico


       ICOH 2012 Congress が開催されたカンクンはとても印象的な場所でした。カンクンについて私の感想を簡単に書いてみます。


*ホテルとビーチ*

       一応ICOH 2012 Congress に参加する前にカンクンについて調べてはいましたが、やはり本物は素晴らしいの一言に尽きます。
       海岸線で海に面したリゾート地は多くあるかと思いますが(私はあまりリゾート地を知りませんが・・)、大きく違うなーと思ったのは、通常は海岸線(ビーチ)に沿って道路があり、その内陸部にホテルや居住空間があるのですが、カンクンは逆です。地形的な事情もあるのでしょうが、道路が内陸(内海)に沿ってあり、ホテルが道路とビーチの間にあります。従って、ビーチは殆どがプライベートビーチのようになっています。この結果だと思うのですが、ハワイのようにビーチに人がうようよしているという事はありませんし、ホテルから直接ビーチに行くことが出来ます。
       ビーチとホテルの間には大きなスペース(中庭)があり、ここにはプールがいくつもありました。このホテルの中庭は昼も見ていて楽しいのですが、夜もきれいにライトアップされ、特にプールの青色がとてもきれいで別世界にいるような感じです。夜間は日差しがなく、また適度な気温で寒くもなく、風もありとてもさわやかです。ただ、ハワイと比べて若干湿度が高いなーと感じましたが、気になる程ではありません。ベランダに出てこの夜景を楽しみつつ、波の打ち寄せる音を聞きながら飲料水を飲み、講演の練習をするのがとても快適な時間でした。

ホテルの中庭の昼間の様子

ホテルの中庭の夜間の様子

ホテルから中庭のプール、そしてビーチへと続く様子

       ホテルはICOH 2012 Congress の会場であるカンクンセンターの隣にあり、本当に便利でした。また、ホテルロビーは6階建ての吹き抜けで、天井はきれいなステンドグラスで飾られており、昼間はこのステンドグラスからの光がロビーの床の大理石に反射して豪奢な感じを醸し出していました。

                                                     ホテルロビー天井のステンドグラス

-------------------------------------------------------------------------------------------------------------------------


* ビーチ *

       海岸はコーラルビーチの名の通り、真っ白な砂浜で、かなり細かでモッチリした感じの粒子でした。この砂が海岸線(カリブ海)に沿ってあるせいか、海の色の青さが空の色にも負けない透明度の高いライトブルー(カリビアンブルーというそうです)でした。空が天上にも地上にもあり、一見すると連続しているような錯覚を覚える印象的な青さでした。ビーチ自体は色の白さのみならず、人があまりいないことと、常に整備されているせいか、海岸線特有のゴミもなく、また漂流物等もないきれいなビーチでした。不思議に、日本の海岸線で感じられる潮風の香りをあまり感じませんでした。 私は千葉の幕張近辺に住んでいますが、海から風が吹くときは潮風の匂いがします。

ホテルの前の白いビーチ

白いビーチからホテルの方を見た写真

ビーチの白い砂と波打ち際


-------------------------------------------------------------------------------------------------------------------------
-------------------------------------------------------------------------------------------------------------------------


* ICOH 2012 Congress会場と会の催しもの *

     ICOH 2012 Congress が開催されたカンクンセンター(Cancun Convention & Exhibition Center)は四階建てのかなり大きな建物で、ホテルゾーンの中心に位置し、極めて便利な所にあります。この建物全体を使ってICOH 2012 Congress が開催されていました。
ホテルのアプローチから見たカンクンセンター

       ポスターも毎日100テーマ程が順次発表されており、講演が無い時間帯は人々が熱心に討論を行っておりました。
ICOHポスター会場

       一般公演もセッション単位で並行して行われ、カンクンセンター全体を使って数多くの討論が同時進行で行われていました。
ICOHの講演プログラムリストの掲示板

      ICOH 2012 Congress が開催された最初の全体講演は最上階の大会議室で開催されました。大型スクリーン5台を使っての講演で、写真は前回ICOHが開催された南アフリカ(2009年)のマンデラ大統領による大会へのメッセージが会場に流されていた時の写真です。

PLENARY SESSIONでのマンデラ大統領によるICOHへのメッセージのアナウンス

     ICOH 2012 Congress 開催の中日の夜にはCULTURAL NIGHTがあり、マヤ文明、特にユカタン半島での伝統的な宗教儀式での踊り等が披露されました。衣装や踊りもすごいのですが、音楽も強烈で強く印象に残りました。その後、カンクンセンターのベランダ的なところで、カンクンの夜景を楽しみながらビュッフェ形式の簡単な立食パーテイがありました。日差しがないだけ夜の方がすごしやすいので、快適でした。
CULTURAL NIGHTでのマヤの伝統的な宗教踊り

       木曜の夜にはGALA DINNERが開催されました。 この時、写真で見るとわかるように参加する外人の多くの方々は男性女性ともに少しフォーマルな正装をして参加していました。TPOがしっかりしているのだなーと感じました。

GALA DINNER会場へのアプローチ

       GALA DINNERでは正式なDINNER(メイン料理は魚料理でした)が提供され、大変おいしく食べました。フロア前の舞台にはバンドと歌手の方が音楽を演奏し、雰囲気を盛り上げていました。しばらくして会場の中央ではダンスが始まりました。最初は男女のペアで少し正式な形で、少数の人が踊り始めましたが、徐々に曲目もディスコ調のラフな感じの曲になってくると、多くの人が参加し始め、一緒に自己流のダンスをするようになりました。私も雰囲気につられ、いつのまにか家内と一緒に自己流のダンスを踊っていました。写真がありますが、この中には著名な方々が楽しそうに踊ってられます。私が参加する他の国際学会でも、このようなダンスが必ず行われます。日本人的な感覚ですと偉い先生方はダンスなどしないという感じですが、著名な先生方が年齢に関係なく率先して楽しそうに踊られる姿を見るのは本当に素晴らしく感じます。ヨーロッパ系の人々の文化の基本が、このようなダンスにあることを改めて感じさせられました。

GALA DINNERでのダンスの様子

次回は、ユカタン半島のマヤ文明のチチェン・イッツアに行った時の感想報告をします。


文責:株式会社 インシリコデータ 湯田 浩太郎


2012/03/28

ICOH 2012 Congress 参加報告:Participate report of the 30th Congress of the International Commission on Occupational Health (ICOH) to be held in Cancum, Mexico, from Sunday, March 18 to Friday March 23, 2012.


  3月18日から23日にかけてメキシコのカンクンにて開催されたICOH 2012 Congressに参加してきました。
  今回はイタリアのMario Di Gioacchino教授から発表依頼を受けての参加で、以下のタイトルで講演してきました。

"Qualitative structure-toxicity relationships (QSTR) on skin sensitization"
Kohtaro Yuta1, Kazuhiro Sato2, Yukinori Kusaka2
1In Silico Data Ltd., Chiba, Japan, 2Department of Environmental Health, School of Medicine, University of Fukui, Fukui, Japan

     発表時に用いたPPTファイルはインシリコデータのホームページのPresentationsにアップしてありますので、ご興味がある方はそちらからダウンロードしていただければと存じます。
   今回私が行いました発表は皮膚感作性に関するインシリコ(コンピュータ)によるデータ解析に関するものです。福井大学医学部の日下教授および加藤準教授との共同研究です。本共同研究で私は、データ解析を担当させていただきました。
     本発表は、従来から使われていた多変量解析/パターン認識手法を用いたデータ解析では完全分類が出来なかったものが、KY法を適用することで完全(100%)分類を実現できたという報告です。
      様々な手法による分類結果:1から4までが従来手法で、5番目がKY法の分類結果です

クラス間の重なりが大きなサンプル空間の図です。従来手法による判別関数では線形/非線形にかかわらず”完全分類”の実現が殆ど不可能であることがわかります。

                   1.KY法の最初のステップ実施概念図です


            2.KY法の二番目以降のステップ(繰り返し操作)の実施概念図です

   上記1の基本操作を図2のように繰り返し行う事で、サンプル数の多少にかかわらず、またクラス間重なりが極めて高いサンプル群であっても常に完全分類可能となります。
  今回の発表でもわかりますように、KY法が本質的に有する分類能力は、他の従来から展開されてきた多変量解析/パターン認識手法とは比べ物にならないほどの極めて高い分類能力となります。KY法の詳細に関しましてはKY法のブログインシリコデータのホームページで見ていただければと思います。

    本学会は私にとりましては初めての参加となります。私のホームグラウンドはインシリコ(コンピュータ)によるドラグデザインや安全性評価、およびコンピュータケミストリーであり、今回のOccupational Healthの分野ではあまり活動はしてきませんでした。しかし、この分野でも今回発表させていただいた福井大学医学部日下教授との共同研究のように、データ解析の果たす役割が大きくなりつつあることを肌で感じています。データ解析自体もコンピュータの機能向上により、従来は実施困難であったことが実現されるようになっています。インシリコ(コンピュータ)関連技術がOccupational Health研究の大きな道具となることを期待しています。


ICOH 2012 Congressに参加した感想: 

  ICOH 2012 Congressは、従来私が参加していた学会と比較すると、その参加人数のみならず参加国の多様性等においてかなり大きな学会でした。正確な参加人数はわかりませんが、大きなカンクンセンターの4フロアすべてを用いて学会が開催されていました。

                     ICOHのWelcome Boardです

  化学会や薬学会の年会等と比較すると、学生や大学院生等が殆どいないため参加人数(三年ごとに開催され、過去の実績では約3000人程度参加するそうです)こそ及ばないものの、その参加者の殆どは第一線で研究されている方々や国の関連機関の方々が多く、その国籍の多様性は極めて大きく、全世界に及んでいると言えるでしょう。国籍の多様性を示すように、開催場所は5大陸の持ち回りだそうで、大陸単位に候補国を決め、最後に大陸間で開催地を決定するそうです。政府の関連機関などが参加して誘致合戦を行い、まるでオリンピックの開催国を決めるような感じです。ちなみに次回(2015年)は韓国のソウルと決まっており、今回の決定は次次回(2018年)の開催地ですが、モロッコのカサブランカとアイルランドのダブリンとで候補地を争い、最終アナウンスはダブリンでした。モロッコには次回に頑張っていただきたく思います。

              ICOH2015の開催国である韓国が出していた宣伝ブース

  国際学会の発表言語としての英語は変わりはないのですが、発表は同時通訳によりスペイン語に訳されます。私も、同時通訳付きの講演は初めての経験でしたので本当にビックリしました。発表中の様子を学会側がその写真を撮っており、その写真が木曜日のGalaDinnerの前に公開されました。私も写っていました。しかし発表中は夢中でしたので、こんなに近くで写真を撮られていることは知りませんでしたが、うれしい感じです。
                   発表しているときに撮られた写真です



文責:株式会社 インシリコデータ 湯田 浩太郎

2012/03/10

元富士通社長・会長・名誉会長、現顧問 山本 卓眞氏のお別れの会に行ってきました: I joined fairewel ceremony of the late Takuma Yamamoto, former president of Fujitsu

◇元富士通顧問  故山本 卓眞氏のお別れの会に行ってきました。

  昨日(3月9日)行われました山本卓眞富士通顧問の「お別れの会」に行ってきました。

  私は、このような大規模な葬礼に参加したのは初めてなので、まさにテレビで見ていた現場そのものを実感してきました。花の山の上段に大きな故山本卓眞顧問の写真があり、私も花を1本持ち、皆様と一緒に献花しました。

  祭壇の会場と、隣の「偲ぶ会」の会場を結ぶ通路には間塚会長と山本社長が立たれており、弔問された客の一人一人に丁寧に対応されていました。 もちろん、私もお話しさせていただきました。 
  会長と社長は、お別れの会の開催時間である12:00から13:00までズーット立ったままお客様に対応されていました。 ほんとうに大変だったかと思います。

  私が入社当時、間塚会長は営業部署にて勤務されており、化学系企業 (当時富士通は、化学系企業基幹システムで最大のシェアを持っていました) を担当されていました。 私たちが行う創薬や化学研究支援システムは、システムが研究所にあり、主担当ユーザが研究者です。このような形態は従来の営業パターンである本社基幹システムで、システム担当者を相手とする形態とは大きく異なります。 この点で、営業の方々はかなり戸惑われたかと思います。 しかし、従来は切り込むことが出来なかった研究所システムにチャレンジすることが出来る、というように前向きに考えていただき、間塚(当時課長だったと思います)会長含めて、営業部隊の方々にも積極的に支援いただいた事を記憶しています。

  「偲ぶ会」の会場では故山本顧問の写真が年代順に展示されており、富士通を立ち上げた多くの先駆者の方々の写真を実際に見ることが出来ました。 一応、社内報等で断片的に見ることはありましたが、年代順に、かつまとめて見るのは初めてでした。

  会場には多くの参列者の方々がおりましたが、残念ながら私の知っている人はおりませんでした。 一方で、先のWEBでも書かせていただきました秋草相談役や黒川相談役が会場におられました。二人ともお元気そうでなによりでした。  
  挨拶後、いろいろとお話しや情報交換等させていただきました。私が在職中なかなか立ち上がらなかった化合物安全性(毒性)が創薬のみならず機能性化合物開発でも急速に重要になっていること。 環境保護、そして政府規制という観点での化合物安全性(毒性)の立ち上がり。 動物愛護という観点で、皮膚関連研究での実験動物使用禁止が来年度から現実のものとなるため、インシリコ(コンピュータ)によるスクリーニング研究が重要になっているという、時代の変化について話しました。 
  もちろん、私も黒川相談役も現役ではないので、先のWEBにも書いたとおり徹底討論するわけでなく、単なる情報交換レベルでの話です。 なお、私は18日からメキシコのカンクンで開催されるICOHの国際学会で、皮膚感作性の構造-毒性相関についての依頼講演を行ってきます これは医療系の国際学会ですが、私が行うのは安全性(毒性)に関するテーマ(皮膚感作性)についての講演です。これに関しましては帰国後に本ブログにて別途報告いたします。
  私も黒川相談役ともに現役を引退していますが、現役時代には立場が違くなりすぎて話すこともできなかったのですが、このような形であっても直接話が出来るようになったこと自体、素晴らしいことと思います。 もっとも、現役時代には「黒さんメール」にてご連絡申し上げ、いろいろとご迷惑おかけしてしまいましたこともありましたが・・・・。この場を借りてお詫びさせていただきます。
  なお、私が入社した当時、故山本顧問が化学研究システムに大きな期待をかけておられたという話を黒川相談役から聞きました。 結果として、山元顧問の期待に答えられなかったことを本当に申し訳なく思っています。

  現在は変化の流れが速く、直近ではコダック、日本ではエルピーダ、一昨年はGMやクライスラーと、時代の変化に対応した変化がなければ、たとえ一時は長期にわたり世界一を誇った企業であってもあっという間に倒産する時代です。同時に、GMのように新しい時代に適応し、力強くリターンした企業もあります。富士通も時代の変化に遅れることのない企業体質をつけて、発展していただきたく考えます。
  日本では電気関連企業がのきなみ苦戦を強いられていますが、このような時代でも世界を見ると、アップル、MS、グーグル、インテルは史上最高や高収益を上げています。また、IBMも富士通よりも古い情報会社ですが史上最高益を上げています。是非、富士通にも頑張ってほしいと思います。


文責:株式会社 インシリコデータ 湯田 浩太郎

2012/03/09

これって本当ですか?: Is this nonsence or correct analysis?

◇ある学会で、こんな発表がありました。皆様はどう思われますか?: In a certain society, there was such a presentation. How do all of you seem? 

  ある薬理活性データ(薬理活性が有る(ポジ)か、無い(ネガ)かの二クラスデータ)を用いて判別分析手法を適用してデータ解析を行った。引き続き、この判別分析を行う過程で出てくる判別得点データ(連続変数)を目的変数として線形重回帰を適用したところ、高い相関式を得た。
  従って、この線形重回帰が有する情報は薬理活性の説明に使える重要なものである。このため、この解析で作成された重回帰式の解釈と、利用されたパラメータ中に存在する情報解析を行い、新たな知見を得たという発表でした。

  皆様は、なるほど新しい知見や発見が出きているんだなーーと思いますか?
  なんかすっきりしない、腑に落ちないことがありませんか? よく考えてみてください。

*ヒント:
  最初のサンプルデータは二クラスデータ、しかし判別得点は情報量の多い連続データ。
  一次元データ解析を行っていたら、二次元データが出きて、より高度な二次元解析を行えるようになりました、ラッキーというところですね。つまり、 何もないところから、何の根拠もないお宝がポット出てきて、しかも素晴らしい結果までプレゼントしてもらったということです。

*データ解析を実行できることと、データ解析に意味があるかという事は次元の異なる問題です。It is an absolutely different problem whether that I can carry out data analysis and results of the data analysis have a significant meaning

  データ解析を二段階にして使うときの危険性がここに含まれています。 別に、二段階適用を行っても悪いというわけではなく、たとえ二段階適用でも正しい使い方(例;主成分回帰等)はいろいろあります。 ただ、適切な適用の場合と不適切な適用の場合とがあるので、個々の多変量解析/パターン認識手法を組み合わせたり、段階的に適用する場合は注意が必要です。 
  現在は、プログラムを動かせば簡単にいろいろなデータ解析が出来る時代ですから、気軽に二段階や三段階等のデータ解析を簡単に行う事が出来るようになっています。しかし、このような複雑な操作を行うデータ解析では、そのデータ解析の本質をとらえながら慎重に行う事が大切です。

  これと同じ間違いが、私が博士過程で研究していた時にもありました。今は亡き、故宮下先生(豊橋技術科学大学)と一緒に、このような手順はおかしい操作であると議論していたことを思い出します。この問題は、データ解析の初心者がよく起こす間違いです。昔と異なり、現在はデータ解析を簡単に出来るようになっていますので、このような間違いを起こしやすいのでしょう。まさに、歴史は繰り返すですね。


文責: 株式会社 インシリコデータ 湯田 浩太郎

2012/03/05

「見せかけの指標」: The work front is bushed by "Showcase index"

◇ 「見せかけの指標」にこだわりすぎて、混迷している現場:The work front that it is too much particular about the "showcase index", and is stupefied


 昔、ある企業の生産工場から相談をうけました。私の活動している研究分野とは異なりますが、多変量解析/パターン認識という観点で相談に乗ってほしいということだったので、現場の研究者からその内容をヒアリングしました。

データ解析の実施目的は「生産の歩留まり向上」です。これを、1%でも良いから上げてゆきたいとの生産現場からの切実な声でした。製品の生産量が多く、単価が高いので、たとえ1%といえどもその効果はすぐ数億円の経費節減に繋がるとの話でした。

 話を詳しく聞いてみると、この生産現場の担当者が「見せかけの指標」にこだわりすぎていることがわかりました。生産現場での様々なノウハウを駆使し、歩留まりを下げる要因や、反対に上げる要因等を細かに洗い出し、これらを数値化し線形重回帰で相関係数を求めたところ80%を超えたレベルに達した。そこで、線形重回帰からニューラルネットワーク(NN)による非線形重回帰に変えてみたところ簡単に90%を超えたそうです。これはいけるぞということで、さらに相関係数をあげるべく、考えられる様々なパラメータを考案したり、NNのパラメータを最適化する等の工夫を行ったそうです。この結果、相関係数は98%近くまで向上し、これで大丈夫ということで実際の運用を行ったら、期待した歩留り向上が見られなかったとの話でした。

現在は98%で効果が無かったので、さらに99%を目指して追加パラメータを考案中との話でした。なお、CV(Cross Varidation)はちゃんと行っており、やはり結構高い値を実現しているとの話でした。

  これって、いったい何が起きているかすぐわかりますよね。先の「見せかけの指標」にばかりこだわりすぎて、正しいデータ解析を行うという基本を見失っていたためです。

  この現象は、先に投稿した内容と一見すると逆の現象が出ていますね。先の投稿では学会発表やパンフの指標が高いのに、実際に自分のデータを用いてデータ解析を行うと、そんなに高い値が得られないという事でした。これに対して、今回の投稿内容では、現場で行うデータ解析の結果は理想に近いほど高くまで上げているのに、実際の期待とは大きく離れてしまっているという内容です。
  しかし、よく見てみるとこれら二つの投稿の内容は全く同じです。「見せかけの指標」を非常に高い値まで持って行っていること。それと実際の現場での適用結果のギャップが大きいという事ですね。


文責: 株式会社 インシリコデータ 湯田 浩太郎

2012/03/01

学会発表/パンフの値と実際の実験の値の差:Differences between experimental value and value of the presentation at the meeting / pamphlet

◇学会発表やパンフレットで使われている分類率、予測率、相関係数、決定係数の指標はどうして高い値が多いのかなーー?:Why the value that a classification rate, a predictive rate, a coefficient of correlation and determination used by a presentation at the meeting and a pamphlet shows high and excellent value?


 いつも思うのですが、学会発表やパンフレットに書かれている分類率、予測率、相関係数、決定係数の値は素晴らしい値が多いと思いませんか。日常的にデータ解析を行っていると、学会発表やパンフレットで書かれている値を達成するのは至難の技で、かなり現実と離れた値ではないのかなーと不思議に思っています。
 ちょっとこの点について考えてみました。


* 学会発表やパンフレットの「見せかけの指標」と、現場で行う実際のデータ解析とのギャップはどこからでるのでしょうか?

 一般的に、学会発表やパンフレット等の広告では結構高い値が示され、その気になってしまいがちです。しかし、実際の現場で行うデータ解析では様々な条件からもっと低い値となるのが現状です。このように、現実のデータ解析と学会発表やパンフレットのデータ解析結果の値とのギャップが生じる大きな原因としては、データ解析の本質を無視し、「見せかけの指標」だけを良くすることに集中することの弊害と考えます。データ解析では様々な条件を変えて行うことが可能であり、意図的でなく、また本人が気付かないとしても嘘をつかずにかなり良い値を示すことは可能です。ちょうど、理想的な環境下での瞬間風速と、暴風雨の中での瞬間風速のような違いと言えるでしょう。どちらも瞬間風速であることには変わりありません。あるいは、サーキット上で500Km/h出せる車を一般道路で走らせると、急なカーブ、信号、通行人、でこぼこ等が邪魔して走れなくなり、このような道路では一般車の方が早く走れるようになる。こんな状態の方がイメージしやすいかもしれませんね。

 ちょっとフォーマルな形にしたい時は理想的な環境で実験を行い結果を出す。日常的に行う場合には現実的な環境下で、最悪の事態も想定しながら値を出すというシチュエーションの違いでしょうか? それとも、自分がやっている実験では技術が未熟なために良い値が出ず、これが原因で専門家が行った実験結果である学会発表やパンフレットと大きな差が出たのでしょうか?

 単に、発表やパンフレット等に用いられる「見せかけの指標」に頼ることなく、データ解析の本質を洞察出来れば、高い値になった理由がケースバイケースの様々な要因の結果なのか、あるいはこれらの総合的な効果により高い値となったかが見えてくるようになります。この種の悪しき事例は、世界的に公表されているパブリックで著名なデータベースでもしばしば見られます。この原因は、「見せかけの指標」重視のあまり、データ解析の本質がおろそかになったためと考えます。
 これらのアプローチの極端な例や、データ解析手法の基本的な戦略等の違いについて、その一部はすでにこのブログに書きましたので、もう一度確認してください。

・線形重回帰で常に相関係数(R)、および決定係数(R2)を1(100%)とするアプローチ
 フェイクパラメータの適用による完全フィッティングの実現

・サンプル空間に合わせて解析を行うアプローチと、サンプル空間を作り直すアプローチ
 科学に基づいたアプローチと、科学と関係のないアプローチ(線形及び非線形問題)
  (a) 二クラス分類手法
  (b) フィッティング(重回帰)関連手法

まだブログには書いておりませんが、上記の他にも「見せかけの指標」を向上するアプローチが種々存在します。無意識のうちに使っていることが殆どでしょうが、正しいデータ解析を行うためには重要なことですので、よく意識しておいてください。これらについては今後、このブログにて順次解説してゆきますので、興味のある方は注意していてください。
データ解析手法の差を論じるのも良いのですが、実際のデータ解析の現場では、厳しい条件下でも如何に正しいデータ解析を行うかを追求する方が大事です。

最近の学会発表では非線形解析手法の発展につれて、先に述べた「見せかけの指標」だけでは予測率とのギャップが著しいので、クロスバリデーション(CV:Cross Varidation)を行う事が一般的になっています。従って、多変量解析/パターン認識によるデータ解析を既に行っている研究者の方々は、自分はCVを出しているから、こんな「見せかけの指標」の問題はないと考えていると思います。しかし、このCVは単なるリサンプリングによる予測評価なので、CVといえども限界があります。これも、インシリコデータのブログで取り上げてゆく予定です。

 発表用の「見せかけの指標」を信じるだけだと、実際にデータ解析を行う時に苦労や失敗を繰り返すことになります。難しいかもしれませんが、実際に自分で内容を理解し、影にある見えない操作等のポイントを見ることが出来るようにすることが必要です。


文責: 株式会社 インシリコデータ 湯田 浩太郎