インシリコデータ株式会社関連ブログ;Blog of the In Silico Data Ltd..

 ようこそ(株)インシリコデータブログへ。このブログでは、主としてインシリコデータのホームページでは直接編集できない細かな内容をフォローいたします。本ブログ内容等に関する質問/要望/意見等はこちらのブログか、インシリコデータのコンタクトアドレス(contact@insilicodata.com)にいただければ幸いです。
 なお、一部で著者の私的な情報に関する掲示板としても本ブログを利用いたしますが、この点お許しください。
 In this blog, I discuss and write various themes which I cannot edit on the
homepage of the In Silico Data. This blog also partly include a little personal themes.

2012/09/19

化学データ解析。こんな時どうするの?リスト:How do you do for those data analysis and chemical conditions ?

◇データ解析実施時の様々な状況:

Various situations that should be solved before the data analysis executed


  データ解析を実施する時、様々な状況に遭遇します。 信頼性の高いデータ解析を行うには、これらの起こりうる問題について正しく対応/処理しなければなりません。 私のブログにて、一部ではありますが既にこれらの問題点に関する記述と、留意点や対応の仕方をまとめてあります。

  以下に示される様々な問題は、データ解析を正しく行う上で解決すべき重要な項目です。 しかし、多変量解析/パターン認識の実行においては、データ解析手法そのものの理解が優先され、データ解析を実行する上で問題となるこれらの事項はあまり気にしないか、ないがしろにされているのが現状のようです。 実際、これらの事項が無視されても、データ解析自体は実行され、結果は出てきますので・・・。 しかしこの場合、データ解析結果の保証はありませんが・・・。

  データ解析はデータを入れて実行すれば終わりというものではありません。 様々なデータ解析手法を実行するソフトウエアは多数あり、簡単に手に入ります。 しかし、これらのソフトウエアで提供されるデータ解析手法を正しく実行し、信頼性の高いデータ解析を実現するためには、データ解析実行前や途中で発生する様々な問題を解決する事が必要です。 正しく、かつ信頼性の高いデータ解析を行ない、その結果を解析してさらなる活動や研究につなぐ。 これが、データ解析を行う上で最も重要な事項となります。 

  以下にリストアップされている様々な事項は、実際にデータ解析を行おうとすると、データ解析実施前に真っ先に解決しなければならない問題です。 これらの問題点に対処することなく、単に「データがあったからソフトウエアを実行した」というような表面的なデータ解析を行なうと、多くの場合は真に求めたい結果ではなく、フェークな解析結果となり、これらに翻弄されてしまいます。 このようなことに陥る前に、正しくかつ信頼性の高いデータ解析を行う事を心がけてください。 手法の理解も大事ですが、その手法の効果を100%出し切るようにデータ解析を行なう事も極めて大事なことです。 以下に示される様々な問題点を解決し、間違いが無いようにするための知識や理解を深めておくことが、安心してデータ解析を行うための重要なポイントとなります。

◇リスト


1.サンプルに関する様々な問題
 1-1.サンプル数が少ない時
 1-2.サンプル数が多い時
 1-3.データサンプリングの重要性
 1-4.ネガサンプルの重要性

2.パラメータ数に関する様々な問題
 2-1.パラメータ数が少ない時
 2-2.パラメータ数が多い時

3.欠損データの扱いは?
3-1.欠損の割合
 3-2.種々補完法

4.最小サンプル数は?

5.サンプルポピュレーションの偏りはどう解決するの
 5-1.クラスポピュレーションの限界比率は

6.予測率向上の手法とは
 6-1.サンプルの小グループ化
  ・類似サンプル群
  ・グループ分け(官能器群等)
 6-2.データ解析手法上での工夫
  ・線形から非線形へ
  ・コンセンサス法
  ・「テーラーメードモデリング」
  ・KY法(二クラス分類およびフィッティング(重回帰))

7.分類率と予測率の関係
 7-1.分類率 >= 予測率
 7-2.クロスバリデーションと外挿

8.線形問題と非線形問題

9.手法間連携
 9-1.意味ある連携
 9-2.意味のない連携

10.サンプル数が少ない時に安心してデータ解析を行うには
 10-1.限界数以下(計算自体が出来ない)
 10-2.2サンプルを用いた重回帰

11.パラメータからの情報読み込みと情報量・分類性
 11-1.パラメータの種類
 11-2.プログラムにより値が変わる(LogP等)パラメータ群と
      値が変わらない(MC等)パラメータ群

12.クラスタリングの特徴と限界
 12-1.様々な条件によりクラスタリングの結果が大きく変わることへの対応

13.次元減少、圧縮、変換、分解等の特徴と使い分け

14.特徴抽出(パラメータ選択)の意義と手法
 14-1.特徴抽出の意義
 14-2.主たる特徴抽出手法
  (a)パラメータとしてのチエック
  (b)統計的原理や手法を用いたアプローチ
  (c)最適化法等を利用したアプローチ
  (d)データ解析の種類により異なる特徴抽出アプローチ
  (e)データ解析手法での個別特性に特化したアプローチ

15.矛盾データの扱いと発見

16.パラメータの桁数の違い(オートスケーリング:正規化(normalization))

17.ウェイトベクトルの読み方

18.パラメータ同士の演算(演算パラメータ)

19.過剰適合

20.過剰適合とチャンスコリレーションの違い

21.クロスバリデーション(リサンプリング)手法と意義

22.サンプル抽出(外れサンプルの扱い、データの品質)

23.ネガティブサンプルの重要性

24.同値(同じデータ)サンプルが複数入った場合
 24-1.重みが変わる時と変わらない時(LLM等)

25.パラメータデータが不均衡の時(1/0 データで片方が数%しかない時等)
 25-1.全サンプル内でパラメータデータの割合が不均衡な場合
 25-2.クラス内でパラメータデータの割合が不均衡な場合
 25-3.クラス内のサンプルデータが全て同じ値の時
 
26.連続変数でも、データが無い時は0になる場合の扱いや不均衡度

27.分野(化学)特有の問題
 27-1.幾何/立体異性体
 27-2.互変異性体
 27-3.ニトロやニトロソの表現
 27-4.塩や含水(溶媒)化合物の扱い
 27-5.芳香族の扱い
 27-6.三次元構造の問題
 27-7.ポリマー等

28.サンプルデータの重複(同一化合物が同一活性、同一化合物が複数(矛盾)の活性)

29.データ解析指標はどのようなものがあって、どの程度の値が出ていればいいの?
 29-1.二クラス分類
 29-2.フィッティング(重回帰)

30.マッピング手法の違い

31.一元一項対応と一元多項対応問題

32.異なるプロトコルによる実験データの扱い上での注意と考え方
 32-1.細かな実験条件の違うサンプルデータの扱い(マージ、スプリット)
 32-2.マージを進める上での留意点と考え方
 32-3.スプリットを進める上での留意点

33.多クラスデータ解析の二クラス分類手法での扱い
 33-1.多クラスサンプル群の二クラスでの扱い

34.統計、多変量解析およびパターン認識の違い


  今後、ここに掲載された内容に関してより細かな解説を行なってゆきます。 また、ここで討論される解決手法は絶対的なものではありません。 もっと良い方法があるかもしれません。 それは、データ解析を行なう研究者の方々が個別に考えて対処してください。
  編集および湯田の都合上、掲載等の順番が上記リストと異なったり、掲載内容の重複や組み合わせ、また掲載時期も不規則になるかと思いますが、この点お許しください。 また、ここに掲載されたリストは、あくまでも暫定版です。 今後、上記のような項目がさらに追加されると思います。 化学データ解析に関心のある研究者の方々は、時々本ブログをチエックしていただければと思います。

  ここで示された項目は、化学多変量解析/パターン認識の実行時に知っておく、解決すべき事項です。 もちろん、データ解析実施主体としての多変量解析/パターン認識に関する個々の手法に関する知識も必要です。 しかし、これらに関する情報はWEBや書籍等に多数記載されていますのでそちらを参照してください。 
  また、実際の現場でケモメトリックスという観点で化学多変量解析/パターン認識を実行しようとする場合は、上記留意点の他に、対象分野の知識、計算機化学/計算化学、コンピュータ等の関連技術について専門家レベルは必要ありませんが、ある程度の基礎知識程度は知っておいた方が良いでしょう。 でなければ、処理を間違って変なパラメータを作成したり間違った解釈をしたり、さらには無意味な操作を行なう、あるいはシステム内部で行なわれている処理の意味を理解せずに省略したりという、本人が気付かないで見過ごしてしまう様々な危険性が高まります。
  


文責:株式会社 インシリコデータ 湯田 浩太郎










2012/09/13

EuroQSAR2012参加報告(1):Report of the poster presentation on the EuroQSAR2012

◆ 第19回EuroQSAR2012参加報告:


  8月26日から30日にかけてオーストリアのビエナ(ウイーン)で開催されたEuroQSAR2012に参加およびポスター発表を行いましたので報告いたします。
     EuroQSARは二年ごとに開催される欧州を中心とした構造-活性相関(QSAR)および創薬に関する国際学会です。 現在、QSARに関する大きな国際学会は他に存在しないので、本シンポジウムは事実上世界最大の構造-活性相関関連国際学会となります。
     前回の第18回EuroQSAR2010は2010年にギリシャのロードス島で開催されました。今回は第19回目となりオーストリアのビエナ(ウイーン)のウイーン大学で開催されました。ちなみに次回の第20回EuroQSAR2014はロシアのサンクスペテルブルクにて開催予定です。


     以下では、今回のEuroQSAR2012で私が感じた内容につきまして簡単にまとめます。

◇EuroQSARでの主たる討論議題とその傾向: 
     QSAR、 ドッキング、 インシリコスクリーニング

     現在のEuroQSARでの主たる討論議題はドッキング手法による薬理活性向上を目指した創薬研究となります。 今回のEuroQSAR2012では、QSARの創始者であるHansch先生が昨年の5月に逝去されましたので、Hanschメモリアルが特別セッションとして設けられ、QSARに関する様々な講演がありました。 残念ですが、QSARのルーツであるHansch-Fujita法に関する研究発表は年々少なくなり、これに代わりドッキングによるアプローチの議論が増えました。 ドッキング自体も、当初は手法的な議論が主体でしたが、手法的な技術が完成に近付くにつれ、ドッキングの主たるテーマは高速バーチャルスクリーニングに重点が変わってゆきました。 現在のドッキングにおける主たるテーマは、ADMEへの適用拡大等の研究となっています。
  最近の顕著な傾向として年々増えている発表が、インシリコスクリーニングに関するテーマです。 これも当初は、ドッキングによる薬理活性主体の高速スクリーニングに関する発表が中心でした。 しかし、創薬の関心が薬理活性のみならずADME/T/Pにもシフトしてくるのに従って、徐々にドッキング以外の技術によるアプローチ、特に化学多変量解析/パターン認識によるケモメトリックス主体のアプローチが増えてきました。

*薬理活性スクリーニングから、ADME/T(毒性)/P(物性)スクリーニングへ
     化学多変量解析/パターン認識手法によるインシリコスクリーニングが増えてきた大きな原因は、スクリーニング対象が薬理活性から、ADME、毒性(安全性)そして物性等にも広がってきたことが大きな原因です。 ドッキング手法は基本原理から薬理活性のみを対象としたアプローチであり、薬理活性以外のADME、毒性(安全性)、物性等を対象としたインシリコスクリーニングへの適用は困難であり、特に毒性や物性への適用は基本原理より実施出来ません。 このために、薬理活性はもちろんのこと、薬理活性以外の諸特性にも適用可能な手法としての化学多変量解析/パターン認識手法によるインシリコスクリーニングが注目を浴びています。

◇インシリコスクリーニングでの展開

     EuroQSAR2012でも、薬理活性のみならずADME/T/Pを含めたインシリコスクリーニングへの研究テーマが急速に増えており、発表の数のみならず、研究の幅そのものの広がりを強く感じるようになりました。

1.サンプル関連の拡充と広がり

     今回の発表で感じたのは、インシリコスクリーニング実施上での環境整備への広がりで、基本となるサンプルデータ関連の環境がWEB上でのデータベース構築や一般公開というように、より大きな広がりを持つようになってきたことです。 創薬分野でもサンプル群の扱いや収集等が大きな問題となり、多数で高品質、かつ多様性のあるデータソースが求められるようになっています。 サンプル群の収集という観点ではインターネットを介したWEB上での展開が最も効率的で、広がりを持つという点で現在の技術としては最も効率的であり、これらを目指した発表が見られました。
     但し、私の毒性インシリコスクリーニングの経験から述べると、サンプルの集積も大事であるが、サンプルデータの質がもっと重要であり、この点での考察、例えば実験プロトコルの統一や充実、サンプルデータの評価基準や手順等の拡充が重要と考えます。
     HTSやコンビナトリアルケミストリーが広く普及した現在、創薬研究分野も多数のサンプル群を扱うビッグデータ時代に突入するのも時間の問題と考えられます。 今後は、単なるデータ集積から、集積データの品質が問われ、その後はビッグデータを活用するデータ解析技術の展開が大きなテーマとなるでしょう。今後のこの分野での展開が楽しみです。

2.インシリコスクリーニングに関する技術関連の展開

     ここではドッキングによる薬理活性インシリコスクリーニングに関する話はしません。 薬理活性も含めたADME、毒性および物性に関するスクリーニングを行う化学多変量解析/パターン認識(ケモメトリックス)によるインシリコスクリーニングに関する発表について感想を書きます。

  その前に、化学多変量解析/パターン認識(ケモメトリックス)によるインシリコスクリーニングという言葉や研究にあまり親しみのない方のために、簡単にその歴史をまとめます。
  なお、ケモメトリックスは分野を超えた総合的な研究分野(化学、コンピュータ、データ解析、適用専門分野、等々)となります。 このため、ケモメトリックスを構成する基本技術は様々な分野に及び、その適用分野も様々な研究分野に及びます。 日本で、このような多種多様な研究分野を総合的にまとめて教育を受ける場やチャンスは殆ど無いと思います。 これらの技術的な詳細は、インシリコデータのホームページに、ケースバイケースで記述しておりますので、ご参照ください。

*化学多変量解析/パターン認識(ケモメトリックス)によるインシリコスクリーニングとは?
  多変量解析/パターン認識によるインシリコスクリーニングの基本技術はケモメトリックスと呼ばれるもので、歴史的には古くから実施されてきました。 化学分野に多変量解析/パターン認識の技術を本格的に導入した最初の研究は機器分析の分野で実施され、Isenhour,Jurs及びKowalskiの三人により展開されました。
  その後Jursは構造-活性相関分野での展開を行い、Kowalskiは機器分析分野での展開を中心に研究活動しました。 ケモメトリックス(日本語での正式な訳語は「化学計量学」と呼ばれています)という言葉はKowalskiとスエーデンのUmea大学のWold(SIMCA法を開発し、その後PLS法を開発)により定義され、一つの新しい研究分野となりました。
  一方、Jursは化学多変量解析/パターン認識による構造-活性相関の展開を行ない、毒性研究を中心に展開しました。 しかし、毒性分野でのインシリコ(コンピュータ)需要は当時の状況では大きくなく、その後は構造-活性/毒性相関研究と物性や機器分析分野での研究と半々程度の割合で研究を継続しました。
  しかし、この間の研究で創薬関連分野での多くの特徴や特性を経験し、これらの諸問題を解決するための基礎技術の多くを開発しました。 例えば、機器スペクトルデータと異なり構造-活性/毒性相関分野ではサンプル数が極端に少ないこと。 あるいは化合物情報を細かに取り出すためのパラメータの開発。また、パラメータ数が大きくなるので過剰適合や偶然相関を防ぐための強力な特徴抽出手法の開発等々です。 通常の多変量解析/パターン認識研究分野では、これらの事象は殆ど発生する事がないので、対応する必要がありません。この結果、これらの問題に対する対応策はあまり情報が無く、まともに討論、開発されていないのが現状です。 これらの、化学、創薬、毒性研究塔を行なう上で解決しなければならない様々な問題に関する解決技術がJursにより精力的に展開されました。 
  Jurs研究室で開発されたこれらの基礎技術を取り入れたコンピュータシステムとして、ADAPTAutomated Data Analysis by Pattern recognition Techniques)が開発されました。 このシステムは、当時の技術の最先端を行くもので、ディスプレイ上で化合物構造式を直接扱う事が出来、かつ対話的に化学データ解析研究を行う世界初の化学多変量解析/パターン認識による構造-活性相関支援システムとなりました。
  私はJurs教授の下に留学し、リサーチアソシエートとして二年間働き、このADAPTの部分開発を担当しつつ、ADAPTを用いた発癌性予測に関する研究を行ないました。 当時、日本では殆ど自由に使う事が出来ないミニコンを用いて、毎日最新のデータ解析を行えることが本当にうれしく、充実した日々を送ることが出来ました。 帰国の時にはJurs教授より自分の研究に使って良いということで、ADAPTのソースコードを日本に持ち帰ることが出来ました。 その後、大学から富士通に移り、Jurs教授の許可を得て富士通の汎用コンピュータ上にADAPTを移植しました。 この時はミニコン上のプログラムを汎用機上で稼働させるという事で、多くの富士通の方々の技術的な支援を受けて移植を完了させることができました。

*化学多変量解析/パターン認識は、その基本原理から薬理活性やADME/T(毒性)/P(物性)等の全ての項目をターゲットとしたインシリコスクリーニングへの適用が可能
  現在、この化学多変量解析/パターン認識(ケモメトリックス)によるインシリコスクリーニングが注目を浴びつつあります。  これは、現在大きな問題となりつつあるADME、毒性および物性の分類、予測、評価を行う事が出来るためです。




  化学多変量解析/パターン認識でも当然ですが薬理活性を扱う事は可能です。  しかし、研究を開始するのに様々な基礎知識と技術が必要であり、また多くの創薬研究者にとり多変量解析/パターン認識はあまり親しみの無い学問です。 このために、化学多変量解析/パターン認識(ケモメトリックス)による創薬研究アプローチは敬遠されてきました。 結果として、昔はHansch-Fujita法、その後はドッキング等、創薬研究者が比較的取り組みやすく、かつ理解しやすい手法が薬理活性研究の主体となってきました。 
  しかし、時代が大きく変化し、創薬研究、特にスクリーニング対象項目が薬理活性のみならず、ADMEや毒性(T)そして物性(P)等に変化する事で、これらのインシリコスクリーニング研究分野での化学多変量解析/パターン認識(ケモメトリックス)の適用が必要となりました。

*EuroQSAR2012での化学多変量解析/パターン認識によるインシリコスクリーニング関連発表


  化学多変量解析/パターン認識によるインシリコスクリーニングを実施するためには、その基礎技術は多岐の分野に及ぶことを意識する事が必要です。 これはケモメトリックスという研究分野が多くの基礎技術から形成されるためです。
  化学多変量解析/パターン認識によるインシリコスクリーニングを実施する上で必要となる技術や知識は大きく3種類存在します。 この他にも、化学とコンピュータを結び付けるコンピュータケミストリーの技術も重要になりますが、デフォルトの事項として省きます。
  1.化合物を数値データ(パラメータ)に変換する技術
  2.多変量解析/パターン認識に関する技術
  3.ターゲットとなる薬理活性/ADME/毒性/物性に関する知識
  EuroQSAR2012での発表は3を除いた、上記の1および2に関する発表が中心となります。 それぞれの研究分野で発表がありましたが、技術的にブレークスルーと思われるアプローチは残念ですがあまり見られませんでした。 化学多変量解析/パターン認識の手法的には従来からのデータ解析手法が用いられていました。 もちろん、ADMEや毒性スクリーニングでの予測精度向上のためにコンセンサス手法を取る等の工夫はされていましたが、特に大きな精度向上につながった例は報告されていませんでした。
  私の経験では、特に毒性分野での分類および予測は、

  (1)対象サンプルの構造変化性が極めて高いこと、
  (2)扱うサンプル数が多くなること、
  (3)高い分類/予測率の達成が求められる

 という以上の三つの関門を突破する事が必要です。 私の従来からの経験では、これら三つの問題を従来から展開されている多変量解析/パターン認識手法をそのまま適用すること、さらにはどんなに工夫して優れたパラメータ等を開発しても、良好な結果を得ることは殆ど出来ないと感じています。 そのために、これらの毒性分野特有の諸問題を解決する全く新しいデータ解析手法としてKYK-step Yard sampling)法を独自に開発しました。


3.ポスター発表に関しての感想

     今回私は「NEW APPROACH FOR QSAR AND QSTR TREND ANALYSIS ON LARGE SAMPLE DATA SET BY THE KY-METHODS」のタイトルで発表してきました。
  発表の趣旨ですが、私が開発したKY法は極めて多数のサンプル群の完全(100%)分類を実現するのみならず、QSAR的な、より精密な議論が可能になるという報告です。 このような精密な議論が可能となるのは、KY法の実施過程で対象サンプル群がきれいにポジおよびネガサンプル群にクラスター化され、かつ階層的に分類されるためです。従来手法によるデータ解析では、特に多数のサンプル群を扱う場合は一回のデータ解析で全てのサンプル群を対象として解析するために、完全分類実現には程遠く、サンプル数が多いために情報の整理が出来ないため、QSARレベルでの厳密な要因解析を行う事は殆ど不可能です。
  私のポスターでは前回のEuroQSAR2010での発表時と異なり、明らかに多くの研究者の方が聴きに来られました。 前回のKY法のデビューとなる発表では、完全(100%)分類実現という話を聞いても半信半疑という感じだったのですが、今回の発表では真剣に討論していただけたし、討論内容もより具体的なものへと明らかに変化していました。 その代表的な変化が、実際にシステムを用いて試してみたいという研究者が現れたことです。 また、私は覚えていなかったのですが、フランスの先生には「あの二本の判別関数を用いて分類する手法を開発した人ですね」と、声をかけてくれていただきました。 KY法の特殊なアプローチは記憶に強く残るようです。このように、今回のEuroQSAR2012では、KY法が徐々に認知度を増している様子を実感しました。















  

  次は、会場となったウイーン大学やウイーンの様子等について報告いたします。


文責:株式会社 インシリコデータ 湯田 浩太郎



2012/08/22

「最少サンプル数」に関する特許が日本で承認されました:The new technology about "the number of the minimum samples" was patented in Japan.


◇多変量解析/パターン認識における、「最少サンプル数」に関する特許が日本で承認されました



  本特許は、サンプル数が少ない条件下に行われる多変量解析/パターン認識によるデータ解析の解析信頼性を保つための手法に関する特許です。

      一般的に多変量解析/パターン認識を用いてデータ解析を行う場合、利用可能なサンプル数が少なくなってくると「チャンスコリレーション(偶然相関)」「オーバーフィッティング(過剰適合)」等の問題等が顕著となり、データ解析そのものの信頼性が急激に低下してきます。 本特許はこのように、サンプル数が少ない時のデータ解析を安全に実施出来るようにするための操作技術に関する特許であり、この意味では基本特許となります。 


      サンプルデータを集めることが極めて困難な研究分野の場合、多変量解析/パターン認識によるデータ解析を行うには多くの場合困難が付きまといます。 本特許は、サンプル数が少ない場合であっても安心してデータ解析を実施する技術に関するものです。

      サンプルの総数が大きい場合であっても、例えば「KY法」を実施すると、ステップ(個々の繰り返し操作)数が大きくなり、最後のステップ近くになるとサンプル数が急激に減少し、解析に利用できるサンプル数が少なくなります。 この点で「KY法」を実施する場合、最終ステップに近づいてくるとデータ解析そのものの信頼性が落ちてくることになります。 このために「KY法」実施において、最後の方のステップではこのような問題を避けるべく最新の注意を払ってデータ解析を行う事が必要となります。 本特許はこのような場合にも適用可能であり、「KY法」の実施をより安全かつ容易にする特許となります。


◇ より具体的にはどのような特許ですか?


      サンプルの絶対数が小さい時、データ解析実施上での禁じ手である「チャンスコレレーション」や「過剰適合」が発生しやすくなり、信頼性の高いデータ解析を実施することが困難となります。 本特許は、このようにサンプル数が小さい時でも安心してデータ解析を行えるように環境を整える手法に関する特許です。

     サンプル数が少ないという事は、多変量解析/パターン認識を行う場合には様々な観点からデータ解析の信頼性に関する問題が出てきます。 この結果、データ解析自体が出来なくなる、たとえデータ解析が出来たとしてもその解析結果の信頼性が低くなる、等々の問題が発生し、先に説明しました「チャンスコリレーション」や「過剰適合」自体の問題も顕著化してきます。

     本特許は、サンプル数の絶対数が小さい時に行う多変量解析/パターン認識によるデータ解析のデータ解析信頼性を高度に保つようにすることに関する特許です。
     これらの問題に対して、仮想サンプルの創出という手法でサンプル数の問題を解決します。 つまり、サンプル数が少ないのであるから、サンプル数を追加してデータ解析を行うというものです。 この場合のサンプル追加に関する様々なテクニックをまとめて特許としたものです。

 内容に関しましては、今後時間がある時にまとめて本ブログにアップします。


文責:株式会社 インシリコデータ 湯田 浩太郎




2012/08/16

二クラス分類で、常に100%(完全)分類を実現する手法を公開いたします:


◆ 「チャンスコリレーション(偶然相関)」や「過剰適合(Over Fitting)」等のトリックを使うと簡単に良好な解析結果が得られます。 しかし、これは絶対に行ってはならない禁じ手です。



  以前、「常に相関係数を1(100%)とする秘伝中の秘伝を公開します」というタイトルでWEBにアップしました。 これは、データ解析でいわゆる「チャンスコリレーション(偶然相関)」を意図的に引き起こし、かつ「過剰適合(Over Fitting)」と称される禁じ手を上手に(???)利用することで、常に相関係数1(100%)を実現するものでした。 いわば多変量解析/パターン認識によるデータ解析では決して実行してはならない悪質な(本人がこのことに気がつかないと、大変な被害を受けますので常に注意してください)トリックを使うことで完全相関を実現したものでした。

  現在、多変量解析/パターン認識によるデータ解析はソフトウエアを使えば気軽に実行できるようになり、結果も簡単に出るようになっています。 本人が気付かないうちに前記の「チャンスコリレーション(偶然相関)」や「過剰適合(Over Fitting)」を起こしてしまうと、外見上は良好な結果が出たように見えます。 つまり、データ解析結果の指標(分類率や相関係数等)が良好な値となることが多くなります。 一般的には、これらの禁じ手を避けた正しいデータ解析を行う場合、良好なデータ解析結果を導き出すことは簡単なことではありません。 従って、これらの禁じ手に関する予備知識が無い状態のままデータ解析を行うと、大きな間違いを起こしているにもかかわらず、むしろ良い結果が出たと誤判断し、結果的に大きな被害を受けてしまいます。 多変量解析/パターン認識によるデータ解析を行う場合は、常にこれらの点に留意しつつデータ解析を行う事が必要です。 

  このようなマイナーな内容のことをわざわざWEBにアップしたのは、何も知らないでデータ解析を実行すると、とんでもない結果を導き出す事がありますよという、いわゆるデータ解析の内側に潜んでいる危険性を理解していただきたかったためです。



◇ トリックなしで、常に100%(完全)分類を実現する方法があるのでしょうか? ⇒ 「KY法」


  今回ここで紹介する手法は、先に述べたような禁じ手となるトリックを用いて100%分類を実現するフェークな手法ではありません。 データ解析の特性を上手に利用することで、トリック無く、真に100%(完全)分類を実現する手法です。 これは「KY(K-step Yard sampling) 法」と呼ばれる最新のデータ解析手法です




◇ 「KY(K-step Yard sampling) 法」とはどのような手法ですか?


  従来、他のデータ解析手法では実現が遠く及ばなかった100%(完全)分類を、どんな厳しい条件下であっても常に実現させる手法です。 例えば、クラス間重なりが非常に大きく分離しにくいサンプル群、サンプル数が非常に大きい場合等です。 開発者の私もここまで出来るとは思っていませんでしたので、最初はビックリしました。 
  「KY法」はデータ解析の手順に、従来手法とは全く異なる考え方を導入しますので、この意味では他の人から見ると大きなトリックかもしれませんが、これは良い意味でのトリックです。 意外なことに、これだけのパフォーマンス(100%(完全)分類)を実現するにもかかわらず、この「KY法」は全く新しい理論(アルゴリズムや計算手法)の展開に基づいたデータ解析手法ではありません。「KY法」は、従来手法の内容をそのままにして、その運用方法を変えただけの手法にしかすぎません。 データ解析としての基本的なアルゴリズム等は従来手法そのままを踏襲しております。 いわゆる、「メタ手法」となります。 詳細はKY法のブログか、インシリコデータのホームページにアップされている「KY法」の説明、あるいは「分子科学会」のMolecular Scienceへの投稿(2モデルKY法)を参照してください。

  「KY法」は二クラス分類のみならず、フィッティング(重回帰)でも適用されます。 フィッティング(重回帰)で適用されると、従来手法で同じサンプルを用いて実行した場合と比較してはるかに高い相関係数や決定係数を実現します。
  この「KYフィッティング」によるデータ解析結果は、禁じ手を用いたフェークな操作によるアプローチは相関係数や決定係数の値を常に最大値の1(100%)を実現しますので、その相関係数や決定係数の値だけを比較するとフェークなアプローチには負けてしまいます。 しかし、この「KYフィッティング」は多変量解析/パターン認識によるデータ解析上での禁じ手(「チャンスコリレーション(偶然相関)」や「過剰適合」等)を一切使うことなく実施される正当な手法です。 しかも、従来のフィッティング(重回帰)手法をそのまま適用した時と比較すると、この「KYフィッティング」では極めて高い相関係数や決定係数が実現されます。


◇ 現時点で「KY法」は、二クラス分類3種類、フィッティング(重回帰)3種類の、総計6種類開発されています


  現在、二クラス分類用のKY法として3種類、またフィッティング(重回帰)用のKY法として3種類の総計6種類のKY法が開発されています。 これらの詳細に関しましては今後インシリコデータのホームページ、あるいはKY法のブログにて順番に紹介させていただきます。


◇ 「KY法」の特徴とは何でしょう?


  「KY法」は従来手法と比較して、劇的な分類率(100%)の向上および極めて高い相関係数や決定係数を実現します。 しかし、「KY法」内部で使われる基本的なデータ解析手法は、現在利用されているデータ解析手法そのもの(線形/非線形判別分析、ニューラルネットワーク、サポートベクターマシン、アダブースト等)であり、「KY法」として全く新しい手法やアルゴリズム等が開発されているわけではありません。 単に、サンプル群の取り扱いと繰り返し操作を組み入れただけです。
  従って、「KY法」となるための特徴は以下に示す二つです。

 1.サンプル群(空間)の扱い手法の違い
 2.操作の繰り返し実行



  上記の手続きをとることで、「KY法」は他の手法には無い優れた特性を有する事となります。 分類率や相関係数等のデータ解析指標のみならず、対象となるサンプルセットは二クラス分類であるならば、クラス間重なりが極めて高いサンプル群を扱っても100%分類を実現します。 また、フィッティング(重回帰)でも残差の大きなサンプルセットを用いても、その相関係数を劇的に改良出来ます。 さらに、サンプル数が増えても完全分類や高い相関係数を実現します。
  従って、「KY法」が扱うサンプルの特徴は以下のようになります。

1.データ解析が困難なサンプル空間を持つサンプルセットであっても、高いパフォーマンスを実現する。
2.サンプル数がどんなに増えても、良好な解析結果を出せる



  要因解析を行うという観点でも「KY法」は優れた、便利な機能を有します。 「KY法」は対象とするサンプル群をより小さなサブサンプル群に分けることが出来るので、大量のサンプル群を一度に用いて要因解析するよりも、高い精度での要因解析が可能となります。 これは、用いたサンプル群のみならず、データ解析に用いたパラメータ群もより小さなサブセット化されているので、パラメータからの情報読み取りもサンプル同様に容易になります。
  従って、「KY法」を用いた要因解析の特徴は以下のようになります。

1.サンプル群やパラメータ群のサブセット化を実現する
2.サンプルやパラメータを対象とした要因解析が容易になる


  「KY法」のもう一つの特徴は、データ解析手法としての柔軟性が高い事です。「KY法」で作成される判別関数や重回帰式は従来の手法を用いて作成されますが、一つの「KY法」の中で利用される複数の判別関数や重回帰式は、それぞれ異なる手法を用いて構築する事が可能です。
  例えば、2本の判別関数を用いた「KY法」では、線形および非線形判別関数を組み合わせて用いることが可能です。 しかも同一のステップ内で両方用いても良いし、個々のステップ単位で線形、あるいは非線形というように組み合わせることが可能です。
  さらに、一つの「KY法」内部で、2モデルKY法、1モデルKY法、モデルフリーKY法と個々のステップ単位で組み合わせて利用する事も可能です。 これらの組み合わせは、「KY法」を実行する過程でそのデータ解析の進行状況に応じて臨機応変に変化させることが可能です。


1.「KY法」内部で使うデータ解析手法の組み合わせ様式は自由
  例:同じステップ内で線形/非線形判別関数を組み合わせる
    異なったステップ単位で線形/非線形を組み合わせる
2.基本的な「KY法」自体も混在して利用可能
  例:一つの「KY法」中で、1モデルKY法、2モデルKY法、さらにはモデルフリーKY法等を組み合わせて利用可能




  以上、「KY法」の特徴について様々な観点からまとめてみました。 実に多くの特徴を有した手法であることを理解いただけたかと思います。

  このように従来手法をそのまま用いるのではなく、「KY法」として用いることで、従来手法では実現できなかった様々なことが簡単に実現出来るようになります。 現時点で「KY法」は、二クラス分類とフィッティング(重回帰)のデータ解析分野で適用可能です。 「KY法」の基本的な考えを適用することで、二クラス分類、フィッティング(重回帰)以外のデータ解析分野にも展開可能になるものと思いますが、これは今後の課題となるでしょう。

  「KY法」はクラス間重なりの大きなサンプル空間、あるいは分散の大きな空間といった、従来からのデータ解析手法では扱いにくく、良い結果を出すことが出来なかった分野での解析に強力な効果をもたらします。 また、「KY法」の基本原理(繰り返し操作)からわかるように、サンプル数がどんなに多くなってもその最高のパフォーマンスを保持する事が可能な手法です。 大量のデータ解析を扱う事が求められる今後のビッグデータ時代に、多変量解析/パターン認識の厳密なデータ解析力をそのままビッグデータにも適用できる強力な道具になるものと思います。


文責:株式会社 インシリコデータ 湯田 浩太郎




2012/08/12

多変量解析/パターン認識データ解析を行う時の最小サンプル数について:

◆ 多変量解析/パターン認識によるデータ解析を行う時の最小サンプル数はいくつでしょうか?


    実際に多変量解析/パターン認識によるデータ解析を行っていると、良く問われる質問として「データ解析を行う時の最小サンプル数を教えてください」という質問があります。

 私が行っている創薬関連研究分野では、データ解析に使えるサンプル数が少ないという事が特徴です。これは、一つのサンプルを作るのに時間と手間そして多額の費用がかかるのが大きな原因です。このため、“統計や多変量解析/パターン認識は多数のサンプルを扱うための手法”というイメージを持ち、あまりデータ解析に慣れていない研究者の方々にこのような質問をされる方が多いのだと思います。

  以下にまとめる「最小サンプル数」とは多変量解析/パターン認識(二クラス分類およびフィッティング(重回帰))を行う時のもので、統計等でアンケート用のサンプルを集める時の「最小サンプル数」とは考え方の基本が異なります。この点ご注意ください。
  多変量解析/パターン認識での基本は、「チャンスコリレーション(偶然相関)」の回避です。

 

 

◆ データ解析を行う場合の最小サンプル数は手法により変わりますが、以下のようになります


    ◇ 二クラス分類では4サンプル、フィッティング(重回帰)では5から6サンプルとなります。

   *但し、 データ解析に用いるパラメータとして1個だけ用いたとして・・。


    最小サンプル数は、正しいデータ解析を行った場合に必要となるサンプル数という事です。多変量解析/パターン認識によるデータ解析で正しい解析を行っているという保証は、その解析はチャンスコリレーション(偶然相関)を起こしていないという事が証明されている事であり、このような条件下でデータ解析を行うのに必要なサンプル数となります。

    先のチャンスコリレーション(偶然相関)の話でも述べましたように、信頼性指標(R)の値がその最低基準を超えていることが、多変量解析/パターン認識のデータ解析の信頼性を保証します。このため、信頼性指標(R)が最低とされる値の時のサンプル数が「データ解析時の最小サンプル数」となります。この場合、データ解析のコンディションは最低条件ですので、分母のパラメータ数は最低の数である1を採用します。この結果、上記の最小サンプル数を用いたデータ解析の実行時に利用可能となるパラメータ数は一個となります。パラメータ数が増えると、信頼性指標(R)の分母が大きくなりますので、最小サンプル数も大きくなります。
  *パラメータ数が1ということは、統計みたいな感じで、とても多変量解析/パターン認識とは言えないかもしれませんが・・・、とりあえず理論上でのお話です。お許しください。

  つまり、最小サンプル数はデータ解析に用いるパラメータ数と連動して変化します。

 データ解析に用いるパラメータ数が多くなると、最小サンプル数も大きくなります。


  従って、最小サンプル数として絶対的な値というものは決まっておらず、そのデータ解析に用いたパラメータの数に従って増減するというものです。簡単に考えるならば、最小サンプル数は二クラス分類の時はパラメータ数×4、フィッティング(重回帰)の時はパラメータ数×5から6と覚えてください。少ないサンプル数の時に、多数のパラメータを使えば良好な解析結果を出すことは簡単ですが、チャンスコリレーション(偶然相関)を引き起こしたとんでもない解析となります。

 但し、この基準は最低レベルの条件です。しいて確率的に言うならば10%程度の誤差発生のレベルです。この値を導く条件を厳しくすると(パラメータの取りうる値の数等)この誤差発生率の値はさらに大きくなります。従って、より安定した信頼性の高いデータ解析結果であることを保証するならば、先の信頼性指標(R)の値はこれよりもずっと大きな値が必要です。



◆ 多変量解析/パターン認識によるデータ解析実施上での基本的な考え


 多変量解析/パターン認識、特に二クラス分類やフィッティング(重回帰)では、通常の条件下では絶対に起こらないことが起きた、その結果であるという事が重要なポイントです。偶然に起こるのではなく、絶対に起こらないことが起きた。しかも、素晴らしい結果(高い分類率や高い相関係数)を伴って・・。従って、このような結果が出たからには、用いたパラメータ(説明変数)と目的変数との間には何らかの必然的な関係が存在するはずである。この必然性を解明するのが多変量解析/パターン認識における要因解析となります。これが、多変量解析/パターン認識による要因解析を行う上での最も重要な前提です。

 絶対に起こり得ない筈のことが、偶然にしかも簡単に起こる(つまり、チャンスコリレーション(偶然相関)が起こった)。このような条件下では何の必然性も存在しません。要因解析を行ってもフェークな結果に振り回されるだけです。

 例えば、総計100個(50個ずつの2クラス)のサンプルを用いて、わずか1個のパラメータで完全分類に成功したのであれば、この1個のパラメータは100個のサンプルを完全分類するための何らかの情報を持っているという事を疑うはずはありませんね。

 しかし、同じ完全分類であっても、100個のパラメータを用いた結果であるならば、これらのパラメータに二クラス分類に重要な情報を持っているとは考えにくいし、100個のパラメータの情報を解読するのも困難で、する気にもなりませんね。このような事を引き起こした人工的な事例としてフィッティング(重回帰)を例として、以前このブログにアップしてありますので見てください。



◆ サンプル数の大小と多変量解析/パターン認識


 正しいデータ解析を行うという前提であるならば、サンプル数が少なくなると利用できるパラメータ数も少なくなるので、良好な解析結果を出すことは難しくなります。また、サンプル数が少なくなると真の解析母集団との整合性が保ちにくくなるので、データ解析上での別の問題が大きくなってきます。このような問題を避けるには、良好なサンプリングが極めて重要です。こちらのサンプリング問題の方は明確な指標が見えないので、データ解析を行うという観点からは、より難しい問題となるでしょう。この場合は、データ解析研究者のノウハウが生きてくる仕事になります。

 このようなサンプリング問題を避けたいならば、可能な限りサンプル数を増やす努力が必要となります。

  信頼性指標(R)が同じとすると、サンプル数が大きいほどデータ解析時に利用できるパラメータ数は増えてきます。サンプル数が増えて、利用できるパラメータ数が増えるとデータ解析が楽になります。しかし、サンプル数が増えすぎると、こんどはサンプル中に含まれるノイズサンプルの絶対数も大きくなってきます。このようになると、ノイズ情報を嫌い(多変量解析/パターン認識ではノイズをノイズとして切り出せる技術が重要となります)、厳密な解を求める多変量解析/パターン認識の場合はデータ解析実施自体が困難になります。この点が、統計と多変量解析/パターン認識との大きな違いとなります。これとは逆に、サンプル数が少なすぎると、上でも述べましたように解析母集団を正しくあらわしているかという、サンプリングの問題が顕在化してきます。

    チャンスコリレーション(偶然相関)の問題はデータ解析に用いるサンプル数が少ない場合に特に注意しなければならない重要な問題です。常に多数のサンプルを扱う、あるいはサンプルを集め易い研究分野ではチャンスコリレーションについて強く意識する必要は無くなります。この問題は、サンプルを集めにくい創薬やその他の関連分野の研究で特に注意することが必要です。


◆ チャンスコリレーションと線形/非線形問題


 このチャンスコリレーション(偶然相関)の問題は今回まとめた最小サンプル数の問題に関係するのみならず、データ解析の線形/非線形問題にも大きく関与してきます。この場合は「過剰適合(Over fitting)」の問題も強く絡んできます。これらについては別の機会にまとめます。


文責:株式会社 インシリコデータ 湯田 浩太郎



2012/08/04

チャンスコリレーション(偶然相関)とは:Chance corelation

 「チャンスコリレーション(偶然相関)」とは何でしょうか:

What is the "chance correlation" ?




 「チャンスコリレーション(偶然相関)」の言葉をご存知ですか?:

Do you know the term "chance corelation" ?



◇    全く不思議ですが、「チャンスコリレーション」あるいは「偶然相関」という言葉をインターネット上で検索しても殆どヒットしません。統計や多変量解析/パターン認識関連で、個々の手法等に関する情報や解説は山ほど出てくるのですが、データ解析を実際に行う時に最も重視すべき「チャンスコリレーション(偶然相関)」に関する議論や討論が殆ど無いことに本当にビックリします。 この原因としては、統計や多変量解析/パターン認識の専門家が主体でWEBを書いており、実際にデータ解析を行って、そのデータ解析の結果やその正しい解析を重視するという立場で考えていないため、あるいはこのような運用技術を重視していないせいかと思います。

◇    データ解析手法自体も大事ですが、実際のデータ解析に利用されてこそデータ解析手法としての価値が出るはずです。 例えば、自動車を作る技術は大切で、機能もディスプレイしても素晴らしいものを作るのは大変な技術です。 しかし、自動車は実際に人を乗せ、荷物を積んで走ってこそ価値の出るものです。 事故を起こさないための交通ルールの整備や、快適に運転できる運転技術の普及、天候や地形に左右されずに確実に移動できる技術、車種が異なっても安全に運転できる技術等、自動車の運用には様々な技術やルールが必要です。

◇    統計や多変量解析/パターン認識も、手法自体の問題も重要ですが、自動車のように一般に普及させ、道具のように広く利用されるためには、これらのデータ解析手法を確実に個々の分野に正しく適応する技術の確立と、その普及も大事と考えます。

◇    確かにこれを書いている私自身、統計や多変量解析/パターン認識の専門家ではありません。これらのデータ解析技術を自分の研究分野(創薬、ケモメトリックス、化学解析、等々)に適用し、素晴らしい、あるいは新しい事実を導き出すという事を実施目的として日々データ解析を行っております。従って、データ解析手法自体に興味があるわけではありません。この立場から、いかに正しいデータ解析を行うか、いかにすれば貴重な情報を取り出せるかの方に注力しています。
    もっとも、私自身はKY法という新しいデータ解析手法を開発しておりますが・・。これは、従来からの手法をそのまま適用しているだけでは、自分が行っている研究分野(安全性(毒性)解析)の解析が出来ないと感じたため、必要に迫られて開発したもので、私のオリジナル手法です。

◇    統計や多変量解析/パターン認識手法を用いてデータ解析を行い、何らかの情報を取り出すという時に最も気をつけなければいけないことは、データ解析手法そのものの新規性や理論ではありません。そのデータ解析が正しく行われているか、その解析が手法の限界を超えてはいないのか、正しい適用をしているのか、データ解析手法以外の適用分野特有の問題をきちんと満たしているのか、等々の様々な問題をクリアしてデータ解析を行う事です。

◇    データ解析を行っていると、学会発表等では新しいデータ解析手法を一歩でも早く適用して、発表したり、複数の手法を組み合わせて新規性を出したり等されており、データ解析の手法に重点が置かれた発表が多いようです。しかし、殆どの研究者の方はデータ解析を道具として使う立場の方々ですし、そういう方々が統計や多変量解析/パターン認識を行ってこそ真の普及ですし、データ解析が社会に役立つ手法となります。そのような方々は、データ解析の本質を考えて、失敗のないデータ解析を行う事に注力するべきです。そうでないと、データ解析からとんでもないしっぺ返しを受けることになります。


◆    「チャンスコリレーション(偶然相関)」は正しいデータ解析を行う上でクリアすべき、最も重要な問題です。また、最小サンプル数の問題や、線形/非線形問題にも関係してきます。



◇データ解析の外見と中身の違いを生じさせる悪魔の要因:「チャンスコリレーション」

The devil factor which induce serious big difference between appearance and contents of data-analysis


◇    チャンスコリレーション(偶然相関)の言葉の通り、全く偶然に解析が成功する事を意味します。つまり、解析目的とは全く関係のない要因によりクラス分類では100%分類が達成され、フィッティング(重回帰)であっても100%の相関が簡単に実現してしまいます。ちょっと喩が良くないですが、外から見るときれいな容器でありながら、中には腐った食べ物が入っているような状況です。外見が素晴らしいので、中に入っている物も当然素晴らしいと考えががちですが・・・・。

◇    データ解析の常識でいえば、100%分類や100%相関は出来うる最高のデータ解析が出来た(外見が素晴らしい容器となった)ことを意味しますが、これが全くの偶然により達成される場合があり、これがチャンスコリレーション(偶然相関)が起こった(容器の中に入っている物が腐っている)結果であることになります。このために、多変量解析/パターン認識のデータ解析では常にこのチャンスコリレーション(偶然相関)に注意することが必要です。



◇失敗のないデータ解析を行うため、常に留意すべき「チャンスコリレーション」の問題:

"Chance corelation" which should always mind in order to make successful data-analysis


◇    データ解析結果の信頼性を高く保ち、後から失敗解析とすることのないようにするには、データ解析の実施にあたり常に守らなければならない留意点がいくつかあります。その中でも、よく議論されるチャンスコリレーション(偶然相関)の問題は、知っていてもデータ解析に夢中になると忘れてしまう事が多いことなので、特に注意が必要です。

◇    チャンスコリレーション(偶然相関)の問題が、実際のデータ解析上でどのような形や問題として出てくるかについてしっかりと理解しておくことが大事です。この問題がクリアされていなくとも、データ解析自体は正常に実行されるので、データ解析を行っている研究者自体が常に注意しなければなりません。結局、チャンスコリレーション(偶然相関)が起こったデータ解析では、そのデータ解析結果の信頼性が極めて低いために、分類結果や、その結果を用いて行う要因解析、さらには予測等の作業の一切が無駄になります。自分の仕事に失敗結果のしわ寄せがきてしまいます。



◇チャンスコリレーションが起こっていることはどのようにしてチェックしますか:

How to check that chance corelation has happened ?


◇    一般的にチャンスコリレーション(偶然相関)を起こしているデータ解析結果は、データ解析過程で利用するデータ解析の指標(分類率や相関係数等)が良好な値となっている事が多く、このためにチャンスコリレーション(偶然相関)を起こしていることに気がつかずに、その解析結果を信用して次の解析に進むことが多くなります。このために、最終的なデータ解析結果が示す様々な要因を検証した段階で、データ解析結果と新たな実験結果が全く合わないという結果となります。この段階でやっとチャンスコリレーション(偶然相関)の問題に気がつくか、気がつかなければデータ解析自体への不信感が芽生えることになります。

◇    データ解析過程で意図的にチャンスコリレーション(偶然相関)を起こして良好な結果を得る。この極端な事例が、先に述べた重回帰解析における100%相関の出し方の秘訣です。

◇    この事例でも述べましたが、解析結果は100%相関なので最高の解析結果が出ています。丁度、容器が九谷焼の最高級品になった感じです。ですが、なんかおかしいですね。先の事例では、解析目的と全く関係のないパラメータを使っていたので、すぐにおかしいことに気が付きます。しかし、日常行う解析では100%相関を達成することは殆どなく(あると殆どの人は、データ解析自体を疑いますが・・)、代わりに高い相関係数が達成されるため、解析が良好と考えます。さらに殆どの場合は、解析目的と何らかの関係があると考えられるパラメータを用いて解析を行いますので、解析結果が変だなー(つまり、チャンスコリレーション(偶然相関)を起こしている:中身が腐っている)と感じることは少ないようです。

容器の中身を見ることのできるレントゲンを使う:

The X-rays which can see the contents of the vessel are used

◇    データ解析の質を評価する指標(分類/予測率や相関/決定係数)がどんなに素晴らしくとも、これは容器の外見を評価するもので、その容器の中に入っているものの評価を意味するものではありません。この、データ解析で最も重要な中身の評価はどのようにするのでしょうか。

◇    一般的に、中の見えない容器の中身を評価する手法として工学的には非破壊検査がありますが、このとき主として利用されるレントゲン技術のようなものが、チャンスコリレーションにも存在します。これは、単なるインデックスですが、このインデックスの存在を知ってデータ解析を行っている人は少ないようです。特に、少ないサンプルを扱い、多数のパラメータを使うチャンスの多い研究分野でデータ解析を行う場合は注意が必要で、このインデックスを常に意識する事が必要です。

チャンスコリレーション(偶然相関)を避けるための指標:「信頼性指標」

What is the index for avoiding chance corelation?

It is the "Index of Reliability"


◇    このチャンスコリレーション(偶然相関)が起きているか否かをチェックする事は簡単です。データ解析に用いたサンプルの数(S)と、パラメータの数(P)に留意するだけで良いのです。実際にはサンプルの数(S)を、解析に用いたパラメータの数(P)で割った値(信頼性指標(R): Index of Reliability)をチャンスコリレーション(偶然相関)が起こっているか否かの指標とします。この指標は二クラス分類の場合とフィッティング(重回帰)の場合とで若干異なります。

二クラス分類の場合 ⇒ 

信頼性指標値(R = S/P)は ≧ 4

フィッティング(重回帰)の場合 ⇒ 

信頼性指標値(R = S/P)は ≧ 5から6


◇    上記の信頼性指標を常に念頭に置きながらデータ解析を行う事が必要です。これが守られれば、チャンスコリレーション(偶然相関)の問題に悩まされることなく、良質のデータ解析を行う事が出来ます。フィッティング(重回帰)の場合の信頼性指標値は国際的には5ですが、日本国内ではより厳しい基準となる6が使われます。特に、構造-活性相関等の研究分野では厳しくなりますのでご注意ください。一方で、構造-活性相関分野ではチャンスコリレーション(偶然相関)の問題が一部にあったとしても、要因解析の内容や、他の解析結果との総合的な議論や討論のレベルで、この問題の扱いがケースバイケースで判断されます。

◇ 上記の信頼性指標の値は、いわばデータ解析を行う時の最低条件です。実際にこの値よりも大きな値となるようにする事が必要です。この信頼性指標の値が大きいという事は、実際に起こる確率が極めて低い事象であることを意味します。言い換えれば、「事実上起こり得ない事が起こった」という事です。この起こり得ない条件下でありながら極めて高い相関係数や分類率が達成されているならば、いわば「奇跡が起こった」事になります。これは、解析目的と用いたパラメータ間に何らかの強い必然性/相関があったために起こった現象と言えます。これは、安心して要因解析が行えることを意味します。

◆ 安心して、新しい事実を発見し、自身を持って発表しましょう。R(信頼性指標)値が大きければ、あなたの行ったデータ解析の解析信頼性は極めて高いと保証されています。データ解析の品質に関して誰も疑問を挟む余地はありません。


文責:株式会社 インシリコデータ 湯田 浩太郎



2012/07/17

無駄なデータ解析を避けるために:In order to avoid useless data analysis

◆正しいデータ解析を行うための条件とは:

 The conditions for executing correct data analysis




◇判別関数や重回帰式を作成する時に用いる指標とデータ解析の信頼性の問題:

The problem of the reliability of the index used when creating a discriminant function and a multiple regression equation on data-analysis

    データ解析を行う時、通常は良いデータ解析を行うための目標(指標)として分類率や相関係数の値のみを目標値として判別関数や重回帰式を作成していませんか。確かにデータ解析という観点では高い分類率を達成する判別関数の構築や、フィッティング(重回帰)では高い相関係数を達成する重回帰式を求めることが重要です。しかし、高い分類率と高い相関係数を達成することは、単に作成した判別関数や重回帰式の性能を示すものであり、データ解析そのものの解析信頼性を保証するものではありません。性能が良くとも、信頼性が低いという事は良くありますし、この点に注意することはデータ解析を行う時の基本的な心構えです。



◇データ解析におけるチャンスコリレーション(偶然相関)の問題:

The problem of the " Chance corelation" in data-analysis

    信頼性の高いデータ解析を行うためには、データ解析が本質的に有する問題点やデータ解析に潜む危険な要因をクリアすることが必要です。データ解析実施上における危険要因は幾つかありますが、この中でも最も重要で、データ解析時に常に意識しなければならない事項として「チャンスコリレーション(偶然相関):Chance correlation」の問題があります。
    多変量解析/パターン認識を行う上ではこの問題は極めて重要です。しかし、このチャンスコリレーションをWEB上で検索してみると、殆どヒットしてきません。あるのは構造-活性相関や化学解析分野での記事が多く、一般的な工学分野での記載は殆どありません。これは、チャンスコリレーションはサンプル数とデータ解析に用いるパラメータ数との関係で決まるため、多数のサンプルを調達することが容易な工学分野ではあまり意識する必要が無いという点が大きな原因と思われます。。
    しかし、この「チャンスコリレーション(偶然相関)」の問題は信頼性の高いデータ解析を実施するという点で極めて重要であり、データ解析の様々な場面で出てきますので、ここで改めてこの問題についてまとめてみます。



◇チャンスコリレーション(偶然相関)とサンプル数、パラメータ数:

The chance corelation, the number of samples, the number of parameters

    チャンスコリレーションを監視する、あるいはモニターするためにはデータ解析に用いるサンプルの数(S)を解析に用いたパラメータの数(P)で割った値である信頼性指標(R)が用いられます。
    データ解析を行う時は分類率や相関係数の値を高いものとすることが大きな目標であることは間違いありません。と同時に、この信頼性指標(R)が高いという条件下であるという事も忘れないでください。信頼性指標(R)の値が小さい場合(即ち、データ解析の信頼性が低い)は、どのように高い分類率や相関係数が達成されていても、殆ど意味のない危険なデータ解析をしていることになります。



◇信頼性指標(R)から見えてくる、最小サンプル数、および線形および非線形問題:

 The reliability index (R), shows us that the "number of the minimum samples"  and problems on the "linear and nonlinear problems"

    チャンスコリレーション(偶然相関)を回避出来る最低限の条件を考えると、データ解析に必要な最小サンプル数が見えてきます。ここでは詳しく書きませんが、二クラス分類では4サンプル、フィッティング(重回帰)では5から6サンプルとなります。但し、この場合データ解析に利用できるパラメータ数は1となります。
    また、線形および非線形分類とフィッティングに関してもこのチャンスコリレーション(偶然相関)の問題が大きく影響してきます。全ての非線形手法が該当するわけではありませんが、非線形手法を利用する時はチャンスコリレーション(偶然相関)の影響が大きくなりますので、線形手法を用いた解析と比較して、よりいっそうの注意が必要です。これらについては、今後まとめてゆきます。


文責:株式会社 インシリコデータ 湯田 浩太郎



2012/06/22

Joe Paterno(ジョー・パターノ) アメリカンフットボールコーチ追悼会報告:Report of memorial service of PSU's american football coach Joe Paterno

Joe Paterno(ジョー・パターノ) アメリカンフットボールコーチ追悼会が6月9日(土)、事前のアナウンス通りに開催されました:(報告が遅れたことをお詫びいたします)

 今回はPSUのアメリカンフットボールチームを4大ボウルの全米一に導き、また自らも400勝という前人未到の勝利記録を達成したJoe Paternoコーチを偲ぶ会です。いつもはなかなか時間がとれず、PSUの総会等のこの種の集まりに参加できない方々にも貴重な時間を割いていただき、また遠方からも多数参加いただき、会はJoe Paternoを慕う人々で盛会となりました。特に今回の特徴としては、PSUを卒業したばかりの方や、PSUのアメリカンフットボールをこよなく愛する若い世代の方々の参加があり、会場は熱気にあふれていました。

 会場では、有志が持参したJoe Paternoに関する資料や記念品が展示され、PSUのフットボール試合のDVDが流されていました。また、Joe Paternoの葬儀の様子や生前の業績を偲ぶ動画がプロジェクターを用いて大スクリーンに映し出されていました。これらの動画を見れば、Joe Paternoがいかに素晴らしい実績を上げ、多くの人々に愛されていたかがよくわかります。ちなみに私の好きな写真はJoe Paternoが選手と一緒に走っているところを写したものです。年をとっても常に選手と一緒に行動する監督というJoe Paternoの熱意と魂が感じられます。
 会はPSCJ(Penn State Club of Japan)の阿部会長によるJoe Paternoにささげる黙とうより始まりました。参加した方々が会場の西洋(イタリア)料理を楽しみつつ、PSU時代のアメリカンフットボール試合の話や、Joe Paternoのフランクな気質、競技場の様子、ホームゲームの様子等の思い出話に花を咲かせつつ素晴らしく充実した時間を過ごしました。
 ちなみに、会場のグリルシャトーは創業50年という歴史を感じさせるよい店でした。

 以下に、当日展示された資料や記念品の写真を掲載しますので楽しんでください。
我らが愛するJoe Paterno

Joe Paterno関連の雑誌。ジョーイの本もあります。

会場で流されていたPSUローズボール決勝のDVD上映

 写真の二枚のTシャツはコーチPaternoへの感謝のTシャツです。
上の図柄はPaternoが試合の時にグレーのズボンと白ソックスにズック靴を愛用していたことで、この図柄となっています。

Joe Paternoが亡くなった時のTシャツです。

 PSU関連グッズとフットボールゲームで使うヘルメットです。帽子は優勝した時の記念帽子です。
ヘルメットは強化プラスティックなので昔と比べるとかなり軽くなっているという話ですが、私が持ってみるとかなり重いものでした。これらを被った山のような大男が体ごと突っ込んでこられては、こちらは簡単に吹っ飛んで、体自体がこわれてしまうなーという感じでした。

松村様持参の記念の盾ですが、裏にJoe Paternoの直筆のサインがあります。

 会では、今回アメリカから参加された古川様が、PSU時代のJoe Paterno話や、ニタニーライオンチームの試合をホーム試合でなく、アウエイでの試合に行った時に、敵チームのサポーターが大群衆で、帰るのも大変であった等の思い出話がありました。また、PSUのニタニーライオンチームをこよなく愛し、名古屋からこの会に駆け付けたというファンの方の素晴らしい話や、PSUを卒業して帰国して間もないという方からの最新の話があり、会場が盛り上がりました。こうした若い人たちにPSUの新しい流れや歴史を作っていってほしいと思います。

*会当日の写真は参加者にメールされていると思います。ここでは、プライバシーの関係からグッズおよび記念品の写真にとどめますので、ご了解お願いいたします。

--------------------------------------------------------------------------------------------------------------------------
追筆:追悼会の前日にJerry Sandusky の裁判が始まったというPSUフットボールチームのスキャンダル放送がFENから流れていましたが、この原稿を書いている今も再びJerry Sandusky のニュースが流れました。本当に残念なことです。
 改めて、PSUのニタニーライオンチームがJoe Paternoを失ったショックから一日も早く元の元気を取り戻し、アメリカンカレッジフットボールの雄となりますように心より祈ります。


文責:株式会社 インシリコデータ 湯田 浩太郎


2012/06/21

予想外の副作用と年齢との関係:Unexpected relation between medicinal side effects and age

◆副作用と持病:Side effect and chronic disease

  副作用のない薬の開発は私の研究テーマですが、自分が副作用で苦しむとは夢にも思っていませんでした。しかも、年を取っていると幾つか持病を持っており、これが薬の副作用と相互作用して思いもかけない症状をもたらすとは本当に想定外の事実でした。
  今回私が経験したことは、年を取ると正規(?)の副作用以外にも持病との関連症状が出て、事態を悪化させる可能性があることを認識しなければならない事です。副作用のない薬の開発は、企業の創薬の観点からのみならず、持病を多く持つ患者(特に老人)との観点からも非常に重要な事です。健康な人であれば、純粋な副作用のみで終わることが、持病との関連で症状を悪化させたり、もともとの持病を再発させたりする事があることを考慮しなければなりません。これからの高齢化社会の創薬や治療では、このような事に関する最新の注意が必要になることを身を持って感じました。

◆薬効の強さよりも、やさしく安全な薬の重要性:

Importantness of drug safety, rather than strength of drug efficacy

  現在の新薬は、薬理効果が従来の薬よりも高いことが大きな開発目標となっており、これが新薬承認の条件となります。しかし、今回の副作用の経験から、そろそろこの観点を変えることが必要となっていると感じました。たとえ薬理効果が従来製品と比較して大きく変わらないにしても、持病を抱えて常に複数の薬物を投与している人には、安全な薬の方が重要であると感じました。あるいは、投与する時の医薬品の選択条件として、投与実績が多く、多くの人が安全であると評価し、歴史のある薬の選択が必要と感じました。医者も、新薬でその効果を期待するのではなく、多くの持病との関係を総合的に判断して、最終投与すべき医薬品群を選択することが、人にやさしい安全な医療という観点で重要となるのではないでしょうか。

◆今回私が経験した副作用:The side effects which I experienced this time

  今回私が経験したのは、もともと持病として心房細動を持っていましたので、脳血栓防止の目的でワーファリンを服用していたことに端を発します。その他、常用役として5種類ほど毎日服用しております。
 私は、無類の納豆好きであるのですが、ワーファリンの服用開始以後は納豆が食べられませんでした。時々、納豆禁断症状が出てきて、納豆を食べる(医者には内緒です)のですが、心配しながら食べるので、あまり満足できませんでした。こんな中で、今回用いた薬はワーファリンとメカニズムが異なるので納豆を食べても構わないとの話があり、去年からその新薬が上市されるのを楽しみにしていました。上市後、早速ワーファリンから新薬に変えてもらいました。一応、新薬の情報を調べ、現在服用している常用薬との配合禁忌の可能性をチェックし、その可能性はないことを確認しておりました。
  新薬に切り替えてから早速毎日納豆をたらふく食べて、その味を満喫していました。しかし、徐々に尿の色が濃くなり始めました。最初は、色もさほど濃くなく、少し疲れが出たのかなーという程度でしたが、徐々に濃い色となってゆきました。それでも、痛いところもないので疲れがひどくなったのかなーと思っていました。しかし、ある朝突然、尿の色が今まで一度も見たこともないコーラ色に激変したので、ビックリしてその日から投薬を中止しました。その結果、数日で尿の色が通常の色に変化したので、とりあえず、問題は解決かと思いました。

◆副作用による持病(尿路結石)の再発:

Chronic disease (urolithiasis) recurrence by the side effect 

  私は、尿路結石症を持病として持っております。今回はこの尿路結石症が副作用により再発してしまいました。尿自体の色は投薬を中止するとすぐに元の色近くまで透明になったのですが、同時に腹部から脇腹にかけての違和感と排尿の時の残尿感が残るようになりました。過去の経験からすぐに、結石が落ちてきたとわかりました。脇腹の違和感が徐々に背中に移動すると尿路結石症となります。いつ、石が落ちてきて、あの痛みが来るのかとハラハラし通しの日が続きましたが、ある日その石が出てきました。
  今回は尿路結石に最初にかかった時に石が出た時のような痛みはなく、比較的楽に出てきました。石がトラップできたのは、石が濃い焦げ茶色にコーティングされていたため、痛みはなくともすぐにわかりました。それでも、依然として残尿感があるので注意していたところ、4から5日たってから二個目の石が出てきました。こちらは、一個目よりもサイズが大きく、色が半分焦げ茶色で、半分が結晶特有の白色をしていました。

  左の石が最初に落ちてきたもので、サイズが小さく、全体が焦げ茶色にコーティングされていることがわかります。全体的に丸みをおび、サイズも小さかったので落ちやすかったのでしょう。右の石が二番目に落ちてきたものですが、最初のものよりサイズが大きく、半分程度がコーティングされ、手前の方はコーティングされず、白色でフレーク状の結晶の形がわかります。こちらは、形がデコボコして引っかかりやすく、サイズも大きいために落ちてくるのに時間がかかったようです。
  以前私が最初に尿路結石になった時に出てきた石は、全体が白色透明で針状フレーク型のきれいな結晶であったので、これと比較して考えると今回の石は血尿のショックで出てきたものであることは間違いありません。


◆持病と副作用が引き起こす二次症状:

Secondary symptom caused by a chronic disease and side effects

  そもそも今回の血尿という副作用がなぜ起きたのかわかりません。配合禁忌の医薬品を飲んでいたわけでもありませんし、この点は医者も調べていたはずです。今回の経験で、私として注目したいのは、副作用が引き金となり、もともと持っていた持病(尿路結石)が再発したことです。きっと持病を持っていない若い人が同じ副作用にかかっても、血尿だけで済んでしまうでしょう。しかし、持病を持つ人が副作用にかかると、持病との関係で思いもかけない症状を発症する危険性がある事を身を持って体験しました。

◆高齢化社会に対応した創薬と医療:

Drug discovery and medical care corresponding to the aging society

  時代が高齢化社会に移行しつつあり、医療費もこれに伴い急速に増大している現在、今回のように持病を抱えている患者への投与を安全に行う事の重要性を認識することが必要と感じました。
創薬自体も、薬理効果の高さだけを考えた創薬から、薬理効果というよりも安全性の高い薬を目指した開発が重要となるでしょう。また、安全性自体も単に副作用が出るか出ないかのチェックのみならず、副作用が出た時に、他の関連する病気との相互作用も考慮することが必要です。
  複数の持病を持っていることが多い老人は体力も弱く、副作用が原因となって他の持病関連の症状の悪化等につながり、余計な病気で苦しむことにつながる可能性があります。医者もこの点を考慮しつつ、単なる薬理効果の強さへの期待のみならず、患者の持病等も含めた総合的な判断を行い、安全な投与への配慮が大事となります。
 今後は創薬や投薬時に、配合禁忌のチエックのみならず、万が一副作用が起きた時に患者が持つ持病との関係についての考慮が必要になってくると考えます。


2012/04/20

Joe Paterno(ジョー・パターノ) アメリカンフットボールコーチ追悼会のお知らせ:Announcement of memorial service of PSU's american football coach Joe Paterno



◆ PSU(ペンシルバニア州立大学)の アメリカンフットボールチームを全米1に育て上げた故Joe Paterno(ジョー・パターノ)コーチ追悼会開催のお知らせです:
The memorial service for the American football coach (Joe Paterno) of PSU is held on the next schedule.


   以前報告いたしましたが、PSUのアメリカンフットボールチーム(二タニー・ライオン:Nittany Lions )監督でありました、故 Joe Paterno監督を偲ぶ会の日程と開催場所が決まりましたので報告いたします。以下に案内状を掲載いたします。案内状にもありますように、ニタニーライオンが泣いています。ふるって参加いただければと存じます。

お願いです:
    現在、PSCJ (Penn State Club of Japan) では、PSU(Pennsylvania State University:ペンシルバニア州立大学)関連の方々のコミニュケーションの場としての機能を充実させてゆきたく考えております。この目的でペンステーターの方々の名簿を作成しております。
    今回のJoe Paterno監督追悼会に参加されない場合でも、ご連絡先とメール登録いただければ、今後のPSCJの活動報告やペンステーター同士のコミニュケーションの場や機会を共有出来ますように努力いたします。是非、これを機会に登録お願いいたします。
    なお、登録は以下に記載されております追悼会案内メールの連絡先にお願いいたします。

-------------------------------------------------------------------------------------------------------------------

PSU日本同窓生の皆様

拝啓

 春たけなわの候、皆様にはますますご盛栄のこととお慶び申し上げます。
 さて、Penn State Club of Japanでは、去る1月に死去されたペンステートの偉大なフットボールコーチ、故ジョー=パターノ氏の追悼会を、下記の通り企画致しました。
 ペンステート所縁の我々が集まって、彼の足跡を偲び、業績を称え、そして元気をなくしたペンステートにエールを送ろうではありませんか。
 皆様のふるってのご参加をお願いいたします。ご家族でのご参加を期待しております。また、思い出の写真や品々がありましたら、お持ちください。皆で思い出を共有しましょう。


敬具

2012年4月吉日
Penn State Club of Japan(PSCJ)会長 阿部 弘、幹事一同




               
ジョー=パターノ コーチ 追悼会

日時:2012年6月9日(土)、12:00~14:00
場所:グリルシャトー 東京、八重洲北口(徒歩約5分)
http://r.gnavi.co.jp/g037300/map/
〒103-0028 東京都中央区八重洲1-6-14
050-5798-1745(電話担当:古賀さん)
参加費:6000円 (家族3000円、 15歳以下無料)

プログラム(暫定):
1. 開会の挨拶、黙祷 PSCJ会長 阿部
2. 思い出の品展示 有志   PSU(フットボール)に関連する思い出の品の展示
3. 献杯 湯田
4. 戦歴紹介 古川 様 (米国より参加)

5. エピソード紹介 参加者   フットボールに関しての各自の思い出、展示品の説明
6. 次回総会の企画検討  参加者


     申し訳ありませんが、ご参加の可否を、5月18日までに下記までご連絡いただきたく、お願い申し上げます。また、ご参加いただけない方は、近況なりお知らせいただければ幸いと存じます。出来るだけ多くの方に連絡が取れますよう、心当たりの同窓生にこのメールの転送をお願い致します。また、ブログ、ツイッター、フェイスブック等のページをお持ちの方は、この会を案内していただけると幸いです。

連絡先 PSCJ  幹事長 谷 昌毅
メールアドレス   msh-tani@kxb.biglobe.ne.jp

-------------------------------------------------------------------------------------------------------------------

 ・古川様からの資料です。(Wikipedia上の資料を再編集の上使用)
Head coaching record of the Penn State Nittany Lions by the late Joe Paterno
  Paterno had a career record of 409 wins, 136 losses, and 3 ties.[102] In his 46 seasons as a head coach, he had 38 winning seasons, one more than Bear Bryant. Based on the criteria used by the NCAA, Paterno holds the record for most victories by a Division I-A/FBS football coach, passing Eddie Robinson's 408 victories on October 29, 2011, against Illinois.
クリックすると拡大します

Bowls and championships of the Penn State under Paterno (Wikipediaより抜粋)
Paterno runs out with his team before the start of a game, September 2007
Paterno held more bowl victories (24) than any coach in history. He also topped the list of bowl appearances with 37.[18] He had a bowl record of 24 wins, 12 losses, and 1 tie following a defeat in the 2011 Outback Bowl. Paterno was the only coach with the distinction of having won each of the four major bowls—Rose, Orange, Fiesta, and Sugar—as well as the Cotton Bowl Classic, at least once. Under Paterno, Penn State won at least three bowl games each decade since 1970.
Paterno led Penn State to two national championships (1982 and 1986) and five undefeated, untied seasons (1968, 1969, 1973, 1986, and 1994). Four of his unbeaten teams (1968, 1969, 1973, and 1994) won major bowl games and were not awarded a national championship.
Penn State under Paterno won the Orange Bowl (1968, 1969, 1973, and 2005), the Cotton Bowl Classic (1972 and 1974), the Fiesta Bowl (1977, 1980, 1981, 1986, 1991, and 1996), the Liberty Bowl (1979), the Sugar Bowl (1982), the Aloha Bowl (1983), the Holiday Bowl (1989), the Citrus Bowl (1993 and 2010), the Rose Bowl (1994), the Outback Bowl (1995, 1998, 2006) and the Alamo Bowl (1999 and 2007).
After Penn State joined the Big Ten Conference in 1993, the Nittany Lions under Paterno won the Big Ten championship three times (1994, 2005, and 2008). Paterno had 29 finishes in the Top 10 national rankings.

関連写真へのリンクです:
The late Joe Paterno のポートレート写真です 
彼の銅像です
彼が亡くなった時の銅像の様子です
     多くの人々にJoePが愛されていた様子がわかります。
オールドメイン(Old Main)前に掲げられた半旗です
Joe Paternoの追悼に、オールドメイン(Old Main)前に集まった人々です
生前のJoe Paterno監督 ビーバースタジアムでの写真だそうです
*最大11万人が入れるというスタジアムです
  大学しかない小さな町にこれだけ大きなスタジアムがあること自体、私には驚愕でした。
  しかも、超満員になります。いったいどこから人々が湧いて出てくるんだろーと思います。

キーワード:Joe Paterno、JoePa,ジョーパターノ、memorial service、追悼会、お別れの会、American college football、アメリカンフットボール、head coach、監督、PSU、Penn State、The Pennsylvania State University、ペンシルバニア州立大学、Nittany Lions、ニタニーライオン、lung cancer、肺癌、University Park、Old Main、Beaver Stadium、ビーバー・スタジアム、State college、ステートカレッジ、PA 16802、PSCJ 、Penn State Club of Japan、PSU日本同窓生、

2012/04/03

ICOH 2012 Congress 参加報告(マヤ、ユカタン文明):Report of a participation in ICOH 2012 Congress : Culture of Yucatan

       講演を行った次の日、世界遺産となっているマヤ文明を代表するチチェン・イッツアー(Chichen Itza)に行ってきました。

*高速道路*

       チチェン・イッツアーはユカタン半島のほぼ中央に位置するため、海岸のカンクンからは高速で片道約二時間(約200Km)かかります。ICOH 2012 Congress の参加者が泊っているカンクンのホテル群を大型のツアーバスが巡り、参加者をピックアップしたのちにカンクンの市街地を抜けてからはひたすら走り続けました。高速といっても日本のように高速道とすぐ分かるように陸橋や土堤のようなものはありません。単にブッシュ(日本の林というよりはブッシュです)を切り開いた舗装道で、勾配のない道がひたすらまっすぐに続いています。途中の標識も殆どなく、レストエリアもなく、ひたすら走るだけです。日本人的感覚だと、これだけ平坦で大きく、ブッシュだけの平原であるならば開拓しやすいのになーという感じになります。山や谷等がない平坦な地なので、日本の表日本や裏日本といった気候の変化も少なく、ユカタン半島全体が同じような気象になっているものと思います。
カンクンと内陸部のチチェン・イッツアーを結ぶ高速道路の路肩の様子
ブッシュ、ブッシュ、ブッシュとひたすらブッシュが続きます。殆ど変化がありません

       しばらく走った後に、ツアーバスが高速らしきゲートを出ました。ここでいったんトイレ休憩(バスにはトイレがあったので、必要はなかったのですが、気分転換になりました)をしたのですが、その時の高速入口(カンクンにゆく方向)の写真です。カンクンの文字しかわかりません。カンクンから高速道に入る時はこのようなゲートはありませんでした。一般道からそのまま入ります。
他の道路との交差も殆どなく、分岐点もないので料金徴収はここ一か所でOKなようです。
途中で休憩を取った時の高速のゲート
-----------------------------------------------------------------------------------------------------------------

*バヤドリド:Valladolid*

       高速道路を出てから立ち寄った町(バヤドリド:Valladolid)です。中央の公園の脇に大きな教会がありました。メキシコはカソリック教徒の信者が多く、ローマ法王が歴史上初めてメキシコを訪問したというニュースが大きく報道されていました。
バヤドリド(Valladolid)の教会

       町は二階建のカラフルな家が続き、その一階に店が開いているという感じで街並みが続いています。店の間口は狭いのですが、一旦中に入ると広いなーという感じです。道路は公園周辺は対面交通がなく、殆どが一方通行でした。ここでは自由時間が45分あったので、リゾート地とは異なる一般の町や教会を散策し、メキシコの雰囲気を十分楽しむことが出来ました。
バヤドリド(Valladolid)の道路
----------------------------------------------------------------------------------------------------------

*チチェン・イッツアー(Chichen Itza)*

       バヤドリド(Valladolid)を出てからニ十分くらいでチチェン・イッツアーの遺跡に着きました。
       現地ではスペイン語のガイドと英語のガイドの二グループに分かれて見学しました。
   なお、チチェンとは「泉(井戸)のほとり」で、イッツアとは「水の魔法使い」という部族名のことだそうです。

*見ました!! 「ククルカンの降臨」*

       訪問した日は21日だったので、運よく春分の日と秋分の日にしか見られないという「ククルカンの降臨」(ウィキペディアより)と呼ばれる天体ショーを見ることが出来ました。その現象が見られるという時間の直前まで雲が多く日が照らず、下の写真のように影は出来ませんでした。これでは、ガイドさんが言っていた「非常に貴重な天体ショー」は見れないなーと殆どあきらめていました。
   ちなみにククルカン(Kukulcan、Kukulkan)とは、羽を持つ蛇であり、マヤ神話の至高神、創造神のことだそうです。
「カスティーヨ」の北面:雲のために影が出来ていない事がわかります

   しかし、予定時間の少し前になって急に日差しが出てきてはっきりと影が見えるようになり、全くラッキーにも「ククルカンの降臨」を完全な形で見ることが出来ました。
春分と秋分の日の一瞬にしか見られない「ククルカンの降臨」のショーの写真

       上の写真を見ると、階段脇にあるククルカン(蛇神)の頭部から日差しが階段のわきに沿って9段目の頂上まで駆け上がっている様子がわかります。9段目は細い光の棒のようになっており、これは短時間のうちに消えてしまい、その後しばらく待ちましたが二度と現れてきませんでした。
   春分と秋分の日にしか見られず、しかも完全な姿が見られるのはほんの一瞬と言える短い時間に起こる現象です。しかも、直前まで太陽が雲に隠れていたものが、その時間になって偶然に晴れ上がり、「ククルカンの降臨」を完全な形で見ることが出来ました。本当にラッキーでした。
   なお、写真には人が写っていませんが、この「カスティーヨ」の前面には約千人程度の人が集まって、この「ククルカンの降臨」の天体ショーを見ていました。

「カスティーヨ」の北面の堀にいたイグアナ:人を恐れません

「カスティーヨ」の北にある「戦士の神殿」

------------------------------------------------------------------------------------------------------------

   以上は「新チチェン」と呼ばれる遺跡群です。チチェン・イッツアーはこの「新チチェン」と呼ばれる遺跡群と、少し離れたところに「旧チチェン」と言われる遺跡群の二つから構成されています。  遺跡の作られた年代が少し離れているそうで、場所も少し離れたところ(歩いて行ける距離ですが)にあります。
   「旧チチェン」の遺跡群で大きなものはマヤの天文台である「El Caracol(エルカラコ)」があります。こちらの遺跡群には、この他にも「尼僧院」と呼ばれるものや「教会」もあり、これらの建物にはマヤ文字が装飾されていました。
天文台である「El Caracol(エルカラコ)」

「El Caracol(エルカラコ)」の前の広場:右の方に「教会」の一部が見える

「尼僧院」と呼ばれる建物

「教会」と呼ばれ、「尼僧院」の隣にあります

   古い観光写真等を見ると、これらの遺跡群には自由に登壇出来、頂上にある祭壇等を詳しく見ることが出来、周辺に広がるユカタン平原を見ることが出来たようです。しかし、残念ですが現在はすべての遺跡群は人が昇り降り出来ないようになっていました。
   太古の昔にこれだけの建造物を残し、非常に正確な暦まで作成していたという技術水準の高さに驚きました。それでいて生贄を神に供えていたという文明は、技術と精神との大きなギャップを強く感じました。

以上


文責:株式会社 インシリコデータ 湯田 浩太郎

2012/03/29

ICOH 2012 Congress 参加報告(カンクン):Report of a participation in ICOH 2012 Congress : Cancun, Mexico


       ICOH 2012 Congress が開催されたカンクンはとても印象的な場所でした。カンクンについて私の感想を簡単に書いてみます。


*ホテルとビーチ*

       一応ICOH 2012 Congress に参加する前にカンクンについて調べてはいましたが、やはり本物は素晴らしいの一言に尽きます。
       海岸線で海に面したリゾート地は多くあるかと思いますが(私はあまりリゾート地を知りませんが・・)、大きく違うなーと思ったのは、通常は海岸線(ビーチ)に沿って道路があり、その内陸部にホテルや居住空間があるのですが、カンクンは逆です。地形的な事情もあるのでしょうが、道路が内陸(内海)に沿ってあり、ホテルが道路とビーチの間にあります。従って、ビーチは殆どがプライベートビーチのようになっています。この結果だと思うのですが、ハワイのようにビーチに人がうようよしているという事はありませんし、ホテルから直接ビーチに行くことが出来ます。
       ビーチとホテルの間には大きなスペース(中庭)があり、ここにはプールがいくつもありました。このホテルの中庭は昼も見ていて楽しいのですが、夜もきれいにライトアップされ、特にプールの青色がとてもきれいで別世界にいるような感じです。夜間は日差しがなく、また適度な気温で寒くもなく、風もありとてもさわやかです。ただ、ハワイと比べて若干湿度が高いなーと感じましたが、気になる程ではありません。ベランダに出てこの夜景を楽しみつつ、波の打ち寄せる音を聞きながら飲料水を飲み、講演の練習をするのがとても快適な時間でした。

ホテルの中庭の昼間の様子

ホテルの中庭の夜間の様子

ホテルから中庭のプール、そしてビーチへと続く様子

       ホテルはICOH 2012 Congress の会場であるカンクンセンターの隣にあり、本当に便利でした。また、ホテルロビーは6階建ての吹き抜けで、天井はきれいなステンドグラスで飾られており、昼間はこのステンドグラスからの光がロビーの床の大理石に反射して豪奢な感じを醸し出していました。

                                                     ホテルロビー天井のステンドグラス

-------------------------------------------------------------------------------------------------------------------------


* ビーチ *

       海岸はコーラルビーチの名の通り、真っ白な砂浜で、かなり細かでモッチリした感じの粒子でした。この砂が海岸線(カリブ海)に沿ってあるせいか、海の色の青さが空の色にも負けない透明度の高いライトブルー(カリビアンブルーというそうです)でした。空が天上にも地上にもあり、一見すると連続しているような錯覚を覚える印象的な青さでした。ビーチ自体は色の白さのみならず、人があまりいないことと、常に整備されているせいか、海岸線特有のゴミもなく、また漂流物等もないきれいなビーチでした。不思議に、日本の海岸線で感じられる潮風の香りをあまり感じませんでした。 私は千葉の幕張近辺に住んでいますが、海から風が吹くときは潮風の匂いがします。

ホテルの前の白いビーチ

白いビーチからホテルの方を見た写真

ビーチの白い砂と波打ち際


-------------------------------------------------------------------------------------------------------------------------
-------------------------------------------------------------------------------------------------------------------------


* ICOH 2012 Congress会場と会の催しもの *

     ICOH 2012 Congress が開催されたカンクンセンター(Cancun Convention & Exhibition Center)は四階建てのかなり大きな建物で、ホテルゾーンの中心に位置し、極めて便利な所にあります。この建物全体を使ってICOH 2012 Congress が開催されていました。
ホテルのアプローチから見たカンクンセンター

       ポスターも毎日100テーマ程が順次発表されており、講演が無い時間帯は人々が熱心に討論を行っておりました。
ICOHポスター会場

       一般公演もセッション単位で並行して行われ、カンクンセンター全体を使って数多くの討論が同時進行で行われていました。
ICOHの講演プログラムリストの掲示板

      ICOH 2012 Congress が開催された最初の全体講演は最上階の大会議室で開催されました。大型スクリーン5台を使っての講演で、写真は前回ICOHが開催された南アフリカ(2009年)のマンデラ大統領による大会へのメッセージが会場に流されていた時の写真です。

PLENARY SESSIONでのマンデラ大統領によるICOHへのメッセージのアナウンス

     ICOH 2012 Congress 開催の中日の夜にはCULTURAL NIGHTがあり、マヤ文明、特にユカタン半島での伝統的な宗教儀式での踊り等が披露されました。衣装や踊りもすごいのですが、音楽も強烈で強く印象に残りました。その後、カンクンセンターのベランダ的なところで、カンクンの夜景を楽しみながらビュッフェ形式の簡単な立食パーテイがありました。日差しがないだけ夜の方がすごしやすいので、快適でした。
CULTURAL NIGHTでのマヤの伝統的な宗教踊り

       木曜の夜にはGALA DINNERが開催されました。 この時、写真で見るとわかるように参加する外人の多くの方々は男性女性ともに少しフォーマルな正装をして参加していました。TPOがしっかりしているのだなーと感じました。

GALA DINNER会場へのアプローチ

       GALA DINNERでは正式なDINNER(メイン料理は魚料理でした)が提供され、大変おいしく食べました。フロア前の舞台にはバンドと歌手の方が音楽を演奏し、雰囲気を盛り上げていました。しばらくして会場の中央ではダンスが始まりました。最初は男女のペアで少し正式な形で、少数の人が踊り始めましたが、徐々に曲目もディスコ調のラフな感じの曲になってくると、多くの人が参加し始め、一緒に自己流のダンスをするようになりました。私も雰囲気につられ、いつのまにか家内と一緒に自己流のダンスを踊っていました。写真がありますが、この中には著名な方々が楽しそうに踊ってられます。私が参加する他の国際学会でも、このようなダンスが必ず行われます。日本人的な感覚ですと偉い先生方はダンスなどしないという感じですが、著名な先生方が年齢に関係なく率先して楽しそうに踊られる姿を見るのは本当に素晴らしく感じます。ヨーロッパ系の人々の文化の基本が、このようなダンスにあることを改めて感じさせられました。

GALA DINNERでのダンスの様子

次回は、ユカタン半島のマヤ文明のチチェン・イッツアに行った時の感想報告をします。


文責:株式会社 インシリコデータ 湯田 浩太郎


2012/03/28

ICOH 2012 Congress 参加報告:Participate report of the 30th Congress of the International Commission on Occupational Health (ICOH) to be held in Cancum, Mexico, from Sunday, March 18 to Friday March 23, 2012.


  3月18日から23日にかけてメキシコのカンクンにて開催されたICOH 2012 Congressに参加してきました。
  今回はイタリアのMario Di Gioacchino教授から発表依頼を受けての参加で、以下のタイトルで講演してきました。

"Qualitative structure-toxicity relationships (QSTR) on skin sensitization"
Kohtaro Yuta1, Kazuhiro Sato2, Yukinori Kusaka2
1In Silico Data Ltd., Chiba, Japan, 2Department of Environmental Health, School of Medicine, University of Fukui, Fukui, Japan

     発表時に用いたPPTファイルはインシリコデータのホームページのPresentationsにアップしてありますので、ご興味がある方はそちらからダウンロードしていただければと存じます。
   今回私が行いました発表は皮膚感作性に関するインシリコ(コンピュータ)によるデータ解析に関するものです。福井大学医学部の日下教授および加藤準教授との共同研究です。本共同研究で私は、データ解析を担当させていただきました。
     本発表は、従来から使われていた多変量解析/パターン認識手法を用いたデータ解析では完全分類が出来なかったものが、KY法を適用することで完全(100%)分類を実現できたという報告です。
      様々な手法による分類結果:1から4までが従来手法で、5番目がKY法の分類結果です

クラス間の重なりが大きなサンプル空間の図です。従来手法による判別関数では線形/非線形にかかわらず”完全分類”の実現が殆ど不可能であることがわかります。

                   1.KY法の最初のステップ実施概念図です


            2.KY法の二番目以降のステップ(繰り返し操作)の実施概念図です

   上記1の基本操作を図2のように繰り返し行う事で、サンプル数の多少にかかわらず、またクラス間重なりが極めて高いサンプル群であっても常に完全分類可能となります。
  今回の発表でもわかりますように、KY法が本質的に有する分類能力は、他の従来から展開されてきた多変量解析/パターン認識手法とは比べ物にならないほどの極めて高い分類能力となります。KY法の詳細に関しましてはKY法のブログインシリコデータのホームページで見ていただければと思います。

    本学会は私にとりましては初めての参加となります。私のホームグラウンドはインシリコ(コンピュータ)によるドラグデザインや安全性評価、およびコンピュータケミストリーであり、今回のOccupational Healthの分野ではあまり活動はしてきませんでした。しかし、この分野でも今回発表させていただいた福井大学医学部日下教授との共同研究のように、データ解析の果たす役割が大きくなりつつあることを肌で感じています。データ解析自体もコンピュータの機能向上により、従来は実施困難であったことが実現されるようになっています。インシリコ(コンピュータ)関連技術がOccupational Health研究の大きな道具となることを期待しています。


ICOH 2012 Congressに参加した感想: 

  ICOH 2012 Congressは、従来私が参加していた学会と比較すると、その参加人数のみならず参加国の多様性等においてかなり大きな学会でした。正確な参加人数はわかりませんが、大きなカンクンセンターの4フロアすべてを用いて学会が開催されていました。

                     ICOHのWelcome Boardです

  化学会や薬学会の年会等と比較すると、学生や大学院生等が殆どいないため参加人数(三年ごとに開催され、過去の実績では約3000人程度参加するそうです)こそ及ばないものの、その参加者の殆どは第一線で研究されている方々や国の関連機関の方々が多く、その国籍の多様性は極めて大きく、全世界に及んでいると言えるでしょう。国籍の多様性を示すように、開催場所は5大陸の持ち回りだそうで、大陸単位に候補国を決め、最後に大陸間で開催地を決定するそうです。政府の関連機関などが参加して誘致合戦を行い、まるでオリンピックの開催国を決めるような感じです。ちなみに次回(2015年)は韓国のソウルと決まっており、今回の決定は次次回(2018年)の開催地ですが、モロッコのカサブランカとアイルランドのダブリンとで候補地を争い、最終アナウンスはダブリンでした。モロッコには次回に頑張っていただきたく思います。

              ICOH2015の開催国である韓国が出していた宣伝ブース

  国際学会の発表言語としての英語は変わりはないのですが、発表は同時通訳によりスペイン語に訳されます。私も、同時通訳付きの講演は初めての経験でしたので本当にビックリしました。発表中の様子を学会側がその写真を撮っており、その写真が木曜日のGalaDinnerの前に公開されました。私も写っていました。しかし発表中は夢中でしたので、こんなに近くで写真を撮られていることは知りませんでしたが、うれしい感じです。
                   発表しているときに撮られた写真です



文責:株式会社 インシリコデータ 湯田 浩太郎

2012/03/10

元富士通社長・会長・名誉会長、現顧問 山本 卓眞氏のお別れの会に行ってきました: I joined fairewel ceremony of the late Takuma Yamamoto, former president of Fujitsu

◇元富士通顧問  故山本 卓眞氏のお別れの会に行ってきました。

  昨日(3月9日)行われました山本卓眞富士通顧問の「お別れの会」に行ってきました。

  私は、このような大規模な葬礼に参加したのは初めてなので、まさにテレビで見ていた現場そのものを実感してきました。花の山の上段に大きな故山本卓眞顧問の写真があり、私も花を1本持ち、皆様と一緒に献花しました。

  祭壇の会場と、隣の「偲ぶ会」の会場を結ぶ通路には間塚会長と山本社長が立たれており、弔問された客の一人一人に丁寧に対応されていました。 もちろん、私もお話しさせていただきました。 
  会長と社長は、お別れの会の開催時間である12:00から13:00までズーット立ったままお客様に対応されていました。 ほんとうに大変だったかと思います。

  私が入社当時、間塚会長は営業部署にて勤務されており、化学系企業 (当時富士通は、化学系企業基幹システムで最大のシェアを持っていました) を担当されていました。 私たちが行う創薬や化学研究支援システムは、システムが研究所にあり、主担当ユーザが研究者です。このような形態は従来の営業パターンである本社基幹システムで、システム担当者を相手とする形態とは大きく異なります。 この点で、営業の方々はかなり戸惑われたかと思います。 しかし、従来は切り込むことが出来なかった研究所システムにチャレンジすることが出来る、というように前向きに考えていただき、間塚(当時課長だったと思います)会長含めて、営業部隊の方々にも積極的に支援いただいた事を記憶しています。

  「偲ぶ会」の会場では故山本顧問の写真が年代順に展示されており、富士通を立ち上げた多くの先駆者の方々の写真を実際に見ることが出来ました。 一応、社内報等で断片的に見ることはありましたが、年代順に、かつまとめて見るのは初めてでした。

  会場には多くの参列者の方々がおりましたが、残念ながら私の知っている人はおりませんでした。 一方で、先のWEBでも書かせていただきました秋草相談役や黒川相談役が会場におられました。二人ともお元気そうでなによりでした。  
  挨拶後、いろいろとお話しや情報交換等させていただきました。私が在職中なかなか立ち上がらなかった化合物安全性(毒性)が創薬のみならず機能性化合物開発でも急速に重要になっていること。 環境保護、そして政府規制という観点での化合物安全性(毒性)の立ち上がり。 動物愛護という観点で、皮膚関連研究での実験動物使用禁止が来年度から現実のものとなるため、インシリコ(コンピュータ)によるスクリーニング研究が重要になっているという、時代の変化について話しました。 
  もちろん、私も黒川相談役も現役ではないので、先のWEBにも書いたとおり徹底討論するわけでなく、単なる情報交換レベルでの話です。 なお、私は18日からメキシコのカンクンで開催されるICOHの国際学会で、皮膚感作性の構造-毒性相関についての依頼講演を行ってきます これは医療系の国際学会ですが、私が行うのは安全性(毒性)に関するテーマ(皮膚感作性)についての講演です。これに関しましては帰国後に本ブログにて別途報告いたします。
  私も黒川相談役ともに現役を引退していますが、現役時代には立場が違くなりすぎて話すこともできなかったのですが、このような形であっても直接話が出来るようになったこと自体、素晴らしいことと思います。 もっとも、現役時代には「黒さんメール」にてご連絡申し上げ、いろいろとご迷惑おかけしてしまいましたこともありましたが・・・・。この場を借りてお詫びさせていただきます。
  なお、私が入社した当時、故山本顧問が化学研究システムに大きな期待をかけておられたという話を黒川相談役から聞きました。 結果として、山元顧問の期待に答えられなかったことを本当に申し訳なく思っています。

  現在は変化の流れが速く、直近ではコダック、日本ではエルピーダ、一昨年はGMやクライスラーと、時代の変化に対応した変化がなければ、たとえ一時は長期にわたり世界一を誇った企業であってもあっという間に倒産する時代です。同時に、GMのように新しい時代に適応し、力強くリターンした企業もあります。富士通も時代の変化に遅れることのない企業体質をつけて、発展していただきたく考えます。
  日本では電気関連企業がのきなみ苦戦を強いられていますが、このような時代でも世界を見ると、アップル、MS、グーグル、インテルは史上最高や高収益を上げています。また、IBMも富士通よりも古い情報会社ですが史上最高益を上げています。是非、富士通にも頑張ってほしいと思います。


文責:株式会社 インシリコデータ 湯田 浩太郎

2012/03/09

これって本当ですか?: Is this nonsence or correct analysis?

◇ある学会で、こんな発表がありました。皆様はどう思われますか?: In a certain society, there was such a presentation. How do all of you seem? 

  ある薬理活性データ(薬理活性が有る(ポジ)か、無い(ネガ)かの二クラスデータ)を用いて判別分析手法を適用してデータ解析を行った。引き続き、この判別分析を行う過程で出てくる判別得点データ(連続変数)を目的変数として線形重回帰を適用したところ、高い相関式を得た。
  従って、この線形重回帰が有する情報は薬理活性の説明に使える重要なものである。このため、この解析で作成された重回帰式の解釈と、利用されたパラメータ中に存在する情報解析を行い、新たな知見を得たという発表でした。

  皆様は、なるほど新しい知見や発見が出きているんだなーーと思いますか?
  なんかすっきりしない、腑に落ちないことがありませんか? よく考えてみてください。

*ヒント:
  最初のサンプルデータは二クラスデータ、しかし判別得点は情報量の多い連続データ。
  一次元データ解析を行っていたら、二次元データが出きて、より高度な二次元解析を行えるようになりました、ラッキーというところですね。つまり、 何もないところから、何の根拠もないお宝がポット出てきて、しかも素晴らしい結果までプレゼントしてもらったということです。

*データ解析を実行できることと、データ解析に意味があるかという事は次元の異なる問題です。It is an absolutely different problem whether that I can carry out data analysis and results of the data analysis have a significant meaning

  データ解析を二段階にして使うときの危険性がここに含まれています。 別に、二段階適用を行っても悪いというわけではなく、たとえ二段階適用でも正しい使い方(例;主成分回帰等)はいろいろあります。 ただ、適切な適用の場合と不適切な適用の場合とがあるので、個々の多変量解析/パターン認識手法を組み合わせたり、段階的に適用する場合は注意が必要です。 
  現在は、プログラムを動かせば簡単にいろいろなデータ解析が出来る時代ですから、気軽に二段階や三段階等のデータ解析を簡単に行う事が出来るようになっています。しかし、このような複雑な操作を行うデータ解析では、そのデータ解析の本質をとらえながら慎重に行う事が大切です。

  これと同じ間違いが、私が博士過程で研究していた時にもありました。今は亡き、故宮下先生(豊橋技術科学大学)と一緒に、このような手順はおかしい操作であると議論していたことを思い出します。この問題は、データ解析の初心者がよく起こす間違いです。昔と異なり、現在はデータ解析を簡単に出来るようになっていますので、このような間違いを起こしやすいのでしょう。まさに、歴史は繰り返すですね。


文責: 株式会社 インシリコデータ 湯田 浩太郎

2012/03/05

「見せかけの指標」: The work front is bushed by "Showcase index"

◇ 「見せかけの指標」にこだわりすぎて、混迷している現場:The work front that it is too much particular about the "showcase index", and is stupefied


 昔、ある企業の生産工場から相談をうけました。私の活動している研究分野とは異なりますが、多変量解析/パターン認識という観点で相談に乗ってほしいということだったので、現場の研究者からその内容をヒアリングしました。

データ解析の実施目的は「生産の歩留まり向上」です。これを、1%でも良いから上げてゆきたいとの生産現場からの切実な声でした。製品の生産量が多く、単価が高いので、たとえ1%といえどもその効果はすぐ数億円の経費節減に繋がるとの話でした。

 話を詳しく聞いてみると、この生産現場の担当者が「見せかけの指標」にこだわりすぎていることがわかりました。生産現場での様々なノウハウを駆使し、歩留まりを下げる要因や、反対に上げる要因等を細かに洗い出し、これらを数値化し線形重回帰で相関係数を求めたところ80%を超えたレベルに達した。そこで、線形重回帰からニューラルネットワーク(NN)による非線形重回帰に変えてみたところ簡単に90%を超えたそうです。これはいけるぞということで、さらに相関係数をあげるべく、考えられる様々なパラメータを考案したり、NNのパラメータを最適化する等の工夫を行ったそうです。この結果、相関係数は98%近くまで向上し、これで大丈夫ということで実際の運用を行ったら、期待した歩留り向上が見られなかったとの話でした。

現在は98%で効果が無かったので、さらに99%を目指して追加パラメータを考案中との話でした。なお、CV(Cross Varidation)はちゃんと行っており、やはり結構高い値を実現しているとの話でした。

  これって、いったい何が起きているかすぐわかりますよね。先の「見せかけの指標」にばかりこだわりすぎて、正しいデータ解析を行うという基本を見失っていたためです。

  この現象は、先に投稿した内容と一見すると逆の現象が出ていますね。先の投稿では学会発表やパンフの指標が高いのに、実際に自分のデータを用いてデータ解析を行うと、そんなに高い値が得られないという事でした。これに対して、今回の投稿内容では、現場で行うデータ解析の結果は理想に近いほど高くまで上げているのに、実際の期待とは大きく離れてしまっているという内容です。
  しかし、よく見てみるとこれら二つの投稿の内容は全く同じです。「見せかけの指標」を非常に高い値まで持って行っていること。それと実際の現場での適用結果のギャップが大きいという事ですね。


文責: 株式会社 インシリコデータ 湯田 浩太郎