インシリコデータ株式会社関連ブログ;Blog of the In Silico Data Ltd..

 ようこそ(株)インシリコデータブログへ。このブログでは、主としてインシリコデータのホームページでは直接編集できない細かな内容をフォローいたします。本ブログ内容等に関する質問/要望/意見等はこちらのブログか、インシリコデータのコンタクトアドレス(contact@insilicodata.com)にいただければ幸いです。
 なお、一部で著者の私的な情報に関する掲示板としても本ブログを利用いたしますが、この点お許しください。
 In this blog, I discuss and write various themes which I cannot edit on the
homepage of the In Silico Data. This blog also partly include a little personal themes.

2012/01/23

Joe Paterno(ジョー・パターノ) アメリカンフットボールコーチのご冥福をお祈りいたします:Of the Joe Paterno coach pray its soul may rest in peace


********************************************************************************

   Joe Paterno監督の追悼会開催日程と場所が公開されましたので報告いたします。
 詳細な内容に関しましては、本ブログに掲載されておりますので、そちらをご参照ください。
http://insilicodata.blogspot.jp/2012/04/joe-paterno-announcement-of-memorial.html

 これを機会に多くのペンステーターの方々との交流を深めてください。また、参加されない場合でも、メール登録等お願い致します。

********************************************************************************

   本日、PSU(ペンシルバニア州立大学;Penn State University) Alumniで米国に住んでおられる古川様より、PSUにおけるアメリカンフットボールの伝説的コーチであるJoe Paterno(ジョー・パターノ) 氏が肺癌で亡くなられたとのメールを受けました。ここに、謹んでJoe Paterno コーチの冥福をお祈りいたします。

    昨年秋にコーチ職を引退(85歳)されたのですが、年が明けてすぐの訃報に非常にびっくり致しました。私がポストドクターでPSUに行った時にはすでにPSUのフットボールチームを優勝に導いたコーチとして非常に有名でした。古くなりますが、映画の「サムシングジョーイ」(病気を抱えた弟と結んだ約束(’ハインヅマン’賞を取る)を果たしたフットボール選手の話)の主人公の所属するチームがPSUのフットボールチームで、映画の中でもコーチとして出演しておりました。

    その後のアメリカンフットボールにおける長年の活躍で、Joe Paterno (ジョー・パターノ) コーチは全米最多勝利記録 (409勝) を樹立し、アメリカを代表するアメリカンフットボールコーチとしての名を不動のものとしておりました。

    PSU(ペンシルバニア州立大学;Penn State University) のキャンパスがあるStateCollegeは大学だけの町という感じで非常に過ごしやすい町でした。大学の施設の中でもフットボールスタジアム(通称ビーバー・スタジアム(Beaver Stadium))が非常に大きく、ホームゲームの時は殆ど全市民が集まり、町が空っぽになる感じでした。

    StateCollegeも大きくなりましたが、スタジアムも年を経るごとに拡張され、現在は10万人を超す106,572人が入れる大スタジアムになっているそうです。実際、2002年9月14日の試合では11万人の観客が入った記録があるそうです。11万人が1か所に集まって大応援合戦(アメリカンフットボールの試合の時の応援合戦はすごかったですから)を繰り広げる時の歓声や状況なんて想像もつきません。チャンスがあれば、またStateCollegeに行ってビーバー・スタジアムでNittany Lions football team のホームゲームでの試合を見たいですね。チケットを買えるかが問題ですが・・・。

    改めて、Joe Paterno コーチの冥福を祈りますと同時に、PSUのアメリカンフットボールチームがこの悲しみを乗り越え、より一層活躍することを祈念いたします。

*Joe Paterno コーチ (Wikipedia)
http://en.wikipedia.org/wiki/Joe_Paterno
*ロイター通信
http://jp.reuters.com/article/topNews/idUSTRE80L0GC20120122
*Centredaily times : State Collegeの地方紙です
http://www.centredaily.com/2012/01/22/3061941/fired-penn-state-coach-joe-paterno.html
http://www.centredaily.com/#navlinks=navbar

追伸:
    先日、PSUアルムニ日本の方から、6月くらいにJoe Paterno コーチを偲ぶ会を開催したいとの連絡がありました。東京の八重洲近辺で行うそうです。ご都合がつく方は参加されれば、Joe Paterno コーチの思い出話しなどに花を咲かせながら、皆様と楽しい時間を過ごせると思います。

     正式な時間と場所が決まれば連絡いただけるそうです。その時点で再び関連情報等をアップ致します。皆様もふるって参加致しましょう。
 湯田 浩太郎



文責: 株式会社 インシリコデータ 湯田 浩太郎

2012/01/13

これって「インデックスパラメータ」?(2/2): Is this the index parameter ?

*化学データ解析では、データ解析上での問題と化学上での問題の両方のクリアが必要:On the chemical data analysis, it is necessary to solve both problems caused on data analysis and chemistry

  総ての分野で言えることですが、データ解析手法を個々の分野で適用する時はデータ解析手法と個々の適用分野単位で要求される特有の基準項目を満たすことが必要です。化学上の問題をテーマにした解析である以上、化学上での基準を満たすことが必要です。同時に、データ解析である以上、データ解析上での基準のクリアも求められます。
 
*有機金属化合物を1としたパラメータはデータ解析上での要求事項を満たしていない:Organometallic parameter does not meet requirements on data analysis

   有機金属化合物を特別なサンプルとして扱うパラメータは、化合物のインデックス番号をそのままパラメータ化した最初の事例と異なり、単純な情報といえども化学的な情報を持ったパラメータであることは事実です。従って、化学上での問題はクリアできています。しかし、データ解析ということから発生するもう一つの制限事項、即ちデータ解析を正しく行う為の基準もクリアすることが必要ですが、この場合はクリアできていません。

*データ解析実行以前にクリアすべきサンプルポピュレーションの偏り問題:Misalignment problem of sample population
   有機金属化合物を識別するのに用いられるパラメータがデータ解析の観点でクリアできていない事項は、有機金属と判定したパラメータを構成する1(有機金属化合物の場合)および0(それ以外)の値の割合が偏りすぎていることです。総サンプル数が約3000あったとしても、有機金属化合物が30しかなければ1の値は全体の1%しかありません。これは、事例1で扱った100サンプル中の1個のサンプルをアサインする「インデックスパラメータ」と同じ1と0の比率となります。一般的にパラメータが2値データの場合、少ないポピュレーションの方のサンプルデータは全体の10%以上あることが望ましいとされます。
   有機金属化合物の総数が他の一般化合物と比較して極端に小さいため、この有機金属化合物を1とするパラメータはデータ解析自体に利用することが出来ないパラメータとなっているのです。従って、このようなパラメータを用いた化学データ解析は、化学的には問題なくとも、データ解析的に欠陥のある解析を行っていることとなります。

*化学を隠れ蓑としたパラメータを見逃さない:Do not miss the parameter that assumed chemistry a cover

 通常の化学データ解析では今回の有機金属パラメータのみならず、多種多様の正規のパラメータ群を二次元構造式より創出して利用しています。従って、これらのパラメータ群の中に、一部上記のような有機金属用の「インデックスパラメータ」が混在していても、他の正常な化学パラメータの陰に隠れてしまい、見逃すことが多くなります。

 必死になってR値やR2値の向上ばかりを考えていると、このような不適切なパラメータの存在が見えなくなり、結果的にとんでもない結論に導かれてしまうこととなります。

ソフトがあればプログラムを実行することは簡単にできます。しかし、出てくる結果を保証し、より深い議論や結論に導くためには、化学のみならずデータ解析上での問題点のクリアといった地味な作業が極めて重要となります。


文責: 株式会社 インシリコデータ 湯田 浩太郎

 

2012/01/11

これって「インデックスパラメータ」?(1/2): Is this an index parameter ?

*「インデックスパラメータ」とは: What is the index parameter ?

「インデックスパラメータ」はサンプルのインデックス番号の代わりとして利用するパラメータです。パラメータの値が1と0の数値しか使えないような場合に利用されます。

通常はサンプルのIDと同じ番号の時に1を取り、それ以外は0とします。総てのサンプルに1:1に対応させることが必要なために、総パラメータ数はサンプル数と同じ数(次元)となります。

*化学分野での「インデックスパラメータ」事例:An example of the index parameter in the chemical data analysis field

 無意識のうちにこの「インデックスパラメータ」と同じことを行っている化学パラメータの事例をお話します。これは、米国のある環境関連データベースで実際に使われています。

化合物の物性データを目的変数として重回帰分析を実施する場合、他とは異なる特殊な化合物が回帰式の相関係数を大きく下げてしまうことがあります。例えば有機金属化合物等はその典型的な例です。通常、有機金属化合物は他の汎用化合物とその物性値が大きく異なります。 このため、有機金属化合物群と汎用化合物とを一緒にして線形重回帰等を用いて物性値の解析を行うと、有機金属化合物群は常に回帰式から大きく外れてしまい、アウトライヤーとなります。 従って、有機金属化合物群は相関係数を大きく下げる原因となる扱いにくい厄介な化合物群です。

*有機金属化合物の「インデックスパラメータ」化:
Generate an index parameter of organometallic compounds
有機金属化合物群を「インデックスパラメータ」で扱うことで、回帰式からのズレ(残差)を殆ど0とすることが可能です。例えば、有機金属化合物を1とし、他の化合物を0とするパラメータ。あるいは有機金属の、金属の種類単位にパラメータを用意して、該当する金属の有機金属化合物を1としたパラメータ群を構築します。これで、有機金属化合物の情報は「インデックスパラメータ」化されたことになります。このようなパラメータですと、用意するパラメータ数も大きく増えないため、別の機会に述べる「偶然相関(チャンスコリレーション)」の問題もクリアできます。この結果、残差値も劇的に減少し、相関が見違えるほど向上します。

皆様は、このようなパラメータは化学的に有機金属と一般化合物を識別しているだけだから、先の「インデックスパラメータ」みたいな意味の無いことではない。従って、何も悪いことはしていないと感じるでしょう。これは本当に真実でしょうか? これが、化学という隠れ蓑の現実です。


文責: 株式会社 インシリコデータ 湯田 浩太郎

 

2012/01/04

伏見稲荷にお参りに行ってきました: I prayed at the 'Fushimi-inari-taisha' in Kyoto.

    今年は新年のお参りに伏見稲荷大社に行ってきました。予想通りの人だかりで、本殿にお参りする行列では30から40メータ行くのに30から40分かかりました。お参りを済ませてjから、お目当ての千本鳥居に行きました。これは写真でしか知らなかったので、写真用(観光用)のものだろうと思い、せいぜい数十メートル、長くても100メートル前後と予想していたのですが、裏山全体仁参道がめぐらされそのすべてが鳥居で覆われていることまでは考えが及びませんでした。おかげさまでペース配分を間違え四つ辻までしか行けず、稲荷山を一周することはできませんでした。
    今回の経験を踏まえ、今度は準備万端整え、全山走破を目指します。今年は、このように新年の誓いが一つ増えました。

I prayed at the 'Fushimi-inari-taisha' in Kyoto.
   This year, I went to the 'Fushimi-inari-taisha' for prayer of the New Year.
   I suffered from 30 for 40 minutes to pray at the main shrine because there were a great many people to go to 40 meters from 30.   It took about 30 to 40 minutes to walk only 30 to 40 meters to go to the main shrine.
   Since I finished prayer and I moved to the most famous ‘Senbon torii’.
   I thought that ‘Senbon torii’ would be build for the photograph (for the sightseeing), therefore it may be tens of meters to have expected about 100 meters at most even if it was long just like the set of the movie. But, many number of mountain trails, all of them are covered with a quite large number of torii, are set up on a whole hill behind the Shrine.
   This misunderstanding makes a mistake on the walking pace distribution, it is possible to go only to the ‘Yotu Tsuji’ and impossible to travel across the ‘Inari yama’.  
   Based on this experience, I will fix every preparations and challenge again to walk the ‘Inari Yama’ perfectly.
    Therefore, one more resolution of the new year is mounted up in this way.














 
 
文責: 株式会社 インシリコデータ 湯田 浩太郎