インシリコデータ株式会社関連ブログ;Blog of the In Silico Data Ltd..

 ようこそ(株)インシリコデータブログへ。このブログでは、主としてインシリコデータのホームページでは直接編集できない細かな内容をフォローいたします。本ブログ内容等に関する質問/要望/意見等はこちらのブログか、インシリコデータのコンタクトアドレス(contact@insilicodata.com)にいただければ幸いです。
 なお、一部で著者の私的な情報に関する掲示板としても本ブログを利用いたしますが、この点お許しください。
 In this blog, I discuss and write various themes which I cannot edit on the
homepage of the In Silico Data. This blog also partly include a little personal themes.

2012/03/09

これって本当ですか?: Is this nonsence or correct analysis?

◇ある学会で、こんな発表がありました。皆様はどう思われますか?: In a certain society, there was such a presentation. How do all of you seem? 

  ある薬理活性データ(薬理活性が有る(ポジ)か、無い(ネガ)かの二クラスデータ)を用いて判別分析手法を適用してデータ解析を行った。引き続き、この判別分析を行う過程で出てくる判別得点データ(連続変数)を目的変数として線形重回帰を適用したところ、高い相関式を得た。
  従って、この線形重回帰が有する情報は薬理活性の説明に使える重要なものである。このため、この解析で作成された重回帰式の解釈と、利用されたパラメータ中に存在する情報解析を行い、新たな知見を得たという発表でした。

  皆様は、なるほど新しい知見や発見が出きているんだなーーと思いますか?
  なんかすっきりしない、腑に落ちないことがありませんか? よく考えてみてください。

*ヒント:
  最初のサンプルデータは二クラスデータ、しかし判別得点は情報量の多い連続データ。
  一次元データ解析を行っていたら、二次元データが出きて、より高度な二次元解析を行えるようになりました、ラッキーというところですね。つまり、 何もないところから、何の根拠もないお宝がポット出てきて、しかも素晴らしい結果までプレゼントしてもらったということです。

*データ解析を実行できることと、データ解析に意味があるかという事は次元の異なる問題です。It is an absolutely different problem whether that I can carry out data analysis and results of the data analysis have a significant meaning

  データ解析を二段階にして使うときの危険性がここに含まれています。 別に、二段階適用を行っても悪いというわけではなく、たとえ二段階適用でも正しい使い方(例;主成分回帰等)はいろいろあります。 ただ、適切な適用の場合と不適切な適用の場合とがあるので、個々の多変量解析/パターン認識手法を組み合わせたり、段階的に適用する場合は注意が必要です。 
  現在は、プログラムを動かせば簡単にいろいろなデータ解析が出来る時代ですから、気軽に二段階や三段階等のデータ解析を簡単に行う事が出来るようになっています。しかし、このような複雑な操作を行うデータ解析では、そのデータ解析の本質をとらえながら慎重に行う事が大切です。

  これと同じ間違いが、私が博士過程で研究していた時にもありました。今は亡き、故宮下先生(豊橋技術科学大学)と一緒に、このような手順はおかしい操作であると議論していたことを思い出します。この問題は、データ解析の初心者がよく起こす間違いです。昔と異なり、現在はデータ解析を簡単に出来るようになっていますので、このような間違いを起こしやすいのでしょう。まさに、歴史は繰り返すですね。


文責: 株式会社 インシリコデータ 湯田 浩太郎

0 件のコメント:

コメントを投稿