インシリコデータ株式会社関連ブログ;Blog of the In Silico Data Ltd..

 ようこそ(株)インシリコデータブログへ。このブログでは、主としてインシリコデータのホームページでは直接編集できない細かな内容をフォローいたします。本ブログ内容等に関する質問/要望/意見等はこちらのブログか、インシリコデータのコンタクトアドレス(insilicodata.contact@gmail.com)にメールをいただければ幸いです。
 なお、一部で著者の私的な情報に関する掲示板としても本ブログを利用いたしますが、この点お許しください。
 In this blog, I discuss and write various themes which I cannot edit on the
homepage of the In Silico Data. This blog also partly include a little personal themes.

2011/12/24

重回帰手法にて、RやR2を常に1(100%)を実現する秘伝中の秘伝を公開します。The highest secret in the secret which always accomplishes 100% of R and R2 values by the multiple regression analysis is exhibited.

こんなのありーー!!!!!

  線形、非線形重回帰において、どんなデータであっても、どんな数のサンプルを用いても、常に100%の相関と決定係数を達成する秘伝中の秘伝をこのコーナーで公開いたします。

 データ解析は以下の手順で実行してください。目的変数として薬理活性のED50を用いて、100個のサンプルを用いるとします。なお、これら100個のサンプルにはあらかじめ1から100番までの任意のID番号を付けておきます。

1.サンプルデータとして薬理活性のED50値を持つ100個の化合物を用意します。
2.使用するパラメータとしてサンプル数と同じ100パラメータを用意します。
3.各パラメータは化合物のID番号の部分を1とし、残りはすべて0とします。
4.100サンプルのED50を目的変数、100個のパラメータを説明変数として重回帰を実行します。

解析結果:相関係数R=1(100%)、決定係数R2=1(100%)の結果が出ます。
結論と指針:薬理活性ED50は化合物のID番号と完全に相関している。従って、薬理活性ED50は化合物ID番号と極めて重要な相関関係を有し、ED50 は化合物IDを用いて完全に説明できる。また、化合物ID番号だけで薬理活性を自由にコントロールできる。

    こんなことが現実にあったならば、ノーベル賞がいくつあっても足りないですね。
  これは極端な例で、おかしいことがすぐわかります。しかし、データ解析を実際に行う現実の世界では、形を変えてこれと似たことが多くの現場で無意識で実施されています。一体何が悪いのでしょうか。皆様は明確に答えることが出来ますか。
 


 Is this completely true or fake !!!!!

I disclose a miracle recipe to achieve always 100% of correlation and coefficient - of-determinations even if what kind of data and any number of samples are used.

   The secret data analysis executes by the following procedure.
   In this sample, the used samples are total 100 samples. Any types of pharmacological - activity ED50 was used as the response variable.

1. Total 100 compounds are used for this test. Those used compounds have a pharmacological - activity of ED50 value as the sample data.
2. Next step, It prepares 100 parameters which are the same as the number of sample.
3. Each parameter makes the part of the ID number column is settled 1 and makes all other columns are 0.
4. The ED50 value of used 100 sample are settled for response variable. Generated 100 parameters are used for explanatory variables and execute  a multiple regression.

 The result: The result of coefficient of correlation value is R = 1 ( 100% ), and coefficient - of - determination value is R2 = 1 ( 100% ) comes out.
The conclusion: Pharmacological-activity (ED50) is fully correlated with the ID number of each compound. Therefore, pharmacological-activity (ED50) and compound ID number has a very important correlation.
Therefore, ED50 can be fully described by using the compound ID only.
Also, the pharmacological-activity (ED50 ) can be freely controlled only by the compound ID number.

If those result of data analysis hold true perfectly, it isn't adequate even if there are many pieces of Nobel prize.
As for this, this example shows an extreme strange case, so it is easy to notice this is a false case. But in actual case or in daily works on data analysis, similar cases happens frequently on accidentally.

What is wrong, what is missing, what is misunderstandings ?


文責: 株式会社 インシリコデータ 湯田 浩太郎

 

0 件のコメント:

コメントを投稿