インシリコデータ株式会社関連ブログ;Blog of the In Silico Data Ltd..

 ようこそ(株)インシリコデータブログへ。このブログでは、主としてインシリコデータのホームページでは直接編集できない細かな内容をフォローいたします。本ブログ内容等に関する質問/要望/意見等はこちらのブログか、インシリコデータのコンタクトアドレス(insilicodata.contact@gmail.com)にメールをいただければ幸いです。
 なお、一部で著者の私的な情報に関する掲示板としても本ブログを利用いたしますが、この点お許しください。
 In this blog, I discuss and write various themes which I cannot edit on the
homepage of the In Silico Data. This blog also partly include a little personal themes.

2011/12/27

こんなことは通常の解析ではありえない。:Such a thing cannot be happen on my daily analysis.

自分は正しい解析をしているはず!!
   多くの研究者の方々は、このようなことは自分の研究ではあり得ないと思っているかと思います。しかし、注意してデータ解析を検証してゆくと欧米の著名な国や研究機関により公開されているWEBサイトであっても、先のような事象と同じようなことが行われている事例が見られます。多数のサンプル数と高いR及びR2値が勲章のようにして堂々と公開されています。当然担当者に悪意はないのですが、意識しないうちに先の事例と同様なことを行っているのが多いのです。
   重回帰解析の達成目標としてRやR2値が有名なので、一般的にはこれらの値の改善を目標として重回帰解析を実施します。パラメータを追加すると、少しであってもRやR2値が向上するので、研究者は新たなパラメータを考えてどんどん追加してゆきます。
   この場合、先の例にあったように化合物IDのような不自然な値をパラメータとするわけではなく、少なくとも目標とする研究に関係するパラメータなので変だなーとは感じません。この結果、RやR2値は高い値を実現しているのに、よく当たらないという結果になってしまいます。
   一体何が起きているのでしょうか? 多変量解析/パターン認識によるデータ解析を行うときに常に留意しなければならない複数の要因が絡まってこのような結果となっています。
 1.過剰適合 ( Over Fitting)
 2.偶然性 ( Chance Correlation )
  3.インデックスパラメータ (Index Parameter) の使用
    データ解析を実行する時には様々な守るべき条件や、留意点、データ解析手法の特徴と適用限界等に気をつけながら実行することが必要です。さもなければ、まったく意味のない結果に左右され、翻弄されてしまいます。
   データ解析の基本が守られているということを前提として、データ解析を道具とする構造-活性相関(QSAR)やケモメトリックス等の二次的な研究分野が存在します。従って、構造-活性相関(QSAR)やケモメトリックス研究で多変量解析/パターン認識の基本がクリアされていない場合、どんなに素晴らしい結論を導き出しても、先の事例のようにそれらの結論はFAKEにしかすぎません。
   構造-活性相関(QSAR)やケモメトリックス研究で正しく討論するためには、先に述べましたような多変量解析/パターン認識の基本をしっかりと理解しておくことが大切です。これらの制限事項は先の事例以外にも多数存在しますが、常にこれらの制限事項を意識して解析することが必要です。これらの制限事項は今後順次このブログ上で説明してゆきます。
   なお、構造-活性相関(QSAR)やケモメトリックス分野には、データ解析とは異なる、これらの分野特有の制限事項や適用限界等が存在します。こちらの制限事項等も正しく理解しながら実施することが必要です。

I never do such funny data analysis.
  The most of researchers think that such case is impossible to happen on their research. 
  However if we careful and verifying a data analysis results which are published  open on WEB by famous national research center and institution in Europe and USA, we notice that the case that a thing like these operation is seen on WEB when we check those results of data analysis cautiously. More over on those WEB site, high R and R2 values and large number of samples are written just like the decoration and proof of an excellent data analysis. Of course, there is not malevolence but it is often doing a thing like the case on the person in charge while not conscious.

Because R and R2 values are the most important and famous index of goodness of results of regression data analysis, generally, a multiple regression analysis has been processed for achieving high R and R2 values. In general, R and R2 values are improve even if it is a little when adding a parameter, most of researcher think and generate various parameters and adds it steadily.
In this case, those generated parameters which are related with the research subjects to make a goal at least, by not making an unnatural value like the compound ID. Therefore most of researcher doesn't feel unusual or abnormal status. As a result, in the case that R and R2 values have been achieved high values, but it can’t get well and excellent prediction results.  

What will get up on this case?  More than one which must be always pay attention while doing a data analysis by multi-variate analysis and pattern recognition analysis becomes such a result. 

1. Over Fitting
2. Chance Correlation
3. The use of ‘index parameter’

It is necessary to execute while careful of the various conditions and restrictions that comes from basis of data analysis methods. Otherwise, the conclusion which derived from the data analysis is influenced by the meaningless result and it has been made fun of it.  

The research fields, for example the ‘QSAR (Quantitative Structure – Activity Relationships)’ and the ‘Chemometrics’, are constructed based on the assumption that the applied data analysis are processed correctly.
  Therefore, the ‘QSAR’ and ‘Chemometrics’, when the basics of the multi-variate analysis and the pattern recognition aren't applied correctly, obtained results of the data analysis, like the case at the end, those conclusions pass only to FAKE.  
   On the ‘QSAR’ and the ‘Chemometrics’ research works, it is important to understand the basics of the multi-variate analysis and the pattern recognition. There are some more important limitations on data analysis methods. The detail of those limitations are explained on this blog in order in the future.  
   Incidentally, the limitation and the application limit which are derived from the ‘QSAR’ and the ‘Chemometrics’ research. It is necessary to implement while understanding these limitations.

文責: 株式会社 インシリコデータ 湯田 浩太郎

 

2011/12/24

重回帰手法にて、RやR2を常に1(100%)を実現する秘伝中の秘伝を公開します。The highest secret in the secret which always accomplishes 100% of R and R2 values by the multiple regression analysis is exhibited.

こんなのありーー!!!!!

  線形、非線形重回帰において、どんなデータであっても、どんな数のサンプルを用いても、常に100%の相関と決定係数を達成する秘伝中の秘伝をこのコーナーで公開いたします。

 データ解析は以下の手順で実行してください。目的変数として薬理活性のED50を用いて、100個のサンプルを用いるとします。なお、これら100個のサンプルにはあらかじめ1から100番までの任意のID番号を付けておきます。

1.サンプルデータとして薬理活性のED50値を持つ100個の化合物を用意します。
2.使用するパラメータとしてサンプル数と同じ100パラメータを用意します。
3.各パラメータは化合物のID番号の部分を1とし、残りはすべて0とします。
4.100サンプルのED50を目的変数、100個のパラメータを説明変数として重回帰を実行します。

解析結果:相関係数R=1(100%)、決定係数R2=1(100%)の結果が出ます。
結論と指針:薬理活性ED50は化合物のID番号と完全に相関している。従って、薬理活性ED50は化合物ID番号と極めて重要な相関関係を有し、ED50 は化合物IDを用いて完全に説明できる。また、化合物ID番号だけで薬理活性を自由にコントロールできる。

    こんなことが現実にあったならば、ノーベル賞がいくつあっても足りないですね。
  これは極端な例で、おかしいことがすぐわかります。しかし、データ解析を実際に行う現実の世界では、形を変えてこれと似たことが多くの現場で無意識で実施されています。一体何が悪いのでしょうか。皆様は明確に答えることが出来ますか。
 


 Is this completely true or fake !!!!!

I disclose a miracle recipe to achieve always 100% of correlation and coefficient - of-determinations even if what kind of data and any number of samples are used.

   The secret data analysis executes by the following procedure.
   In this sample, the used samples are total 100 samples. Any types of pharmacological - activity ED50 was used as the response variable.

1. Total 100 compounds are used for this test. Those used compounds have a pharmacological - activity of ED50 value as the sample data.
2. Next step, It prepares 100 parameters which are the same as the number of sample.
3. Each parameter makes the part of the ID number column is settled 1 and makes all other columns are 0.
4. The ED50 value of used 100 sample are settled for response variable. Generated 100 parameters are used for explanatory variables and execute  a multiple regression.

 The result: The result of coefficient of correlation value is R = 1 ( 100% ), and coefficient - of - determination value is R2 = 1 ( 100% ) comes out.
The conclusion: Pharmacological-activity (ED50) is fully correlated with the ID number of each compound. Therefore, pharmacological-activity (ED50) and compound ID number has a very important correlation.
Therefore, ED50 can be fully described by using the compound ID only.
Also, the pharmacological-activity (ED50 ) can be freely controlled only by the compound ID number.

If those result of data analysis hold true perfectly, it isn't adequate even if there are many pieces of Nobel prize.
As for this, this example shows an extreme strange case, so it is easy to notice this is a false case. But in actual case or in daily works on data analysis, similar cases happens frequently on accidentally.

What is wrong, what is missing, what is misunderstandings ?


文責: 株式会社 インシリコデータ 湯田 浩太郎

 

2011/12/21

インシリコデータ関連のブログです:This is the blog of In Silico Data

インシリコデータ関連のブログです:
    このブログではインシリコデータ関連の情報を発信します。ホームページでは表現しきれない情報や、さまざまな情報をタイムリーに提供することを目指します。内容は、最新のインシリコ関連の基本及び応用技術を中心とし、適用分野は構造-活性相関(QSAR)や、毒性関連研究、ケモメトリックス関連研究、データ解析関連技術と様々な分野となります。従って、内容がバラバラで統一がとれないものとなるかもしれませんが、あらかじめご承知おきください。


This is the blog of In Silico Data:
    In this blog, 'in silico data' related information is discussed and disseminated. This blog aims offering various information timely which can't be expressed in a homepage. As for the contents, the application field turns into structure-activity correlation (QSAR), in silico toxicology related research, chemometrics, basic data analysis methods and various fields which are focusing on 'in silico' related various basic and applied technology.
 Therefore, contents of this blog may not be unified, please be careful beforehand.


文責: 株式会社 インシリコデータ 湯田 浩太郎