インシリコデータとの総合連携ブログ
---AI時代の化学／創薬研究---

　昨年のブログでは「コンピュータ時代」から、データが総てを支配する「情報時代」へと急速に変化しつつあると書きました。現在は、AIが総ての業務に関与する「AI（人工知能）時代」へと変化しつつあります。生活の基盤が大きく変化しております。研究業務自体も、このような時代の変化に対応することが求められます。来るべき「AI時代」における研究をどのように最適化するかを議論することは喫緊の課題となります。
　本ブログでは、AI 時代の推進技術である「(大規模)生成AI」が研究業務に与える様々な影響や効果について討論してまいります。興味ある方は、フォローと積極的な討論参加お願いいたします。

インシリコデータ株式会社関連ブログ；Blog of the In Silico Data Ltd..

　ようこそ（株）インシリコデータブログへ。このブログでは、主としてインシリコデータのホームページでは直接編集できない細かな内容をフォローいたします。本ブログ内容等に関する質問／要望／意見等はこちらのブログか、インシリコデータのコンタクトアドレス(insilicodata.contact@gmail.com)にメールをいただければ幸いです。
　なお、一部で著者の私的な情報に関する掲示板としても本ブログを利用いたしますが、この点お許しください。
　In this blog, I discuss and write various themes which I cannot edit on the homepage of the In Silico Data. This blog also partly include a little personal themes.

2012/09/19

化学データ解析。こんな時どうするの？リスト：How do you do for those data analysis and chemical conditions ?

◇データ解析実施時の様々な状況:

Various situations that should be solved before the data analysis executed

　　データ解析を実施する時、様々な状況に遭遇します。　信頼性の高いデータ解析を行うには、これらの起こりうる問題について正しく対応／処理しなければなりません。　私のブログにて、一部ではありますが既にこれらの問題点に関する記述と、留意点や対応の仕方をまとめてあります。

　　以下に示される様々な問題は、データ解析を正しく行う上で解決すべき重要な項目です。　しかし、多変量解析／パターン認識の実行においては、データ解析手法そのものの理解が優先され、データ解析を実行する上で問題となるこれらの事項はあまり気にしないか、ないがしろにされているのが現状のようです。　実際、これらの事項が無視されても、データ解析自体は実行され、結果は出てきますので・・・。　しかしこの場合、データ解析結果の保証はありませんが・・・。

　　データ解析はデータを入れて実行すれば終わりというものではありません。　様々なデータ解析手法を実行するソフトウエアは多数あり、簡単に手に入ります。　しかし、これらのソフトウエアで提供されるデータ解析手法を正しく実行し、信頼性の高いデータ解析を実現するためには、データ解析実行前や途中で発生する様々な問題を解決する事が必要です。　正しく、かつ信頼性の高いデータ解析を行ない、その結果を解析してさらなる活動や研究につなぐ。　これが、データ解析を行う上で最も重要な事項となります。　

　　以下にリストアップされている様々な事項は、実際にデータ解析を行おうとすると、データ解析実施前に真っ先に解決しなければならない問題です。　これらの問題点に対処することなく、単に「データがあったからソフトウエアを実行した」というような表面的なデータ解析を行なうと、多くの場合は真に求めたい結果ではなく、フェークな解析結果となり、これらに翻弄されてしまいます。　このようなことに陥る前に、正しくかつ信頼性の高いデータ解析を行う事を心がけてください。　手法の理解も大事ですが、その手法の効果を１００％出し切るようにデータ解析を行なう事も極めて大事なことです。　以下に示される様々な問題点を解決し、間違いが無いようにするための知識や理解を深めておくことが、安心してデータ解析を行うための重要なポイントとなります。

◇リスト

１．サンプルに関する様々な問題
　１－１．サンプル数が少ない時
　１－２．サンプル数が多い時
　１－３．データサンプリングの重要性
　１－４．ネガサンプルの重要性

２．パラメータ数に関する様々な問題
　２－１．パラメータ数が少ない時
　２－２．パラメータ数が多い時

３．欠損データの扱いは？
３－１．欠損の割合
　３－２．種々補完法

４．最小サンプル数は？

５．サンプルポピュレーションの偏りはどう解決するの
　５－１．クラスポピュレーションの限界比率は

６．予測率向上の手法とは
　６－１．サンプルの小グループ化
　　・類似サンプル群
　　・グループ分け（官能器群等）
　６－２．データ解析手法上での工夫
　　・線形から非線形へ
　　・コンセンサス法
　　・「テーラーメードモデリング」
　　・ＫＹ法（二クラス分類およびフィッティング（重回帰））

７．分類率と予測率の関係
　７－１．分類率　＞＝　予測率
　７－２．クロスバリデーションと外挿

８．線形問題と非線形問題

９．手法間連携
　９－１．意味ある連携
　９－２．意味のない連携

１０．サンプル数が少ない時に安心してデータ解析を行うには
　１０－１．限界数以下（計算自体が出来ない）
　１０－２．２サンプルを用いた重回帰

１１．パラメータからの情報読み込みと情報量・分類性
　１１－１．パラメータの種類
　１１－２．プログラムにより値が変わる（LogP等）パラメータ群と
　　　　　　値が変わらない（ＭＣ等）パラメータ群

１２．クラスタリングの特徴と限界
　１２－１．様々な条件によりクラスタリングの結果が大きく変わることへの対応

１３．次元減少、圧縮、変換、分解等の特徴と使い分け

１４．特徴抽出（パラメータ選択）の意義と手法
　１４－１．特徴抽出の意義
　１４－２．主たる特徴抽出手法
　　（ａ）パラメータとしてのチエック
　　（ｂ）統計的原理や手法を用いたアプローチ
　　（ｃ）最適化法等を利用したアプローチ
　　（ｄ）データ解析の種類により異なる特徴抽出アプローチ
　　（ｅ）データ解析手法での個別特性に特化したアプローチ

１５．矛盾データの扱いと発見

１６．パラメータの桁数の違い（オートスケーリング:正規化（normalization））

１７．ウェイトベクトルの読み方

１８．パラメータ同士の演算（演算パラメータ）

１９．過剰適合

２０．過剰適合とチャンスコリレーションの違い

２１．クロスバリデーション（リサンプリング）手法と意義

２２．サンプル抽出（外れサンプルの扱い、データの品質）

２３．ネガティブサンプルの重要性

２４．同値（同じデータ）サンプルが複数入った場合
　２４－１．重みが変わる時と変わらない時（ＬＬＭ等）

２５．パラメータデータが不均衡の時（１／０　データで片方が数％しかない時等）
　２５－１．全サンプル内でパラメータデータの割合が不均衡な場合
　２５－２．クラス内でパラメータデータの割合が不均衡な場合
　２５－３．クラス内のサンプルデータが全て同じ値の時
　
２６．連続変数でも、データが無い時は０になる場合の扱いや不均衡度

２７．分野（化学）特有の問題
　２７－１．幾何／立体異性体
　２７－２．互変異性体
　２７－３．ニトロやニトロソの表現
　２７－４．塩や含水（溶媒）化合物の扱い
　２７－５．芳香族の扱い
　２７－６．三次元構造の問題
　２７－７．ポリマー等

２８．サンプルデータの重複（同一化合物が同一活性、同一化合物が複数（矛盾）の活性）

２９．データ解析指標はどのようなものがあって、どの程度の値が出ていればいいの？
　２９－１．二クラス分類
　２９－２．フィッティング（重回帰）

３０．マッピング手法の違い

３１．一元一項対応と一元多項対応問題

３２．異なるプロトコルによる実験データの扱い上での注意と考え方
　３２－１．細かな実験条件の違うサンプルデータの扱い（マージ、スプリット）
　３２－２．マージを進める上での留意点と考え方
　３２－３．スプリットを進める上での留意点

３３．多クラスデータ解析の二クラス分類手法での扱い
　３３－１．多クラスサンプル群の二クラスでの扱い

３４．統計、多変量解析およびパターン認識の違い

　　今後、ここに掲載された内容に関してより細かな解説を行なってゆきます。　また、ここで討論される解決手法は絶対的なものではありません。　もっと良い方法があるかもしれません。　それは、データ解析を行なう研究者の方々が個別に考えて対処してください。
　　編集および湯田の都合上、掲載等の順番が上記リストと異なったり、掲載内容の重複や組み合わせ、また掲載時期も不規則になるかと思いますが、この点お許しください。　また、ここに掲載されたリストは、あくまでも暫定版です。　今後、上記のような項目がさらに追加されると思います。　化学データ解析に関心のある研究者の方々は、時々本ブログをチエックしていただければと思います。

　　ここで示された項目は、化学多変量解析／パターン認識の実行時に知っておく、解決すべき事項です。　もちろん、データ解析実施主体としての多変量解析／パターン認識に関する個々の手法に関する知識も必要です。　しかし、これらに関する情報はＷＥＢや書籍等に多数記載されていますのでそちらを参照してください。　
　　また、実際の現場でケモメトリックスという観点で化学多変量解析／パターン認識を実行しようとする場合は、上記留意点の他に、対象分野の知識、計算機化学／計算化学、コンピュータ等の関連技術について専門家レベルは必要ありませんが、ある程度の基礎知識程度は知っておいた方が良いでしょう。　でなければ、処理を間違って変なパラメータを作成したり間違った解釈をしたり、さらには無意味な操作を行なう、あるいはシステム内部で行なわれている処理の意味を理解せずに省略したりという、本人が気付かないで見過ごしてしまう様々な危険性が高まります。
　　

文責：株式会社　インシリコデータ　湯田　浩太郎

2012/09/13

EuroQSAR2012参加報告（１）：Report of the poster presentation on the EuroQSAR2012

◆　第１９回EuroQSAR2012参加報告：

　　８月２６日から３０日にかけてオーストリアのビエナ（ウイーン）で開催されたEuroQSAR2012に参加およびポスター発表を行いましたので報告いたします。
EuroQSARは二年ごとに開催される欧州を中心とした構造－活性相関（ＱＳＡＲ）および創薬に関する国際学会です。　現在、ＱＳＡＲに関する大きな国際学会は他に存在しないので、本シンポジウムは事実上世界最大の構造－活性相関関連国際学会となります。
前回の第１８回EuroQSAR2010は２０１０年にギリシャのロードス島で開催されました。今回は第１９回目となりオーストリアのビエナ（ウイーン）のウイーン大学で開催されました。ちなみに次回の第２０回EuroQSAR2014はロシアのサンクスペテルブルクにて開催予定です。

以下では、今回のEuroQSAR2012で私が感じた内容につきまして簡単にまとめます。

◇EuroQSARでの主たる討論議題とその傾向：　
ＱＳＡＲ、　ドッキング、　インシリコスクリーニング

現在のEuroQSARでの主たる討論議題はドッキング手法による薬理活性向上を目指した創薬研究となります。　今回のEuroQSAR2012では、QSARの創始者であるHansch先生が昨年の５月に逝去されましたので、Hanschメモリアルが特別セッションとして設けられ、QSARに関する様々な講演がありました。　残念ですが、QSARのルーツであるHansch-Fujita法に関する研究発表は年々少なくなり、これに代わりドッキングによるアプローチの議論が増えました。　ドッキング自体も、当初は手法的な議論が主体でしたが、手法的な技術が完成に近付くにつれ、ドッキングの主たるテーマは高速バーチャルスクリーニングに重点が変わってゆきました。　現在のドッキングにおける主たるテーマは、ＡＤＭＥへの適用拡大等の研究となっています。
　　最近の顕著な傾向として年々増えている発表が、インシリコスクリーニングに関するテーマです。　これも当初は、ドッキングによる薬理活性主体の高速スクリーニングに関する発表が中心でした。　しかし、創薬の関心が薬理活性のみならずＡＤＭＥ／Ｔ／Ｐにもシフトしてくるのに従って、徐々にドッキング以外の技術によるアプローチ、特に化学多変量解析/パターン認識によるケモメトリックス主体のアプローチが増えてきました。

＊薬理活性スクリーニングから、ＡＤＭＥ／Ｔ（毒性）／Ｐ（物性）スクリーニングへ
化学多変量解析/パターン認識手法によるインシリコスクリーニングが増えてきた大きな原因は、スクリーニング対象が薬理活性から、ＡＤＭＥ、毒性（安全性）そして物性等にも広がってきたことが大きな原因です。　ドッキング手法は基本原理から薬理活性のみを対象としたアプローチであり、薬理活性以外のＡＤＭＥ、毒性（安全性）、物性等を対象としたインシリコスクリーニングへの適用は困難であり、特に毒性や物性への適用は基本原理より実施出来ません。　このために、薬理活性はもちろんのこと、薬理活性以外の諸特性にも適用可能な手法としての化学多変量解析/パターン認識手法によるインシリコスクリーニングが注目を浴びています。

◇インシリコスクリーニングでの展開

EuroQSAR2012でも、薬理活性のみならずADME/T/Pを含めたインシリコスクリーニングへの研究テーマが急速に増えており、発表の数のみならず、研究の幅そのものの広がりを強く感じるようになりました。

１．サンプル関連の拡充と広がり

     今回の発表で感じたのは、インシリコスクリーニング実施上での環境整備への広がりで、基本となるサンプルデータ関連の環境がWEB上でのデータベース構築や一般公開というように、より大きな広がりを持つようになってきたことです。　創薬分野でもサンプル群の扱いや収集等が大きな問題となり、多数で高品質、かつ多様性のあるデータソースが求められるようになっています。　サンプル群の収集という観点ではインターネットを介したＷＥＢ上での展開が最も効率的で、広がりを持つという点で現在の技術としては最も効率的であり、これらを目指した発表が見られました。
     但し、私の毒性インシリコスクリーニングの経験から述べると、サンプルの集積も大事であるが、サンプルデータの質がもっと重要であり、この点での考察、例えば実験プロトコルの統一や充実、サンプルデータの評価基準や手順等の拡充が重要と考えます。
     ＨＴＳやコンビナトリアルケミストリーが広く普及した現在、創薬研究分野も多数のサンプル群を扱うビッグデータ時代に突入するのも時間の問題と考えられます。　今後は、単なるデータ集積から、集積データの品質が問われ、その後はビッグデータを活用するデータ解析技術の展開が大きなテーマとなるでしょう。今後のこの分野での展開が楽しみです。

２．インシリコスクリーニングに関する技術関連の展開

ここではドッキングによる薬理活性インシリコスクリーニングに関する話はしません。　薬理活性も含めたＡＤＭＥ、毒性および物性に関するスクリーニングを行う化学多変量解析/パターン認識（ケモメトリックス）によるインシリコスクリーニングに関する発表について感想を書きます。

　　その前に、化学多変量解析/パターン認識（ケモメトリックス）によるインシリコスクリーニングという言葉や研究にあまり親しみのない方のために、簡単にその歴史をまとめます。
　　なお、ケモメトリックスは分野を超えた総合的な研究分野（化学、コンピュータ、データ解析、適用専門分野、等々）となります。　このため、ケモメトリックスを構成する基本技術は様々な分野に及び、その適用分野も様々な研究分野に及びます。　日本で、このような多種多様な研究分野を総合的にまとめて教育を受ける場やチャンスは殆ど無いと思います。　これらの技術的な詳細は、インシリコデータのホームページに、ケースバイケースで記述しておりますので、ご参照ください。

＊化学多変量解析/パターン認識（ケモメトリックス）によるインシリコスクリーニングとは？
　　多変量解析/パターン認識によるインシリコスクリーニングの基本技術はケモメトリックスと呼ばれるもので、歴史的には古くから実施されてきました。　化学分野に多変量解析/パターン認識の技術を本格的に導入した最初の研究は機器分析の分野で実施され、Ｉｓｅｎｈｏｕｒ，Ｊｕｒｓ及びＫｏｗａｌｓｋｉの三人により展開されました。
　　その後Ｊｕｒｓは構造-活性相関分野での展開を行い、Ｋｏｗａｌｓｋｉは機器分析分野での展開を中心に研究活動しました。　ケモメトリックス（日本語での正式な訳語は「化学計量学」と呼ばれています）という言葉はＫｏｗａｌｓｋｉとスエーデンのＵｍｅａ大学のＷｏｌｄ（SIMCA法を開発し、その後PLS法を開発）により定義され、一つの新しい研究分野となりました。
　　一方、Ｊｕｒｓは化学多変量解析/パターン認識による構造-活性相関の展開を行ない、毒性研究を中心に展開しました。　しかし、毒性分野でのインシリコ（コンピュータ）需要は当時の状況では大きくなく、その後は構造－活性／毒性相関研究と物性や機器分析分野での研究と半々程度の割合で研究を継続しました。
　　しかし、この間の研究で創薬関連分野での多くの特徴や特性を経験し、これらの諸問題を解決するための基礎技術の多くを開発しました。　例えば、機器スペクトルデータと異なり構造-活性／毒性相関分野ではサンプル数が極端に少ないこと。　あるいは化合物情報を細かに取り出すためのパラメータの開発。また、パラメータ数が大きくなるので過剰適合や偶然相関を防ぐための強力な特徴抽出手法の開発等々です。　通常の多変量解析/パターン認識研究分野では、これらの事象は殆ど発生する事がないので、対応する必要がありません。この結果、これらの問題に対する対応策はあまり情報が無く、まともに討論、開発されていないのが現状です。　これらの、化学、創薬、毒性研究塔を行なう上で解決しなければならない様々な問題に関する解決技術がＪｕｒｓにより精力的に展開されました。　
　　Ｊｕｒｓ研究室で開発されたこれらの基礎技術を取り入れたコンピュータシステムとして、ＡＤＡＰＴ（Automated Data Analysis by Pattern recognition Techniques)が開発されました。　このシステムは、当時の技術の最先端を行くもので、ディスプレイ上で化合物構造式を直接扱う事が出来、かつ対話的に化学データ解析研究を行う世界初の化学多変量解析/パターン認識による構造－活性相関支援システムとなりました。
　　私はＪｕｒｓ教授の下に留学し、リサーチアソシエートとして二年間働き、このADAPTの部分開発を担当しつつ、ADAPTを用いた発癌性予測に関する研究を行ないました。　当時、日本では殆ど自由に使う事が出来ないミニコンを用いて、毎日最新のデータ解析を行えることが本当にうれしく、充実した日々を送ることが出来ました。　帰国の時にはＪｕｒｓ教授より自分の研究に使って良いということで、ADAPTのソースコードを日本に持ち帰ることが出来ました。　その後、大学から富士通に移り、Ｊｕｒｓ教授の許可を得て富士通の汎用コンピュータ上にADAPTを移植しました。　この時はミニコン上のプログラムを汎用機上で稼働させるという事で、多くの富士通の方々の技術的な支援を受けて移植を完了させることができました。

＊化学多変量解析／パターン認識は、その基本原理から薬理活性やＡＤＭＥ／Ｔ（毒性）／Ｐ（物性）等の全ての項目をターゲットとしたインシリコスクリーニングへの適用が可能
　　現在、この化学多変量解析/パターン認識（ケモメトリックス）によるインシリコスクリーニングが注目を浴びつつあります。これは、現在大きな問題となりつつあるＡＤＭＥ、毒性および物性の分類、予測、評価を行う事が出来るためです。

　　化学多変量解析/パターン認識でも当然ですが薬理活性を扱う事は可能です。　しかし、研究を開始するのに様々な基礎知識と技術が必要であり、また多くの創薬研究者にとり多変量解析／パターン認識はあまり親しみの無い学問です。　このために、化学多変量解析／パターン認識（ケモメトリックス）による創薬研究アプローチは敬遠されてきました。　結果として、昔はHansch-Fujita法、その後はドッキング等、創薬研究者が比較的取り組みやすく、かつ理解しやすい手法が薬理活性研究の主体となってきました。　
　　しかし、時代が大きく変化し、創薬研究、特にスクリーニング対象項目が薬理活性のみならず、ADMEや毒性（Ｔ）そして物性（Ｐ）等に変化する事で、これらのインシリコスクリーニング研究分野での化学多変量解析/パターン認識（ケモメトリックス）の適用が必要となりました。

＊EuroQSAR2012での化学多変量解析/パターン認識によるインシリコスクリーニング関連発表

　　化学多変量解析/パターン認識によるインシリコスクリーニングを実施するためには、その基礎技術は多岐の分野に及ぶことを意識する事が必要です。　これはケモメトリックスという研究分野が多くの基礎技術から形成されるためです。
　　化学多変量解析/パターン認識によるインシリコスクリーニングを実施する上で必要となる技術や知識は大きく３種類存在します。　この他にも、化学とコンピュータを結び付けるコンピュータケミストリーの技術も重要になりますが、デフォルトの事項として省きます。
　　１．化合物を数値データ（パラメータ）に変換する技術
　　２．多変量解析/パターン認識に関する技術
　　３．ターゲットとなる薬理活性／ＡＤＭＥ／毒性／物性に関する知識
　　EuroQSAR2012での発表は３を除いた、上記の１および２に関する発表が中心となります。　それぞれの研究分野で発表がありましたが、技術的にブレークスルーと思われるアプローチは残念ですがあまり見られませんでした。　化学多変量解析/パターン認識の手法的には従来からのデータ解析手法が用いられていました。　もちろん、ＡＤＭＥや毒性スクリーニングでの予測精度向上のためにコンセンサス手法を取る等の工夫はされていましたが、特に大きな精度向上につながった例は報告されていませんでした。
　　私の経験では、特に毒性分野での分類および予測は、

　　（１）対象サンプルの構造変化性が極めて高いこと、
　　（２）扱うサンプル数が多くなること、
　　（３）高い分類／予測率の達成が求められる

　という以上の三つの関門を突破する事が必要です。　私の従来からの経験では、これら三つの問題を従来から展開されている多変量解析／パターン認識手法をそのまま適用すること、さらにはどんなに工夫して優れたパラメータ等を開発しても、良好な結果を得ることは殆ど出来ないと感じています。　そのために、これらの毒性分野特有の諸問題を解決する全く新しいデータ解析手法としてＫＹ（K-step Yard sampling）法を独自に開発しました。

３．ポスター発表に関しての感想

今回私は「NEW APPROACH FOR QSAR AND QSTR TREND ANALYSIS ON LARGE SAMPLE DATA SET BY THE KY-METHODS」のタイトルで発表してきました。
　　発表の趣旨ですが、私が開発したＫＹ法は極めて多数のサンプル群の完全（１００％）分類を実現するのみならず、ＱＳＡＲ的な、より精密な議論が可能になるという報告です。　このような精密な議論が可能となるのは、ＫＹ法の実施過程で対象サンプル群がきれいにポジおよびネガサンプル群にクラスター化され、かつ階層的に分類されるためです。従来手法によるデータ解析では、特に多数のサンプル群を扱う場合は一回のデータ解析で全てのサンプル群を対象として解析するために、完全分類実現には程遠く、サンプル数が多いために情報の整理が出来ないため、ＱＳＡＲレベルでの厳密な要因解析を行う事は殆ど不可能です。
　　私のポスターでは前回のEuroQSAR2010での発表時と異なり、明らかに多くの研究者の方が聴きに来られました。　前回のＫＹ法のデビューとなる発表では、完全（１００％）分類実現という話を聞いても半信半疑という感じだったのですが、今回の発表では真剣に討論していただけたし、討論内容もより具体的なものへと明らかに変化していました。　その代表的な変化が、実際にシステムを用いて試してみたいという研究者が現れたことです。　また、私は覚えていなかったのですが、フランスの先生には「あの二本の判別関数を用いて分類する手法を開発した人ですね」と、声をかけてくれていただきました。　ＫＹ法の特殊なアプローチは記憶に強く残るようです。このように、今回のEuroQSAR2012では、ＫＹ法が徐々に認知度を増している様子を実感しました。

　　

　　次は、会場となったウイーン大学やウイーンの様子等について報告いたします。

文責：株式会社　インシリコデータ　湯田　浩太郎

インシリコデータ関連ブログ：
Welcome to the home page and blog of the In Silico Data, Ltd.

**************************************************
◇本ブログの親となるホームページです。
（株）インシリコデータのホームページへ
Welcome to the In Silico Data homepage
**********************************************

---AI時代の化学／創薬研究---
◆インシリコデータとの総合連携ブログ
◇本ブログです
Visit to the blog of In Silico Data

**********************************************

情報時代の自律（オートノマス）型研究
◆自律型および自動型研究討論
Visit to the blog of Autonomous Research