時代は「コンピュータ時代」から、データが総てを支配する「情報時代」へと急速に変化しつつあります。研究業務自体も、このような時代の変化に対応することが求められます。来るべき「情報時代」におけるAI 革命での「自律型(知的、オートノマス)研究」との適合性を議論することは喫緊の課題となります。
本ブログでは、AI 革命の推進技術である「(大規模)生成AI」が研究業務に与える様々な影響や効果について討論してまいります。興味ある方は、フォローと積極的な討論参加お願いいたします。
インシリコデータ株式会社関連ブログ;Blog of the In Silico Data Ltd..
ようこそ(株)インシリコデータブログへ。このブログでは、主としてインシリコデータのホームページでは直接編集できない細かな内容をフォローいたします。本ブログ内容等に関する質問/要望/意見等はこちらのブログか、インシリコデータのコンタクトアドレス(insilicodata.contact@gmail.com)にメールをいただければ幸いです。
なお、一部で著者の私的な情報に関する掲示板としても本ブログを利用いたしますが、この点お許しください。
In this blog, I discuss and write various themes which I cannot edit on the homepage of the In Silico Data. This blog also partly include a little personal themes.
なお、一部で著者の私的な情報に関する掲示板としても本ブログを利用いたしますが、この点お許しください。
In this blog, I discuss and write various themes which I cannot edit on the homepage of the In Silico Data. This blog also partly include a little personal themes.
2013/05/30
インシリコ技術適用上での留意点: Caution of technical points on the in silico technology
◇ インシリコ研究実施上での留意点(ドッキング):
Must pay attention that insilico research on docking approach
デモやカタログに書かれているスペックと、実際に自分が行なった時のスペックの違いに関して、以前このブログでも書かせていただきました。 この時、たとえカタログで用いているのと同じ構造式の化合物を用いても、コンピュータ上での処理上の問題から開発元とユーザが個別に行った実験とに大きな差異が出ることを話しました。
これは、化学多変量解析/パターン認識による構造-活性/ADME/T/物性相関研究分野のみならず、インシリコ創薬におけるもう一つの大きな手法であるドッキングにおいても同様の問題があることが報告され、注意が喚起されています。 これは、以下のブログに書かれていました。
http://medicinalchemistry.blog120.fc2.com/blog-entry-783.html
一般的に、コンピュータを通せば何か素晴らしいことが出来て、素晴らしい結果が導き出されるようなイメージが先行しているようです。 しかし、現実的にはアナログ的な現象をデジタルな世界に移し替える、この時に発生する様々な問題の理解と解決なしに期待だけ先行するのは、非常に危険であることを理解しつつ、インシリコ技術を利用する事が大事と考えます。
だからと言って、萎縮したり、過剰反応でインシリコ技術を嫌ったりする必要はありません。 インシリコ技術を正しく理解し、その優れた特徴と限界を知り、最大限の成果を得る工夫や技術力をつければ、上記問題は克服できますし、従来手法では得られなかった素晴らしい結果を享受できることも事実です。 この問題はインシリコ分野に限らず、全ての研究分野で言えることです。
即ち、市販されているソフトウエアを単純に動かし、結果を鵜呑みにするだけでなく、そのバックにある基本技術を理解し、その限界や留意点を常に意識し、現在自分が実施しているインシリコ実験手順や結果に対して冷静に評価する習慣を身につけるという態度が重要です。
WETな実験でも、Journalに報告されている実験が再現できないことがあると言われます。 私はそんなことがあるはずはないと思っていたのですが、学生時代に必要に迫られてある世界的に著名な先生が出した論文と同じ合成実験を行ないました。 しかし、どんなに努力しても再現できませんでした(収率が論文同様の高い値とならない)。 合成には、文章中では表現できないノウハウが存在し、時にはその事実が合成の行方を左右する場合があるという事を実感させられた瞬間でした。 特に、世界的に著名な先生方の論文はその傾向があるのかなーーと思いました。 あまり認めたくありませんが、自分の合成技術とのギャップが大きかったということが原因と、今では考えていますが・・。
インシリコの世界も、全く同じです。 Journalやカタログに表だって書かれていない様々な留意点や、論文以前の前提事項が多数存在することは事実です。 残念ながらこのような事実について表だって議論される場や機会は極めて少ないようですが・・・。
先のブログには「痛烈批判」と書いてありましたが、ブログに書いてあった内容は批判でもなんでもありません。 単に、ドッキングを行なう時に知っておくべき、留意すべき「前提事項」にしかすぎません。 これらの事実を知った上でドッキングを行なう事が必要だというだけです。
私が以前に本ブログでも書きましたように、化学多変量解析/パターン認識による構造-活性/ADME/毒性/物性相関研究においても全く同じように、知っておくべきことや前提事項があることは事実です。 誤解してもらっては困りますが、先に私が行なった議論は手法そのものを批判したものではありません、単にインシリコ実験をする前に知っておくべき当然の事実を述べたにしかすぎません。
インシリコ実験を行なう時は、それぞれの分野でこのような事実があることを認識しつつ、常に自分のインシリコ実験結果を再見直しする習慣を身につけ、論理的な整合性の評価や不整合性等が無いかを自問自答しつつ実施する事が大切です。
人はついうっかりすると自分の都合の良いように解釈しがちですから・・・。
文責:株式会社 インシリコデータ 湯田 浩太郎
2013/05/29
現況報告: Status report
現在、建て替えのために仮住まい先に住んでいます。
ここしばらくパタパタしており、このせいでブログもゆっくり書けなかったのですが、やっと少し落ち着いてきました。
家の建て替えは思った以上に大変です。 施工会社の選定から始まり、家の間取りやデザイン、それが決まると家の中の壁紙、床、天井、個別の部屋の調度品(特にキッチンまわり)や照明器具、配線やコンセントの位置、等々細かなことまで決定してゆきます。 殆ど週末はこれに時間を割かれます。 また、これ以外のこと(資金的なことや仮住まいの決定、そして引っ越し準備、等々)も順を追って走らせます。 さらに、一昨年の地震の件もあり、普通は行なわない地盤調査や液状化対策の検討も行ないました。
引っ越し準備も大変で、今まで何十年も生活してきた過程で増えてきたもの、時代や生活パターンの変化で不用品となったものの始末や、仮住まいと新居への荷物の振り分けとがあり、引っ越し準備もこれまでの引っ越しと異なり、今まで以上に大変でした。 こんなにも不用品があったのだと、つくづく実感しました。 おかげで大分身軽になりました。 秋には、仮住まいから新居に移りますが、この時には現在使っている道具類もかなり整理する予定ですので、さらに身軽になると思います。
非常に大変だったのですが、家内の助けが大きく、本当に助かりました。 事務作業が大嫌いな私ですが、インシリコデータも含め、今回の新築でも家内にはかなり活躍してもらっています。
引っ越し後、メールが一時繋がらなくなったりと、落ち着きませんでしたが、やっと一息ついて仮住まいの環境になじんできたところです。 今まで住んでいた家ですが、一週間もしないうちに撤去され、きれいな更地になってしまいました。 とてもさびしい感じがしました。 家が無くなった後の更地で地鎮祭を行いました。 これで、前の家と別れて、もともとの土地に関与する神々の心を鎮めて、新たな家への道筋がついたことになります。 現在は液状化防止の杭が打たれ、その後、基礎工事に入った段階です。
徐々に昔のペースを取り戻しつつあります。 このブログも含め、インシリコデータのホームページや、他の関連ブログも情報発信の場として引き続き利用させていただきます。 今後ともよろしくお願いいたします。
文責:株式会社 インシリコデータ 湯田 浩太郎
2013/04/10
iPS細胞を用いた毒性スクリーニング:Toxicity screening using iPS cells
◇iPS細胞のもう一つの適用分野;毒性スクリーニング:
Another application field of the iPS cells
iPS細胞というと、どうしても再生医療を最初にイメージしてしまいます。 しかし、iPS細胞を用いた毒性スクリーニングもiPS細胞の利用分野として大きな比重を占めることになりそうです。 3月末に開催された日本薬学会年会で、このiPS細胞を用いた毒性スクリーニングに関するシンポジウムが企画され、興味を持って聴いてきました。
* iPS細胞(induced pluripotent stem cells:人工多能性幹細胞、誘導多能性幹細胞)
* ES細胞(Embryonic stem cells:胚性幹細胞)
◇iPS細胞を用いた毒性スクリーニングの特徴:
Special characteristic of toxicity screening using iPS cells
現在の創薬、機能性化合物開発および環境関連研究では、毒性評価の問題が極めて重要な問題となりつつあります。 膨大な開発費をかけて開発した医薬品に副作用や毒性が出たら、全てを失い、また企業としての信用やイメージも大きくダウンします。 また、EU等で広がっている動物愛護の立場から、動物を用いた動物実験も厳しく制限されつつあり、今後さらに厳しくなることが予想されます。 以上のような様々な環境の激変より、動物を用いない、かつ人間の臓器細胞と機能的に差異のないiPS細胞を用いた毒性スクリーニングが注目されています。
薬物や化学物質の最終投与対象が人間であることを考えるならば、毒性スクリーニングも人間を用いて行なう事が理想ですが、これは実施不可能です。 次善の策として、現在は様々な実験動物を用いて毒性スクリーニングを行ない、人間に外挿しています。 しかし、実験動物と人間とでは代謝メカニズムが異なることが多く、精度の高いスクリーニングは実施出来ません。 さらに、外国、特にEUで強まっている動物愛護の観点により実験動物も使えなくなると、人間同様に毒性スクリーニング自体の実施が出来なくなります。
* 今年度よりEUでは皮膚関連の実験に動物を用いることが禁止されました。 今後は動物を用いた実験データは、EU域内では審査データとして採用されません。 また、製品の販売等も出来なくなります。 動物を用いたin vivo実験から動物を用いないin vitro実験への変換が求められます。 この規制は、化粧品関連企業に対して、早急、かつ厳しい対応を迫るものとなります。
上記観点で、iPS細胞を用いた毒性スクリーニングの果たす役割が極めて重要となります。 iPS細胞自体は細胞であり、実験動物を用いなくて済みます。 さらに都合が良いのは、iPS細胞はもともと人間の特性を有した細胞であることです。 この事実は、iPS細胞を用いた毒性スクリーニングは、人間に適用した場合とほぼ同じ結果をもたらすと期待出来ることを意味します。
例えば、変異原性試験として世界中で採用されているAmes試験では実験動物ではなく、細胞を用います。 この試験で用いる細胞は菌由来のものなので、人間とは基本代謝メカニズムが異なっています。 このような手法的な限界がiPS細胞を用いると克服できると期待されるのです。
◇iPS細胞の安定的供給の問題:
Problem on a stable supply of iPS cells
上記で述べたように、iPS細胞を用いた毒性スクリーニングは、従来手法による毒性スクリーニングと比較して大きなメリットを有していることが分かります。 このiPS細胞を用いた毒性スクリーニングを実際に運用する場合、最も重要な問題が、iPS細胞の均質、大量かつ安定的な供給です。 これが実現されなければ、毒性を公正かつ安定的に評価する事は不可能となります。
シンポジウムで受けた感じでは、iPS細胞の安定供給という観点で今後多くの努力が必要であるという感じを受けました。 しかし、この問題の多くは技術的な問題であり、基本原理上での障害ではないので、私個人的には、時間と努力の積み重ねでこの問題は解決されるものと考えます。
◇iPS細胞を用いた毒性スクリーニングとiPS細胞の安定的供給の問題:
Toxicity screening using iPS cells and problems on a stable supply of iPS cells
毒性スクリーニングを行なう場合の大きな問題としてiPS細胞の安定的供給があることが見えてきました。 シンポジウムを聴いた感じでは、この実現のための最初で大きなマイルストーンがiPS細胞を人細胞と同じ機能を有する細胞に持ってゆく過程であると感じました。 確かに、iPS細胞を人間の臓器を構成する細胞とするためにはクリアすべき様々な技術上での問題があるようです。
多くのiPS関連研究者は、iPS細胞を人の臓器細胞と同じものとすることに気を取られているようです。 確かに、iPS細胞を用いた再生医療では人細胞と全く同じ機能を有する細胞に導くことが極めて重要です。 しかし、今は毒性スクリーニングを精度高く行なうことがテーマです。 毒性スクリーニングが主たるテーマであるので、完全に人細胞と同じ機能を有するように変化したiPS細胞が必要なわけではありません。 たとえiPS細胞から人臓器への変換が不十分であっても、従来手法による毒性スクリーニングと比較して、iPS細胞をルーツとした細胞を用いることの優位性は明白です。 もちろん人細胞と全く同じであることが理想ですが、この実現がかなり困難で、時間がかかるのであるならば、完全に人の臓器細胞へと変化したiPS細胞でなくとも、毒性スクリーニングという観点に立てば、このスクリーニングを実施する事は可能でしょう。
◇人臓器への分化が不十分な細胞を用いた毒性スクリーニングの可能性:
Potential of toxicity screening using incomplete organ cells transformed from iPS cells
毒性スクリーニングの実用化で問題となるのは、実験に用いる細胞の大量、安定供給であることは既に述べました。 最終目的は毒性スクリーニングであるので、実験に用いる細胞の大量、安定供給を満たすiPS由来の細胞を選択し、これらの細胞を用いた毒性スクリーニングプロトコルを構築する事が毒性スクリーニング実用化への最短距離と考えます。 iPS専門研究者はiPS細胞から完全な人臓器細胞への変換ばかりに注力しています。 しかし、毒性スクリーニングが主役であることを考えるならば、大量、安定供給を目指したiPS関連細胞の作製と、それらを用いたスクリーニングプロトコルの作成を考えた方が良いのではないでしょうか。 これでも、菌や動物の細胞を用いた毒性スクリーニングと比較すれば、iPS細胞による毒性スクリーニングの優位性は明白です。
文責:株式会社 インシリコデータ 湯田 浩太郎
Another application field of the iPS cells
iPS細胞というと、どうしても再生医療を最初にイメージしてしまいます。 しかし、iPS細胞を用いた毒性スクリーニングもiPS細胞の利用分野として大きな比重を占めることになりそうです。 3月末に開催された日本薬学会年会で、このiPS細胞を用いた毒性スクリーニングに関するシンポジウムが企画され、興味を持って聴いてきました。
* iPS細胞(induced pluripotent stem cells:人工多能性幹細胞、誘導多能性幹細胞)
* ES細胞(Embryonic stem cells:胚性幹細胞)
◇iPS細胞を用いた毒性スクリーニングの特徴:
Special characteristic of toxicity screening using iPS cells
現在の創薬、機能性化合物開発および環境関連研究では、毒性評価の問題が極めて重要な問題となりつつあります。 膨大な開発費をかけて開発した医薬品に副作用や毒性が出たら、全てを失い、また企業としての信用やイメージも大きくダウンします。 また、EU等で広がっている動物愛護の立場から、動物を用いた動物実験も厳しく制限されつつあり、今後さらに厳しくなることが予想されます。 以上のような様々な環境の激変より、動物を用いない、かつ人間の臓器細胞と機能的に差異のないiPS細胞を用いた毒性スクリーニングが注目されています。
薬物や化学物質の最終投与対象が人間であることを考えるならば、毒性スクリーニングも人間を用いて行なう事が理想ですが、これは実施不可能です。 次善の策として、現在は様々な実験動物を用いて毒性スクリーニングを行ない、人間に外挿しています。 しかし、実験動物と人間とでは代謝メカニズムが異なることが多く、精度の高いスクリーニングは実施出来ません。 さらに、外国、特にEUで強まっている動物愛護の観点により実験動物も使えなくなると、人間同様に毒性スクリーニング自体の実施が出来なくなります。
* 今年度よりEUでは皮膚関連の実験に動物を用いることが禁止されました。 今後は動物を用いた実験データは、EU域内では審査データとして採用されません。 また、製品の販売等も出来なくなります。 動物を用いたin vivo実験から動物を用いないin vitro実験への変換が求められます。 この規制は、化粧品関連企業に対して、早急、かつ厳しい対応を迫るものとなります。
上記観点で、iPS細胞を用いた毒性スクリーニングの果たす役割が極めて重要となります。 iPS細胞自体は細胞であり、実験動物を用いなくて済みます。 さらに都合が良いのは、iPS細胞はもともと人間の特性を有した細胞であることです。 この事実は、iPS細胞を用いた毒性スクリーニングは、人間に適用した場合とほぼ同じ結果をもたらすと期待出来ることを意味します。
例えば、変異原性試験として世界中で採用されているAmes試験では実験動物ではなく、細胞を用います。 この試験で用いる細胞は菌由来のものなので、人間とは基本代謝メカニズムが異なっています。 このような手法的な限界がiPS細胞を用いると克服できると期待されるのです。
◇iPS細胞の安定的供給の問題:
Problem on a stable supply of iPS cells
上記で述べたように、iPS細胞を用いた毒性スクリーニングは、従来手法による毒性スクリーニングと比較して大きなメリットを有していることが分かります。 このiPS細胞を用いた毒性スクリーニングを実際に運用する場合、最も重要な問題が、iPS細胞の均質、大量かつ安定的な供給です。 これが実現されなければ、毒性を公正かつ安定的に評価する事は不可能となります。
シンポジウムで受けた感じでは、iPS細胞の安定供給という観点で今後多くの努力が必要であるという感じを受けました。 しかし、この問題の多くは技術的な問題であり、基本原理上での障害ではないので、私個人的には、時間と努力の積み重ねでこの問題は解決されるものと考えます。
◇iPS細胞を用いた毒性スクリーニングとiPS細胞の安定的供給の問題:
Toxicity screening using iPS cells and problems on a stable supply of iPS cells
毒性スクリーニングを行なう場合の大きな問題としてiPS細胞の安定的供給があることが見えてきました。 シンポジウムを聴いた感じでは、この実現のための最初で大きなマイルストーンがiPS細胞を人細胞と同じ機能を有する細胞に持ってゆく過程であると感じました。 確かに、iPS細胞を人間の臓器を構成する細胞とするためにはクリアすべき様々な技術上での問題があるようです。
多くのiPS関連研究者は、iPS細胞を人の臓器細胞と同じものとすることに気を取られているようです。 確かに、iPS細胞を用いた再生医療では人細胞と全く同じ機能を有する細胞に導くことが極めて重要です。 しかし、今は毒性スクリーニングを精度高く行なうことがテーマです。 毒性スクリーニングが主たるテーマであるので、完全に人細胞と同じ機能を有するように変化したiPS細胞が必要なわけではありません。 たとえiPS細胞から人臓器への変換が不十分であっても、従来手法による毒性スクリーニングと比較して、iPS細胞をルーツとした細胞を用いることの優位性は明白です。 もちろん人細胞と全く同じであることが理想ですが、この実現がかなり困難で、時間がかかるのであるならば、完全に人の臓器細胞へと変化したiPS細胞でなくとも、毒性スクリーニングという観点に立てば、このスクリーニングを実施する事は可能でしょう。
◇人臓器への分化が不十分な細胞を用いた毒性スクリーニングの可能性:
Potential of toxicity screening using incomplete organ cells transformed from iPS cells
毒性スクリーニングの実用化で問題となるのは、実験に用いる細胞の大量、安定供給であることは既に述べました。 最終目的は毒性スクリーニングであるので、実験に用いる細胞の大量、安定供給を満たすiPS由来の細胞を選択し、これらの細胞を用いた毒性スクリーニングプロトコルを構築する事が毒性スクリーニング実用化への最短距離と考えます。 iPS専門研究者はiPS細胞から完全な人臓器細胞への変換ばかりに注力しています。 しかし、毒性スクリーニングが主役であることを考えるならば、大量、安定供給を目指したiPS関連細胞の作製と、それらを用いたスクリーニングプロトコルの作成を考えた方が良いのではないでしょうか。 これでも、菌や動物の細胞を用いた毒性スクリーニングと比較すれば、iPS細胞による毒性スクリーニングの優位性は明白です。
文責:株式会社 インシリコデータ 湯田 浩太郎
2013/02/18
学会発表/パンフの値と実際の実験の値の差。その2:Differences between experimental value and value of the presentation at the meeting / pamphlet. The second report.
◇学会発表やパンフレットで使われている分類率、予測率、相関係数、決定係数の指標はどうして高い値が多いのかなーー?
その2:
Why the value that a classification rate, a predictive rate, a coefficient of correlation and determination used by a presentation at the meeting and a pamphlet shows so high and excellent value? The second report.
以前、上記タイトルで本ブログに書かせてもらいました。
前回のレポートではデータ解析の特殊な利用あるいは操作を行なう事で、高い相関係数や決定係数を作為的に実現できることを示しました。この時、特に書きませんでしたが、これらの問題以外にもパンフレット値と実際の計算値のギャップを大きくする要因が、システムを利用するという立場とシステムを開発するという全く正反対となる二つの立場の違いによって引き起こされます。また、化学というアナログとコンピュータというデジタルとのギャップという観点での議論も出来ます。今回は、これらの点についてまとめてみます。実際は、さらにこれら以外の要因もギャップの形成に影響しているのですが、今回は省略します。
システムを利用するというユーザの立場で考えると、システムを利用する場合の留意点や工夫すべき点が浮かんできます。システムの効率が最大になるように利用者が留意すべき点等、以下にまとめる内容を思い浮かべながらシステムの扱い方等について考えてみてください。すると、なぜ公表値と自分が行なう実行結果がこうも違うのかについて、ある程度理解できると思います。
この問題はシステムの扱う問題が化学に関する問題であるという事から発生します。留意すべき点はいろいろありますが、全て説明すると大変なので、ここでは典型的なことを例にとり簡単にまとめます。この内容から、他の事象について考えてください。
システムを開発する立場にいると、アナログである化学とデジタルであるコンピュータとの橋渡しを常に考える必要があります。この情報変換が正しく行なわれているか。さらには、利用者が変わっても情報が正しく伝えられるか。また、アプリケーションとしての整合性も整えることが求められます。これらの様々な要求に答え、かつ様々な問題点を解決する事が必要になります。以下に、化学上の問題をデジタルであるコンピュータ上に乗せるための留意点を化合物構造式を扱うという観点で典型的な事例を例にとり、簡単にまとめます。
*化合物構造式の取り扱い関連
化学システムである以上、化合物のシステムへの入力が必要です。一般的に我々が二次元構造式を書けば、上手に書く人や、形がゆがんでしまう人、上下関係が逆であったり、さらには裏表が逆だったりします。しかし、人間は利口なので、このような様々な形の化合物構造式を見ても、同じ化合物であるという事を認識します。
でも、コンピュータはどうでしょうか。もし、これらの化合物を異なる化合物として認識すると、当然実行結果が異なってしまいます。検索しても期待した化合物が出てこなくなるし、パンフレットにあるような値がでない、あるいは間違った答えとなるという事になります。
・二次元、三次元構造式のシステムへの入力時の扱い
(内容により、パンフレット値と実行結果に大きな差が出ることがあります)
化合物の構造式は全く同じ化合物であっても、「絵」としての構造式は書く人により異なります。構造式をきれいに書く人と下手に書く人、上下逆さまに書く人や裏表を逆に書く人等、全く同じ化合物が書く人によりルックアンドフィールが全く異なってきます。
化学システムは入力者の違いや書き方の違いを吸収する事が必要ですが、システムの利用目的や、二次元/三次元構造の違いなどでシステムの対応に差異があり、利用目的の違いによる機能的な限界も出てきます。
・化合物構造式の書き方による、システム実行への影響
先に述べた化合物構造式の作図上の問題だけでなく、化学には厄介な問題があります。全く同じものが、異なった複数の書き方で書かれ、両方ともに正解となる場合があることです。典型的な例はニトロ基で、イオン型と非イオン型の表記があります。また、良く知られた有名なものではケト・エノール互変異性体がありますし、芳香族の表示も、共役型と非共役型があります。
システムの機能により変わりますが、これらを同じ置換基として認識するソフトと、別の置換基として認識するソフトがあります。この差はシステム開発者の思想やシステムの適用分野や目的により変わります。この事実を知らないと、ユーザが使ったときに期待する結果が得られないという事になります。
・二次元/三次元構造式の扱い
先の問題は化合物の二次元/三次元を扱う時、特に頻繁に生じます。二次元で入力された場合、書く人により形が異なります、これを三次元に立ち上げると、異なった三次元構造式となってしまいます。このようなことが起きないようにプログラムではいろいろな工夫が払われていますが、システムにより程度の差があります。この事実も知っておくべきことです。化合物の三次元構造式を扱うために、いろいろなコンピュータソフトウエア技術が展開されています。立体化学の扱いも、プログラムの利用目的等で基本が変わりますので注意が必要です。
・プログラムのデフォルト設定(データの再現性に関する問題)
量子化学計算は、解析結果の説明がしやすく、データの値も細かく出ますので、詳細な議論が出来ると考えられますが、その扱いにおいてはかなりの注意が必要です。例えば、計算時の軌道関数、最適化の繰り返し回数、ストップさせる時のエネルギー値、ローカル/グローバルミニマ、他等の様々な設定が存在し、これらは同じ条件でなければ同じ値は出てきません。これも、パンフレット値と実行値の差が出る原因となります。
繰り返しになりますが、システム利用者は、化学というアナログの情報をコンピュータというデジタルで処理する場合の様々な問題点を意識しつつ実行する事が大事です。注意しますが、以上の事実はプログラムのバグではありません。システムが正しく動く上での、化学とコンピュータの適合性の問題なのです。
一方で、システム開発者は可能な限りアナログとデジタルの差異をユーザに意識させずに、正しい解析を実行できるように機能を備えることが必要です。ユーザは、そのような問題を意識することなくシステムを利用し、無条件に実行結果を信用するのですから。
文責:株式会社 インシリコデータ 湯田 浩太郎
その2:
Why the value that a classification rate, a predictive rate, a coefficient of correlation and determination used by a presentation at the meeting and a pamphlet shows so high and excellent value? The second report.
以前、上記タイトルで本ブログに書かせてもらいました。
前回のレポートではデータ解析の特殊な利用あるいは操作を行なう事で、高い相関係数や決定係数を作為的に実現できることを示しました。この時、特に書きませんでしたが、これらの問題以外にもパンフレット値と実際の計算値のギャップを大きくする要因が、システムを利用するという立場とシステムを開発するという全く正反対となる二つの立場の違いによって引き起こされます。また、化学というアナログとコンピュータというデジタルとのギャップという観点での議論も出来ます。今回は、これらの点についてまとめてみます。実際は、さらにこれら以外の要因もギャップの形成に影響しているのですが、今回は省略します。
システムを利用するというユーザの立場で考えると、システムを利用する場合の留意点や工夫すべき点が浮かんできます。システムの効率が最大になるように利用者が留意すべき点等、以下にまとめる内容を思い浮かべながらシステムの扱い方等について考えてみてください。すると、なぜ公表値と自分が行なう実行結果がこうも違うのかについて、ある程度理解できると思います。
◇システム開発側と利用するユーザとのすれ違い
システムを利用する場合、常に以下の諸問題について理解しておく事が必要です。理解がなければ、パンフレット値と自分の出した値の大きな差異に驚くことでしょう。システムが公表するパンフレットの公表値は、常にベストの条件下にある「瞬間風速」であるという事を意識しておいてください。極端な場合、同じ化合物を用いてもAさんとBさんで結果が異なる事もあり、たとえパンフレットの中で使ってある化合物であっても結果が異なるという結果を招きかねません。この問題はシステムの扱う問題が化学に関する問題であるという事から発生します。留意すべき点はいろいろありますが、全て説明すると大変なので、ここでは典型的なことを例にとり簡単にまとめます。この内容から、他の事象について考えてください。
システムを開発する立場にいると、アナログである化学とデジタルであるコンピュータとの橋渡しを常に考える必要があります。この情報変換が正しく行なわれているか。さらには、利用者が変わっても情報が正しく伝えられるか。また、アプリケーションとしての整合性も整えることが求められます。これらの様々な要求に答え、かつ様々な問題点を解決する事が必要になります。以下に、化学上の問題をデジタルであるコンピュータ上に乗せるための留意点を化合物構造式を扱うという観点で典型的な事例を例にとり、簡単にまとめます。
*化合物構造式の取り扱い関連
化学システムである以上、化合物のシステムへの入力が必要です。一般的に我々が二次元構造式を書けば、上手に書く人や、形がゆがんでしまう人、上下関係が逆であったり、さらには裏表が逆だったりします。しかし、人間は利口なので、このような様々な形の化合物構造式を見ても、同じ化合物であるという事を認識します。
でも、コンピュータはどうでしょうか。もし、これらの化合物を異なる化合物として認識すると、当然実行結果が異なってしまいます。検索しても期待した化合物が出てこなくなるし、パンフレットにあるような値がでない、あるいは間違った答えとなるという事になります。
・二次元、三次元構造式のシステムへの入力時の扱い
(内容により、パンフレット値と実行結果に大きな差が出ることがあります)
化合物の構造式は全く同じ化合物であっても、「絵」としての構造式は書く人により異なります。構造式をきれいに書く人と下手に書く人、上下逆さまに書く人や裏表を逆に書く人等、全く同じ化合物が書く人によりルックアンドフィールが全く異なってきます。
化学システムは入力者の違いや書き方の違いを吸収する事が必要ですが、システムの利用目的や、二次元/三次元構造の違いなどでシステムの対応に差異があり、利用目的の違いによる機能的な限界も出てきます。
・化合物構造式の書き方による、システム実行への影響
先に述べた化合物構造式の作図上の問題だけでなく、化学には厄介な問題があります。全く同じものが、異なった複数の書き方で書かれ、両方ともに正解となる場合があることです。典型的な例はニトロ基で、イオン型と非イオン型の表記があります。また、良く知られた有名なものではケト・エノール互変異性体がありますし、芳香族の表示も、共役型と非共役型があります。
システムの機能により変わりますが、これらを同じ置換基として認識するソフトと、別の置換基として認識するソフトがあります。この差はシステム開発者の思想やシステムの適用分野や目的により変わります。この事実を知らないと、ユーザが使ったときに期待する結果が得られないという事になります。
・二次元/三次元構造式の扱い
先の問題は化合物の二次元/三次元を扱う時、特に頻繁に生じます。二次元で入力された場合、書く人により形が異なります、これを三次元に立ち上げると、異なった三次元構造式となってしまいます。このようなことが起きないようにプログラムではいろいろな工夫が払われていますが、システムにより程度の差があります。この事実も知っておくべきことです。化合物の三次元構造式を扱うために、いろいろなコンピュータソフトウエア技術が展開されています。立体化学の扱いも、プログラムの利用目的等で基本が変わりますので注意が必要です。
・プログラムのデフォルト設定(データの再現性に関する問題)
量子化学計算は、解析結果の説明がしやすく、データの値も細かく出ますので、詳細な議論が出来ると考えられますが、その扱いにおいてはかなりの注意が必要です。例えば、計算時の軌道関数、最適化の繰り返し回数、ストップさせる時のエネルギー値、ローカル/グローバルミニマ、他等の様々な設定が存在し、これらは同じ条件でなければ同じ値は出てきません。これも、パンフレット値と実行値の差が出る原因となります。
◇誤差が大きくなり、追試が出来なくなるという問題
前記のような様々な問題が解決されなければ、パンフレット値と実行値の値が違ってくるのは当然です。理論化学計算を行なうと、議論が厳密に行なわれているように感じます。しかし、対象となる化合物系の構造式が複雑になってくると、前記の様々な問題の誤差が積み重なり、差異が大きくなります。極端な場合、パンフレットや学会発表等の結果の追試が出来なくなるという事になります。◇システム利用する時の注意点
化学システムを利用する場合は、システム開発者のみならず、システムを利用する側にも十分な考慮や留意が必要であることを改めて認識してください。すると、パンフに書かれている公表値との差が大きくなる点に関してある程度理解できますし、完全ではなくとも対策を考えることも可能となります。繰り返しになりますが、システム利用者は、化学というアナログの情報をコンピュータというデジタルで処理する場合の様々な問題点を意識しつつ実行する事が大事です。注意しますが、以上の事実はプログラムのバグではありません。システムが正しく動く上での、化学とコンピュータの適合性の問題なのです。
一方で、システム開発者は可能な限りアナログとデジタルの差異をユーザに意識させずに、正しい解析を実行できるように機能を備えることが必要です。ユーザは、そのような問題を意識することなくシステムを利用し、無条件に実行結果を信用するのですから。
文責:株式会社 インシリコデータ 湯田 浩太郎
2013/02/07
医療診断におけるスタートレックスタイル技術とゴジラスタイル技術:Medical diagnosis by the Star Trek technology and the Godzilla technology
◆医療診断における技術の進歩について:
About progress of the technology on medical diagnoses
医療分野における診断技術の進歩が著しいようです。医療診断には大きく物理的、化学的および生物的の3分野がありますが、これらそれぞれの分野で検査技術が急激に進歩していることが大きな理由のようです。ここでは、化学検査における診断技術で最新の分析技術を用いた診断(スタートレックスタイル)と、私の記憶にある従来からのアナログ的な技術(ゴジラスタイル)における診断について個人的となりますが、感想を以下にまとめます。
◇最新のスタートレック(Star Trek)技術と、従来からのゴジラ(Godzilla)技術:
Newest Star Trek technology and traditional Godzilla technology on diagnosis of breath
人の吐く息を分析して病気の診断をするという研究が進んでいるそうです。
呼気を分析して診断するというのは素晴らしい発想だと思います。もし成功すれば、今までとは全く異なる診断ルートや手法を開発することになるので、新しい分野が開けてきます。大きなインパクトがあります。診断の基本原理はメタボロミクスにおける尿や血液の代わりに呼気が用いられたと考えればよいと思います。
・スタートレック型呼気診断 (Star Trek style diagnosis of breath)
このようなチャレンジが具体性を帯びてきたのは主として機器分析技術の発達によるところが大きいと言えます。先のトピックスにも書いてありますが、特に呼気に含まれる揮発性有機分子(VOC)の割合が100万分の1から1兆分の1になる(parts-per-million (by volume) to parts-per-trillion range)。これがリアルタイムで分析可能なようになってきたという技術の進歩が大きいと思います。
研究者はこの技術はスペクトル解析技術のRAFT(real-time air fingerprinting)が基本であり、非侵襲性(non-invasive)で高速診断になるということで説明しています。確かに、記事の写真を見るとStar Trek的な雰囲気が出ています。
・ゴジラ型呼気診断(Godzilla style diagnosis of breath)
この記事を見て思い出すのは、呼気を用いて診断するという発想は昔もあったという事です。私が最初に知ったのは、呼気を調べて肺がんの診断を行うというアプローチでした。当時は分析技術が進んでいなかったので、犬を用いて肺がん患者特有の呼気を学習させ、肺がんの可能性があると反応(吠える等?)させるというものでした。もっとも、これが実用化されたとは聴いておりませんが・・・。何か、犬が診察室にいて患者の呼気のにおいを嗅いでいるという状況は????ですね。
ただ、当時感じたのは呼気も他の診断要素と同じように使えるのだという事でした。医者の診断は問診、患者の様子、外見、血液や尿の化学検査、超音波やX線やMRI等の画像診断と様々な情報を利用しますが、呼気もその一つになりうるという事でした。ただ、当時は分析技術が呼気診断が出来るほど進んでいなかったので、犬の嗅覚を利用するという事で、結構真面目に取り組むべきことだったのでしょう。
ただ、当時感じたのは呼気も他の診断要素と同じように使えるのだという事でした。医者の診断は問診、患者の様子、外見、血液や尿の化学検査、超音波やX線やMRI等の画像診断と様々な情報を利用しますが、呼気もその一つになりうるという事でした。ただ、当時は分析技術が呼気診断が出来るほど進んでいなかったので、犬の嗅覚を利用するという事で、結構真面目に取り組むべきことだったのでしょう。
◇呼気診断の可能性:
Potency of the diagnosis of breath
分析技術が発展してきたので、このようなことへのチャレンジも現実化を帯びてきたのでしょう。私自身は、呼気診断の有効性を一つの大きな可能性のあるチャレンジと考えています。メタボロミクス的な考えで見ると、呼気の中にも代謝化合物はVOCとしていろいろ入っているはずです。病気によってこれらのVOCの種類や割合も大きく変化する事は明白ですし、病気の種類によって、O2、CO2、N2等の比率も変わるはずです。
記事を見ると、診断データを集めるための被験者を集めているとか、分析機器の開発試験になるとか、他にも研究グループがあり、画像診断や体内流体解析を行う等のチャレンジがされているようですね。まさに、「Star Trek-style」的な診断手法にチャレンジしている様子が感じられます。
◇診断実施のためのデータ解析:
Data analysis for the breath diagnosis
いずれにしても、本研究はメタボロミクスの大きな枠に入ります。本格的に研究が走ればスペクトルのフィンガープリントデータを用いた病人と正常人との比較をデータ解析で行ない、より精度の高い診断を行なえる診断環境を整える必要がでてきます。このような研究でも多変量解析/パターン認識のデータ解析技術が重要となってきます。
犬を使うゴジラ型の診断から、今回のスタートレック型の診断への移行は時代の流れと感じています。
文責:株式会社 インシリコデータ 湯田 浩太郎
2013/01/09
動物実験代替法の動き:The recent trend of Alternative Animal Experiments in EU
EUにおける動物愛護団体の動物実験禁止への運動と動物実験代替法の動き:
◆オーストリアのウイーンで見た、動物愛護団体の動物実験禁止運動の現場
昨年8月にオーストリアのウイーン(VIENA)で開催されたEuroQSAR 2012にポスター発表で参加していた時、会場に行く途中オーストリアの国会議事堂の前を電車が通るのですが、たまたまその同じ場所を別の日に電車で通っている時、EUでの動物愛護団体による動物実験禁止運動の現場を見ることが出来ました。
上の写真はオーストリアの国会議事堂の前から撮りました。この国会議事堂は観光の上での大きなスポットとなっています。
この国会議事堂の前を市電が走っているのですが、次の日に電車の中から国会議事堂の写真を撮ったのが次の写真です。
国会議事堂の前に仮の支柱を建て、そこから大きな垂れ幕がつり下がっています。垂れ幕の写真を見れば、動物愛護団体が動物実験禁止を訴えた内容であることがすぐにわかります。写真を拡大してみるとわかりますが、注射針がウサギの眼に突き刺されているイメージが感じ取られます。実際には注射針を刺さずに液体を点眼しているのですが・・・。ウサギの眼の愛くるしさと、注射器の痛々しいイメージが見る人に動物実験の残虐性を強く訴えています。
こちらの写真は、先ほどの主たる垂れ幕の脇に地面の上に置かれた横断幕の様子です。
日本国内にいると、西欧諸国、特にEUにおける動物愛護団体や環境保護団体の力が強いという話は良く聞きます。しかし、日本国内の現状から推測するとそのような活動の状況や、社会への浸透力、影響力といった事はなかなか推測できませんでした。実際に現場で活動している人々は若者が中心で行なっていました。活動を支える人々の層の厚さがわかるような感じがします。
今回のように、実際にその運動をしているところをみると、EUの人々の動物愛護に対する感情や意志は日本と異なり、本物であり、極めて強いものであるという事を改めて感じました。
◆動物実験代替法とEUにおける動物実験禁止の動き
このような動物愛護団体の強い後押しもあり、EUにおいては今年の3月以降、皮膚関連研究での動物実験データの利用禁止(事実上での動物実験禁止)が制度として動き出します。現在、皮膚関連研究分野ではこの動物実験に代わるIn Vitro試験の確立が急がれており、その有力な動物実験代替法の一つとしてインシリコによるスクリーニングが注目されています。
当然、EUにも大きな市場を有する日本の化粧品や関連企業も対応に動き出しており、この流れを受けて日本動物実験代替法学会も大きく動き出しており、その年会等も昨今急速にその参加者を増やしております。
◆動物実験代替法とインシリコスクリーニング技術
では、動物実験代替法におけるインシリコスクリーニング関連技術としてどのようなものが考えられるのでしょうか。皮膚関連研究分野での適用には、従来から展開されている薬理活性探索を目的としたインシリコスクリーニング技術の適用はその基本原理上適用困難です。一方で、皮膚関連でもADMEを主体としたPK/PDシミュレーションによるアプローチは可能ですが、薬物動態だけでは安全性を評価する事は出来ません。丁度、薬理活性探索と毒性評価をADMEで議論するのは極めて困難であるのと同じ関係です。
◆化学多変量解析/パターン認識(ケモメトリックス)によるインシリコスクリーニングの歴史
現在、毒性評価に基本原理上から適用可能な手法として化学多変量解析/パターン認識(ケモメトリックス)技術があります。毒性評価への化学多変量解析/パターン認識の適用自体はかなり昔から適用研究がなされてきましたが、当時からの適用条件から、実験を行なって評価するのが最も確実であるとして、インシリコによる毒性評価は殆ど重視されてきませんでした。
現在と異なり、動物実験も行なえるし、評価すべきサンプル数も多くなく、またインシリコによる予測自体が当時の極めて貧弱な計算機環境、さらにはデータ解析手法自体も幼稚という条件下では、やはり熟練した実験科学者による実データ重視が当然の帰結でした。
◆時代の変化と技術の進歩による新たな毒性評価へのチャレンジ
現在は、一昔前と比較して研究に関する環境が様々な観点で大きく変化してきました。最大の変化は動物実験が行なえなくなるという変化でしょう。これは、先にも書きましたように、最終的には実験データを利用するという「実データ主義」が通用しなくなったことを意味します。
この流れは、環境保護団体の強い後押しもあり、化合物毒性に関する化合物規制(REACH)が実施された流れと逆になります。EUはもともと化合物毒性に関しては「実データ主義」が強力な地域でした。しかし、世界の多くは化合物の毒性評価を全てにわたって実施するのは実用的観点から不可能であるとして、実データ主義と距離を置いていたのですが、これを振り切って規制を実施しました。REACHも試験適用期間を過ぎて、本格運用期間に入ってきました。REACH規制で化合物の毒性データが充実してくると、それらのデータを用いてインシリコスクリーニングによる毒性評価信頼性も大きく向上する事となり、相乗効果が生まれます。
◆インシリコデータによる毒性(安全性)評価へのチャレンジ
インシリコデータの湯田は、化学多変量解析/パターン認識(ケモメトリックス)による化合物の毒性評価という研究業務を、留学先のアメリカペンシルバニア州立大学のJurs先生が開発されたADAPT(Automated Data Analysis by Pattern recognition Techniques)を用いて行ない、その部分開発や日本へのシステム導入を行ってまいりました。また、この分野での長い経験から、従来手法によるデータ解析手法をそのまま用いた毒性評価には限界があると見極め、化合物の毒性(安全性)評価に特化した新たな解析手法となる「KY(K-step Yard sampling)法」を開発しました。さらに、化合物の特性を利用し、与えられたサンプルグループ内で最高の予測パフォーマンスを出すことが出来る「テーラーメードモデリング」の技術の開発にも成功し特許化致しました。この二つの基本技術は化合物の毒性(安全性)予測を大きく改善するポテンシャルを持ちます。
株式会社インシリコデータは以上の二大技術を基本とし、長期にわたり経験してきた化学多変量解析/パターン認識(ケモメトリックス)技術のノウハウを駆使しつつ、新しい時代の要請に答えるインシリコスクリーニングの技術支援を行なってまいります。
◆化学多変量解析/パターン認識(ケモメトリックス)によるインシリコスクリーニングの特徴
化学多変量解析/パターン認識(ケモメトリックス)によるインシリコスクリーニングの特徴は、その基本原理から適用範囲が毒性(安全性)のみならず、創薬に関係する全ての特性に適用可能であるという点です。化学多変量解析/パターン認識(ケモメトリックス)によるインシリコスクリーニングではその予測対象として薬理活性、ADME、毒性(安全性)、物性等の一連の創薬に関係する全ての特性を予測対象とするjことが可能です。一つの基本的なアプローチで多くの種類の特性を予測できることは、予測項目単位に予測手法を変えることと比較した時、大きな利点を持ちます。この点でも、化学多変量解析/パターン認識(ケモメトリックス)によるインシリコスクリーニングの優位性が際立ってきます。
この事実から、インシリコデータは化学多変量解析/パターン認識(ケモメトリックス)技術の長期にわたる経験やノウハウ、そして新たに開発された技術を融合し、会社としての最終目的となる「並列創薬(Parallel drug design)」を提唱します。さらに、「並列創薬」における個々の特性予測が完全(100%)となった時に実現する「一段階創薬(One step drug design)」の実現を目指して継続的に研究努力を続けます。
文責:株式会社 インシリコデータ 湯田 浩太郎
◆オーストリアのウイーンで見た、動物愛護団体の動物実験禁止運動の現場
昨年8月にオーストリアのウイーン(VIENA)で開催されたEuroQSAR 2012にポスター発表で参加していた時、会場に行く途中オーストリアの国会議事堂の前を電車が通るのですが、たまたまその同じ場所を別の日に電車で通っている時、EUでの動物愛護団体による動物実験禁止運動の現場を見ることが出来ました。
上の写真はオーストリアの国会議事堂の前から撮りました。この国会議事堂は観光の上での大きなスポットとなっています。
この国会議事堂の前を市電が走っているのですが、次の日に電車の中から国会議事堂の写真を撮ったのが次の写真です。
国会議事堂の前に仮の支柱を建て、そこから大きな垂れ幕がつり下がっています。垂れ幕の写真を見れば、動物愛護団体が動物実験禁止を訴えた内容であることがすぐにわかります。写真を拡大してみるとわかりますが、注射針がウサギの眼に突き刺されているイメージが感じ取られます。実際には注射針を刺さずに液体を点眼しているのですが・・・。ウサギの眼の愛くるしさと、注射器の痛々しいイメージが見る人に動物実験の残虐性を強く訴えています。
こちらの写真は、先ほどの主たる垂れ幕の脇に地面の上に置かれた横断幕の様子です。
日本国内にいると、西欧諸国、特にEUにおける動物愛護団体や環境保護団体の力が強いという話は良く聞きます。しかし、日本国内の現状から推測するとそのような活動の状況や、社会への浸透力、影響力といった事はなかなか推測できませんでした。実際に現場で活動している人々は若者が中心で行なっていました。活動を支える人々の層の厚さがわかるような感じがします。
今回のように、実際にその運動をしているところをみると、EUの人々の動物愛護に対する感情や意志は日本と異なり、本物であり、極めて強いものであるという事を改めて感じました。
◆動物実験代替法とEUにおける動物実験禁止の動き
このような動物愛護団体の強い後押しもあり、EUにおいては今年の3月以降、皮膚関連研究での動物実験データの利用禁止(事実上での動物実験禁止)が制度として動き出します。現在、皮膚関連研究分野ではこの動物実験に代わるIn Vitro試験の確立が急がれており、その有力な動物実験代替法の一つとしてインシリコによるスクリーニングが注目されています。
当然、EUにも大きな市場を有する日本の化粧品や関連企業も対応に動き出しており、この流れを受けて日本動物実験代替法学会も大きく動き出しており、その年会等も昨今急速にその参加者を増やしております。
◆動物実験代替法とインシリコスクリーニング技術
では、動物実験代替法におけるインシリコスクリーニング関連技術としてどのようなものが考えられるのでしょうか。皮膚関連研究分野での適用には、従来から展開されている薬理活性探索を目的としたインシリコスクリーニング技術の適用はその基本原理上適用困難です。一方で、皮膚関連でもADMEを主体としたPK/PDシミュレーションによるアプローチは可能ですが、薬物動態だけでは安全性を評価する事は出来ません。丁度、薬理活性探索と毒性評価をADMEで議論するのは極めて困難であるのと同じ関係です。
◆化学多変量解析/パターン認識(ケモメトリックス)によるインシリコスクリーニングの歴史
現在、毒性評価に基本原理上から適用可能な手法として化学多変量解析/パターン認識(ケモメトリックス)技術があります。毒性評価への化学多変量解析/パターン認識の適用自体はかなり昔から適用研究がなされてきましたが、当時からの適用条件から、実験を行なって評価するのが最も確実であるとして、インシリコによる毒性評価は殆ど重視されてきませんでした。
現在と異なり、動物実験も行なえるし、評価すべきサンプル数も多くなく、またインシリコによる予測自体が当時の極めて貧弱な計算機環境、さらにはデータ解析手法自体も幼稚という条件下では、やはり熟練した実験科学者による実データ重視が当然の帰結でした。
◆時代の変化と技術の進歩による新たな毒性評価へのチャレンジ
現在は、一昔前と比較して研究に関する環境が様々な観点で大きく変化してきました。最大の変化は動物実験が行なえなくなるという変化でしょう。これは、先にも書きましたように、最終的には実験データを利用するという「実データ主義」が通用しなくなったことを意味します。
この流れは、環境保護団体の強い後押しもあり、化合物毒性に関する化合物規制(REACH)が実施された流れと逆になります。EUはもともと化合物毒性に関しては「実データ主義」が強力な地域でした。しかし、世界の多くは化合物の毒性評価を全てにわたって実施するのは実用的観点から不可能であるとして、実データ主義と距離を置いていたのですが、これを振り切って規制を実施しました。REACHも試験適用期間を過ぎて、本格運用期間に入ってきました。REACH規制で化合物の毒性データが充実してくると、それらのデータを用いてインシリコスクリーニングによる毒性評価信頼性も大きく向上する事となり、相乗効果が生まれます。
◆インシリコデータによる毒性(安全性)評価へのチャレンジ
インシリコデータの湯田は、化学多変量解析/パターン認識(ケモメトリックス)による化合物の毒性評価という研究業務を、留学先のアメリカペンシルバニア州立大学のJurs先生が開発されたADAPT(Automated Data Analysis by Pattern recognition Techniques)を用いて行ない、その部分開発や日本へのシステム導入を行ってまいりました。また、この分野での長い経験から、従来手法によるデータ解析手法をそのまま用いた毒性評価には限界があると見極め、化合物の毒性(安全性)評価に特化した新たな解析手法となる「KY(K-step Yard sampling)法」を開発しました。さらに、化合物の特性を利用し、与えられたサンプルグループ内で最高の予測パフォーマンスを出すことが出来る「テーラーメードモデリング」の技術の開発にも成功し特許化致しました。この二つの基本技術は化合物の毒性(安全性)予測を大きく改善するポテンシャルを持ちます。
株式会社インシリコデータは以上の二大技術を基本とし、長期にわたり経験してきた化学多変量解析/パターン認識(ケモメトリックス)技術のノウハウを駆使しつつ、新しい時代の要請に答えるインシリコスクリーニングの技術支援を行なってまいります。
◆化学多変量解析/パターン認識(ケモメトリックス)によるインシリコスクリーニングの特徴
化学多変量解析/パターン認識(ケモメトリックス)によるインシリコスクリーニングの特徴は、その基本原理から適用範囲が毒性(安全性)のみならず、創薬に関係する全ての特性に適用可能であるという点です。化学多変量解析/パターン認識(ケモメトリックス)によるインシリコスクリーニングではその予測対象として薬理活性、ADME、毒性(安全性)、物性等の一連の創薬に関係する全ての特性を予測対象とするjことが可能です。一つの基本的なアプローチで多くの種類の特性を予測できることは、予測項目単位に予測手法を変えることと比較した時、大きな利点を持ちます。この点でも、化学多変量解析/パターン認識(ケモメトリックス)によるインシリコスクリーニングの優位性が際立ってきます。
この事実から、インシリコデータは化学多変量解析/パターン認識(ケモメトリックス)技術の長期にわたる経験やノウハウ、そして新たに開発された技術を融合し、会社としての最終目的となる「並列創薬(Parallel drug design)」を提唱します。さらに、「並列創薬」における個々の特性予測が完全(100%)となった時に実現する「一段階創薬(One step drug design)」の実現を目指して継続的に研究努力を続けます。
文責:株式会社 インシリコデータ 湯田 浩太郎
2013/01/03
新年明けましておめでとうございます:Happy New Year! May this year will be happy and fruitful.
新年明けましておめでとうございます。今年も、インシリコ創薬関連研究のさらなる展開目指して頑張りますので、皆様のご支援をお願いいたします。
◆インシリコ創薬関連研究
(In silico drug design related research works)
1.「一段階創薬(One step drug design)」を目指した、「並列創薬(Parallel drug design)」の
改善研究
2.「統合概念(Integrated concept)」に基づいた「統合インシリコスクリーニング(Integrated
in silico screening)」の改善研究
3.「実験動物代替法(Alternatives to animal experiments)」 を目指した、インシリコ
スクリーニング手法の改善研究
4.毒性のない化合物の展開や規制を目指したインシリコ毒性スクリーニングの展開研究
◆KY(K-step Yard sampling methods)法のさらなる展開と
適用事例の拡大
(Further deployment of the KY method, and expansion
of an application example)
1.KY法のさらなる展開研究:クラスタリング、マッピング、要因解析、等々
2.KY法の適用分野の拡大研究:様々な適用分野への拡大
3.KY法の普及に努める
文責:株式会社 インシリコデータ 湯田 浩太郎
◆インシリコ創薬関連研究
(In silico drug design related research works)
1.「一段階創薬(One step drug design)」を目指した、「並列創薬(Parallel drug design)」の
改善研究
2.「統合概念(Integrated concept)」に基づいた「統合インシリコスクリーニング(Integrated
in silico screening)」の改善研究
3.「実験動物代替法(Alternatives to animal experiments)」 を目指した、インシリコ
スクリーニング手法の改善研究
4.毒性のない化合物の展開や規制を目指したインシリコ毒性スクリーニングの展開研究
◆KY(K-step Yard sampling methods)法のさらなる展開と
適用事例の拡大
(Further deployment of the KY method, and expansion
of an application example)
1.KY法のさらなる展開研究:クラスタリング、マッピング、要因解析、等々
2.KY法の適用分野の拡大研究:様々な適用分野への拡大
3.KY法の普及に努める
文責:株式会社 インシリコデータ 湯田 浩太郎
2012/09/19
化学データ解析。こんな時どうするの?リスト:How do you do for those data analysis and chemical conditions ?
◇データ解析実施時の様々な状況:
Various situations that should be solved before the data analysis executed
データ解析を実施する時、様々な状況に遭遇します。 信頼性の高いデータ解析を行うには、これらの起こりうる問題について正しく対応/処理しなければなりません。 私のブログにて、一部ではありますが既にこれらの問題点に関する記述と、留意点や対応の仕方をまとめてあります。
以下に示される様々な問題は、データ解析を正しく行う上で解決すべき重要な項目です。 しかし、多変量解析/パターン認識の実行においては、データ解析手法そのものの理解が優先され、データ解析を実行する上で問題となるこれらの事項はあまり気にしないか、ないがしろにされているのが現状のようです。 実際、これらの事項が無視されても、データ解析自体は実行され、結果は出てきますので・・・。 しかしこの場合、データ解析結果の保証はありませんが・・・。
データ解析はデータを入れて実行すれば終わりというものではありません。 様々なデータ解析手法を実行するソフトウエアは多数あり、簡単に手に入ります。 しかし、これらのソフトウエアで提供されるデータ解析手法を正しく実行し、信頼性の高いデータ解析を実現するためには、データ解析実行前や途中で発生する様々な問題を解決する事が必要です。 正しく、かつ信頼性の高いデータ解析を行ない、その結果を解析してさらなる活動や研究につなぐ。 これが、データ解析を行う上で最も重要な事項となります。
以下にリストアップされている様々な事項は、実際にデータ解析を行おうとすると、データ解析実施前に真っ先に解決しなければならない問題です。 これらの問題点に対処することなく、単に「データがあったからソフトウエアを実行した」というような表面的なデータ解析を行なうと、多くの場合は真に求めたい結果ではなく、フェークな解析結果となり、これらに翻弄されてしまいます。 このようなことに陥る前に、正しくかつ信頼性の高いデータ解析を行う事を心がけてください。 手法の理解も大事ですが、その手法の効果を100%出し切るようにデータ解析を行なう事も極めて大事なことです。 以下に示される様々な問題点を解決し、間違いが無いようにするための知識や理解を深めておくことが、安心してデータ解析を行うための重要なポイントとなります。
◇リスト
1.サンプルに関する様々な問題
1-1.サンプル数が少ない時
1-2.サンプル数が多い時
1-3.データサンプリングの重要性
1-4.ネガサンプルの重要性
2.パラメータ数に関する様々な問題
2-1.パラメータ数が少ない時
2-2.パラメータ数が多い時
3.欠損データの扱いは?
3-1.欠損の割合
3-2.種々補完法
4.最小サンプル数は?
5.サンプルポピュレーションの偏りはどう解決するの
5-1.クラスポピュレーションの限界比率は
6.予測率向上の手法とは
6-1.サンプルの小グループ化
・類似サンプル群
・グループ分け(官能器群等)
6-2.データ解析手法上での工夫
・線形から非線形へ
・コンセンサス法
・「テーラーメードモデリング」
・KY法(二クラス分類およびフィッティング(重回帰))
7.分類率と予測率の関係
7-1.分類率 >= 予測率
7-2.クロスバリデーションと外挿
8.線形問題と非線形問題
9.手法間連携
9-1.意味ある連携
9-2.意味のない連携
10.サンプル数が少ない時に安心してデータ解析を行うには
10-1.限界数以下(計算自体が出来ない)
10-2.2サンプルを用いた重回帰
11.パラメータからの情報読み込みと情報量・分類性
11-1.パラメータの種類
11-2.プログラムにより値が変わる(LogP等)パラメータ群と
値が変わらない(MC等)パラメータ群
12.クラスタリングの特徴と限界
12-1.様々な条件によりクラスタリングの結果が大きく変わることへの対応
13.次元減少、圧縮、変換、分解等の特徴と使い分け
14.特徴抽出(パラメータ選択)の意義と手法
14-1.特徴抽出の意義
14-2.主たる特徴抽出手法
(a)パラメータとしてのチエック
(b)統計的原理や手法を用いたアプローチ
(c)最適化法等を利用したアプローチ
(d)データ解析の種類により異なる特徴抽出アプローチ
(e)データ解析手法での個別特性に特化したアプローチ
15.矛盾データの扱いと発見
16.パラメータの桁数の違い(オートスケーリング:正規化(normalization))
17.ウェイトベクトルの読み方
18.パラメータ同士の演算(演算パラメータ)
19.過剰適合
20.過剰適合とチャンスコリレーションの違い
21.クロスバリデーション(リサンプリング)手法と意義
22.サンプル抽出(外れサンプルの扱い、データの品質)
23.ネガティブサンプルの重要性
24.同値(同じデータ)サンプルが複数入った場合
24-1.重みが変わる時と変わらない時(LLM等)
25.パラメータデータが不均衡の時(1/0 データで片方が数%しかない時等)
25-1.全サンプル内でパラメータデータの割合が不均衡な場合
25-2.クラス内でパラメータデータの割合が不均衡な場合
25-3.クラス内のサンプルデータが全て同じ値の時
26.連続変数でも、データが無い時は0になる場合の扱いや不均衡度
27.分野(化学)特有の問題
27-1.幾何/立体異性体
27-2.互変異性体
27-3.ニトロやニトロソの表現
27-4.塩や含水(溶媒)化合物の扱い
27-5.芳香族の扱い
27-6.三次元構造の問題
27-7.ポリマー等
28.サンプルデータの重複(同一化合物が同一活性、同一化合物が複数(矛盾)の活性)
29.データ解析指標はどのようなものがあって、どの程度の値が出ていればいいの?
29-1.二クラス分類
29-2.フィッティング(重回帰)
30.マッピング手法の違い
31.一元一項対応と一元多項対応問題
32.異なるプロトコルによる実験データの扱い上での注意と考え方
32-1.細かな実験条件の違うサンプルデータの扱い(マージ、スプリット)
32-2.マージを進める上での留意点と考え方
32-3.スプリットを進める上での留意点
33.多クラスデータ解析の二クラス分類手法での扱い
33-1.多クラスサンプル群の二クラスでの扱い
34.統計、多変量解析およびパターン認識の違い
今後、ここに掲載された内容に関してより細かな解説を行なってゆきます。 また、ここで討論される解決手法は絶対的なものではありません。 もっと良い方法があるかもしれません。 それは、データ解析を行なう研究者の方々が個別に考えて対処してください。
編集および湯田の都合上、掲載等の順番が上記リストと異なったり、掲載内容の重複や組み合わせ、また掲載時期も不規則になるかと思いますが、この点お許しください。 また、ここに掲載されたリストは、あくまでも暫定版です。 今後、上記のような項目がさらに追加されると思います。 化学データ解析に関心のある研究者の方々は、時々本ブログをチエックしていただければと思います。
ここで示された項目は、化学多変量解析/パターン認識の実行時に知っておく、解決すべき事項です。 もちろん、データ解析実施主体としての多変量解析/パターン認識に関する個々の手法に関する知識も必要です。 しかし、これらに関する情報はWEBや書籍等に多数記載されていますのでそちらを参照してください。
また、実際の現場でケモメトリックスという観点で化学多変量解析/パターン認識を実行しようとする場合は、上記留意点の他に、対象分野の知識、計算機化学/計算化学、コンピュータ等の関連技術について専門家レベルは必要ありませんが、ある程度の基礎知識程度は知っておいた方が良いでしょう。 でなければ、処理を間違って変なパラメータを作成したり間違った解釈をしたり、さらには無意味な操作を行なう、あるいはシステム内部で行なわれている処理の意味を理解せずに省略したりという、本人が気付かないで見過ごしてしまう様々な危険性が高まります。
文責:株式会社 インシリコデータ 湯田 浩太郎
2012/09/13
EuroQSAR2012参加報告(1):Report of the poster presentation on the EuroQSAR2012
◆ 第19回EuroQSAR2012参加報告:
8月26日から30日にかけてオーストリアのビエナ(ウイーン)で開催されたEuroQSAR2012に参加およびポスター発表を行いましたので報告いたします。
EuroQSARは二年ごとに開催される欧州を中心とした構造-活性相関(QSAR)および創薬に関する国際学会です。 現在、QSARに関する大きな国際学会は他に存在しないので、本シンポジウムは事実上世界最大の構造-活性相関関連国際学会となります。
前回の第18回EuroQSAR2010は2010年にギリシャのロードス島で開催されました。今回は第19回目となりオーストリアのビエナ(ウイーン)のウイーン大学で開催されました。ちなみに次回の第20回EuroQSAR2014はロシアのサンクスペテルブルクにて開催予定です。
以下では、今回のEuroQSAR2012で私が感じた内容につきまして簡単にまとめます。
◇EuroQSARでの主たる討論議題とその傾向:
QSAR、 ドッキング、 インシリコスクリーニング
現在のEuroQSARでの主たる討論議題はドッキング手法による薬理活性向上を目指した創薬研究となります。 今回のEuroQSAR2012では、QSARの創始者であるHansch先生が昨年の5月に逝去されましたので、Hanschメモリアルが特別セッションとして設けられ、QSARに関する様々な講演がありました。 残念ですが、QSARのルーツであるHansch-Fujita法に関する研究発表は年々少なくなり、これに代わりドッキングによるアプローチの議論が増えました。 ドッキング自体も、当初は手法的な議論が主体でしたが、手法的な技術が完成に近付くにつれ、ドッキングの主たるテーマは高速バーチャルスクリーニングに重点が変わってゆきました。 現在のドッキングにおける主たるテーマは、ADMEへの適用拡大等の研究となっています。最近の顕著な傾向として年々増えている発表が、インシリコスクリーニングに関するテーマです。 これも当初は、ドッキングによる薬理活性主体の高速スクリーニングに関する発表が中心でした。 しかし、創薬の関心が薬理活性のみならずADME/T/Pにもシフトしてくるのに従って、徐々にドッキング以外の技術によるアプローチ、特に化学多変量解析/パターン認識によるケモメトリックス主体のアプローチが増えてきました。
*薬理活性スクリーニングから、ADME/T(毒性)/P(物性)スクリーニングへ
化学多変量解析/パターン認識手法によるインシリコスクリーニングが増えてきた大きな原因は、スクリーニング対象が薬理活性から、ADME、毒性(安全性)そして物性等にも広がってきたことが大きな原因です。 ドッキング手法は基本原理から薬理活性のみを対象としたアプローチであり、薬理活性以外のADME、毒性(安全性)、物性等を対象としたインシリコスクリーニングへの適用は困難であり、特に毒性や物性への適用は基本原理より実施出来ません。 このために、薬理活性はもちろんのこと、薬理活性以外の諸特性にも適用可能な手法としての化学多変量解析/パターン認識手法によるインシリコスクリーニングが注目を浴びています。
◇インシリコスクリーニングでの展開
EuroQSAR2012でも、薬理活性のみならずADME/T/Pを含めたインシリコスクリーニングへの研究テーマが急速に増えており、発表の数のみならず、研究の幅そのものの広がりを強く感じるようになりました。1.サンプル関連の拡充と広がり
今回の発表で感じたのは、インシリコスクリーニング実施上での環境整備への広がりで、基本となるサンプルデータ関連の環境がWEB上でのデータベース構築や一般公開というように、より大きな広がりを持つようになってきたことです。 創薬分野でもサンプル群の扱いや収集等が大きな問題となり、多数で高品質、かつ多様性のあるデータソースが求められるようになっています。 サンプル群の収集という観点ではインターネットを介したWEB上での展開が最も効率的で、広がりを持つという点で現在の技術としては最も効率的であり、これらを目指した発表が見られました。但し、私の毒性インシリコスクリーニングの経験から述べると、サンプルの集積も大事であるが、サンプルデータの質がもっと重要であり、この点での考察、例えば実験プロトコルの統一や充実、サンプルデータの評価基準や手順等の拡充が重要と考えます。
HTSやコンビナトリアルケミストリーが広く普及した現在、創薬研究分野も多数のサンプル群を扱うビッグデータ時代に突入するのも時間の問題と考えられます。 今後は、単なるデータ集積から、集積データの品質が問われ、その後はビッグデータを活用するデータ解析技術の展開が大きなテーマとなるでしょう。今後のこの分野での展開が楽しみです。
2.インシリコスクリーニングに関する技術関連の展開
ここではドッキングによる薬理活性インシリコスクリーニングに関する話はしません。 薬理活性も含めたADME、毒性および物性に関するスクリーニングを行う化学多変量解析/パターン認識(ケモメトリックス)によるインシリコスクリーニングに関する発表について感想を書きます。その前に、化学多変量解析/パターン認識(ケモメトリックス)によるインシリコスクリーニングという言葉や研究にあまり親しみのない方のために、簡単にその歴史をまとめます。
なお、ケモメトリックスは分野を超えた総合的な研究分野(化学、コンピュータ、データ解析、適用専門分野、等々)となります。 このため、ケモメトリックスを構成する基本技術は様々な分野に及び、その適用分野も様々な研究分野に及びます。 日本で、このような多種多様な研究分野を総合的にまとめて教育を受ける場やチャンスは殆ど無いと思います。 これらの技術的な詳細は、インシリコデータのホームページに、ケースバイケースで記述しておりますので、ご参照ください。
*化学多変量解析/パターン認識(ケモメトリックス)によるインシリコスクリーニングとは?
多変量解析/パターン認識によるインシリコスクリーニングの基本技術はケモメトリックスと呼ばれるもので、歴史的には古くから実施されてきました。 化学分野に多変量解析/パターン認識の技術を本格的に導入した最初の研究は機器分析の分野で実施され、Isenhour,Jurs及びKowalskiの三人により展開されました。
その後Jursは構造-活性相関分野での展開を行い、Kowalskiは機器分析分野での展開を中心に研究活動しました。 ケモメトリックス(日本語での正式な訳語は「化学計量学」と呼ばれています)という言葉はKowalskiとスエーデンのUmea大学のWold(SIMCA法を開発し、その後PLS法を開発)により定義され、一つの新しい研究分野となりました。
一方、Jursは化学多変量解析/パターン認識による構造-活性相関の展開を行ない、毒性研究を中心に展開しました。 しかし、毒性分野でのインシリコ(コンピュータ)需要は当時の状況では大きくなく、その後は構造-活性/毒性相関研究と物性や機器分析分野での研究と半々程度の割合で研究を継続しました。
しかし、この間の研究で創薬関連分野での多くの特徴や特性を経験し、これらの諸問題を解決するための基礎技術の多くを開発しました。 例えば、機器スペクトルデータと異なり構造-活性/毒性相関分野ではサンプル数が極端に少ないこと。 あるいは化合物情報を細かに取り出すためのパラメータの開発。また、パラメータ数が大きくなるので過剰適合や偶然相関を防ぐための強力な特徴抽出手法の開発等々です。 通常の多変量解析/パターン認識研究分野では、これらの事象は殆ど発生する事がないので、対応する必要がありません。この結果、これらの問題に対する対応策はあまり情報が無く、まともに討論、開発されていないのが現状です。 これらの、化学、創薬、毒性研究塔を行なう上で解決しなければならない様々な問題に関する解決技術がJursにより精力的に展開されました。
Jurs研究室で開発されたこれらの基礎技術を取り入れたコンピュータシステムとして、ADAPT(Automated Data Analysis by Pattern recognition Techniques)が開発されました。 このシステムは、当時の技術の最先端を行くもので、ディスプレイ上で化合物構造式を直接扱う事が出来、かつ対話的に化学データ解析研究を行う世界初の化学多変量解析/パターン認識による構造-活性相関支援システムとなりました。
私はJurs教授の下に留学し、リサーチアソシエートとして二年間働き、このADAPTの部分開発を担当しつつ、ADAPTを用いた発癌性予測に関する研究を行ないました。 当時、日本では殆ど自由に使う事が出来ないミニコンを用いて、毎日最新のデータ解析を行えることが本当にうれしく、充実した日々を送ることが出来ました。 帰国の時にはJurs教授より自分の研究に使って良いということで、ADAPTのソースコードを日本に持ち帰ることが出来ました。 その後、大学から富士通に移り、Jurs教授の許可を得て富士通の汎用コンピュータ上にADAPTを移植しました。 この時はミニコン上のプログラムを汎用機上で稼働させるという事で、多くの富士通の方々の技術的な支援を受けて移植を完了させることができました。
*化学多変量解析/パターン認識は、その基本原理から薬理活性やADME/T(毒性)/P(物性)等の全ての項目をターゲットとしたインシリコスクリーニングへの適用が可能
現在、この化学多変量解析/パターン認識(ケモメトリックス)によるインシリコスクリーニングが注目を浴びつつあります。 これは、現在大きな問題となりつつあるADME、毒性および物性の分類、予測、評価を行う事が出来るためです。
化学多変量解析/パターン認識でも当然ですが薬理活性を扱う事は可能です。 しかし、研究を開始するのに様々な基礎知識と技術が必要であり、また多くの創薬研究者にとり多変量解析/パターン認識はあまり親しみの無い学問です。 このために、化学多変量解析/パターン認識(ケモメトリックス)による創薬研究アプローチは敬遠されてきました。 結果として、昔はHansch-Fujita法、その後はドッキング等、創薬研究者が比較的取り組みやすく、かつ理解しやすい手法が薬理活性研究の主体となってきました。
しかし、時代が大きく変化し、創薬研究、特にスクリーニング対象項目が薬理活性のみならず、ADMEや毒性(T)そして物性(P)等に変化する事で、これらのインシリコスクリーニング研究分野での化学多変量解析/パターン認識(ケモメトリックス)の適用が必要となりました。
*EuroQSAR2012での化学多変量解析/パターン認識によるインシリコスクリーニング関連発表
化学多変量解析/パターン認識によるインシリコスクリーニングを実施するためには、その基礎技術は多岐の分野に及ぶことを意識する事が必要です。 これはケモメトリックスという研究分野が多くの基礎技術から形成されるためです。
化学多変量解析/パターン認識によるインシリコスクリーニングを実施する上で必要となる技術や知識は大きく3種類存在します。 この他にも、化学とコンピュータを結び付けるコンピュータケミストリーの技術も重要になりますが、デフォルトの事項として省きます。
1.化合物を数値データ(パラメータ)に変換する技術
2.多変量解析/パターン認識に関する技術
3.ターゲットとなる薬理活性/ADME/毒性/物性に関する知識
EuroQSAR2012での発表は3を除いた、上記の1および2に関する発表が中心となります。 それぞれの研究分野で発表がありましたが、技術的にブレークスルーと思われるアプローチは残念ですがあまり見られませんでした。 化学多変量解析/パターン認識の手法的には従来からのデータ解析手法が用いられていました。 もちろん、ADMEや毒性スクリーニングでの予測精度向上のためにコンセンサス手法を取る等の工夫はされていましたが、特に大きな精度向上につながった例は報告されていませんでした。
私の経験では、特に毒性分野での分類および予測は、
(1)対象サンプルの構造変化性が極めて高いこと、
(2)扱うサンプル数が多くなること、
(3)高い分類/予測率の達成が求められる
という以上の三つの関門を突破する事が必要です。 私の従来からの経験では、これら三つの問題を従来から展開されている多変量解析/パターン認識手法をそのまま適用すること、さらにはどんなに工夫して優れたパラメータ等を開発しても、良好な結果を得ることは殆ど出来ないと感じています。 そのために、これらの毒性分野特有の諸問題を解決する全く新しいデータ解析手法としてKY(K-step Yard sampling)法を独自に開発しました。
3.ポスター発表に関しての感想
今回私は「NEW APPROACH FOR QSAR AND QSTR TREND ANALYSIS ON LARGE SAMPLE DATA SET BY THE KY-METHODS」のタイトルで発表してきました。発表の趣旨ですが、私が開発したKY法は極めて多数のサンプル群の完全(100%)分類を実現するのみならず、QSAR的な、より精密な議論が可能になるという報告です。 このような精密な議論が可能となるのは、KY法の実施過程で対象サンプル群がきれいにポジおよびネガサンプル群にクラスター化され、かつ階層的に分類されるためです。従来手法によるデータ解析では、特に多数のサンプル群を扱う場合は一回のデータ解析で全てのサンプル群を対象として解析するために、完全分類実現には程遠く、サンプル数が多いために情報の整理が出来ないため、QSARレベルでの厳密な要因解析を行う事は殆ど不可能です。
私のポスターでは前回のEuroQSAR2010での発表時と異なり、明らかに多くの研究者の方が聴きに来られました。 前回のKY法のデビューとなる発表では、完全(100%)分類実現という話を聞いても半信半疑という感じだったのですが、今回の発表では真剣に討論していただけたし、討論内容もより具体的なものへと明らかに変化していました。 その代表的な変化が、実際にシステムを用いて試してみたいという研究者が現れたことです。 また、私は覚えていなかったのですが、フランスの先生には「あの二本の判別関数を用いて分類する手法を開発した人ですね」と、声をかけてくれていただきました。 KY法の特殊なアプローチは記憶に強く残るようです。このように、今回のEuroQSAR2012では、KY法が徐々に認知度を増している様子を実感しました。
次は、会場となったウイーン大学やウイーンの様子等について報告いたします。
文責:株式会社 インシリコデータ 湯田 浩太郎
2012/08/22
「最少サンプル数」に関する特許が日本で承認されました:The new technology about "the number of the minimum samples" was patented in Japan.
◇多変量解析/パターン認識における、「最少サンプル数」に関する特許が日本で承認されました
本特許は、サンプル数が少ない条件下に行われる多変量解析/パターン認識によるデータ解析の解析信頼性を保つための手法に関する特許です。
一般的に多変量解析/パターン認識を用いてデータ解析を行う場合、利用可能なサンプル数が少なくなってくると「チャンスコリレーション(偶然相関)」や「オーバーフィッティング(過剰適合)」等の問題等が顕著となり、データ解析そのものの信頼性が急激に低下してきます。 本特許はこのように、サンプル数が少ない時のデータ解析を安全に実施出来るようにするための操作技術に関する特許であり、この意味では基本特許となります。
サンプルデータを集めることが極めて困難な研究分野の場合、多変量解析/パターン認識によるデータ解析を行うには多くの場合困難が付きまといます。 本特許は、サンプル数が少ない場合であっても安心してデータ解析を実施する技術に関するものです。
サンプルの総数が大きい場合であっても、例えば「KY法」を実施すると、ステップ(個々の繰り返し操作)数が大きくなり、最後のステップ近くになるとサンプル数が急激に減少し、解析に利用できるサンプル数が少なくなります。 この点で「KY法」を実施する場合、最終ステップに近づいてくるとデータ解析そのものの信頼性が落ちてくることになります。 このために「KY法」実施において、最後の方のステップではこのような問題を避けるべく最新の注意を払ってデータ解析を行う事が必要となります。 本特許はこのような場合にも適用可能であり、「KY法」の実施をより安全かつ容易にする特許となります。
◇ より具体的にはどのような特許ですか?
サンプルの絶対数が小さい時、データ解析実施上での禁じ手である「チャンスコレレーション」や「過剰適合」が発生しやすくなり、信頼性の高いデータ解析を実施することが困難となります。 本特許は、このようにサンプル数が小さい時でも安心してデータ解析を行えるように環境を整える手法に関する特許です。
サンプル数が少ないという事は、多変量解析/パターン認識を行う場合には様々な観点からデータ解析の信頼性に関する問題が出てきます。 この結果、データ解析自体が出来なくなる、たとえデータ解析が出来たとしてもその解析結果の信頼性が低くなる、等々の問題が発生し、先に説明しました「チャンスコリレーション」や「過剰適合」自体の問題も顕著化してきます。
本特許は、サンプル数の絶対数が小さい時に行う多変量解析/パターン認識によるデータ解析のデータ解析信頼性を高度に保つようにすることに関する特許です。
これらの問題に対して、仮想サンプルの創出という手法でサンプル数の問題を解決します。 つまり、サンプル数が少ないのであるから、サンプル数を追加してデータ解析を行うというものです。 この場合のサンプル追加に関する様々なテクニックをまとめて特許としたものです。
内容に関しましては、今後時間がある時にまとめて本ブログにアップします。
文責:株式会社 インシリコデータ 湯田 浩太郎
登録:
投稿 (Atom)