インシリコデータ株式会社関連ブログ;Blog of the In Silico Data Ltd..

 ようこそ(株)インシリコデータブログへ。このブログでは、主としてインシリコデータのホームページでは直接編集できない細かな内容をフォローいたします。本ブログ内容等に関する質問/要望/意見等はこちらのブログか、インシリコデータのコンタクトアドレス(insilicodata.contact@gmail.com)にメールをいただければ幸いです。
 なお、一部で著者の私的な情報に関する掲示板としても本ブログを利用いたしますが、この点お許しください。
 In this blog, I discuss and write various themes which I cannot edit on the
homepage of the In Silico Data. This blog also partly include a little personal themes.

2013/02/18

学会発表/パンフの値と実際の実験の値の差。その2:Differences between experimental value and value of the presentation at the meeting / pamphlet. The second report.

◇学会発表やパンフレットで使われている分類率、予測率、相関係数、決定係数の指標はどうして高い値が多いのかなーー?
その2
 Why the value that a classification rate, a predictive rate, a coefficient of correlation and determination used by a presentation at the meeting and a pamphlet shows so high and excellent value? The second report.

 以前、上記タイトルで本ブログに書かせてもらいました。

 前回のレポートではデータ解析の特殊な利用あるいは操作を行なう事で、高い相関係数や決定係数を作為的に実現できることを示しました。この時、特に書きませんでしたが、これらの問題以外にもパンフレット値と実際の計算値のギャップを大きくする要因が、システムを利用するという立場とシステムを開発するという全く正反対となる二つの立場の違いによって引き起こされます。また、化学というアナログとコンピュータというデジタルとのギャップという観点での議論も出来ます。今回は、これらの点についてまとめてみます。実際は、さらにこれら以外の要因もギャップの形成に影響しているのですが、今回は省略します。

 システムを利用するというユーザの立場で考えると、システムを利用する場合の留意点や工夫すべき点が浮かんできます。システムの効率が最大になるように利用者が留意すべき点等、以下にまとめる内容を思い浮かべながらシステムの扱い方等について考えてみてください。すると、なぜ公表値と自分が行なう実行結果がこうも違うのかについて、ある程度理解できると思います。

◇システム開発側と利用するユーザとのすれ違い

 システムを利用する場合、常に以下の諸問題について理解しておく事が必要です。理解がなければ、パンフレット値と自分の出した値の大きな差異に驚くことでしょう。システムが公表するパンフレットの公表値は、常にベストの条件下にある「瞬間風速」であるという事を意識しておいてください。極端な場合、同じ化合物を用いてもAさんとBさんで結果が異なる事もあり、たとえパンフレットの中で使ってある化合物であっても結果が異なるという結果を招きかねません。

 この問題はシステムの扱う問題が化学に関する問題であるという事から発生します。留意すべき点はいろいろありますが、全て説明すると大変なので、ここでは典型的なことを例にとり簡単にまとめます。この内容から、他の事象について考えてください。

 システムを開発する立場にいると、アナログである化学とデジタルであるコンピュータとの橋渡しを常に考える必要があります。この情報変換が正しく行なわれているか。さらには、利用者が変わっても情報が正しく伝えられるか。また、アプリケーションとしての整合性も整えることが求められます。これらの様々な要求に答え、かつ様々な問題点を解決する事が必要になります。以下に、化学上の問題をデジタルであるコンピュータ上に乗せるための留意点を化合物構造式を扱うという観点で典型的な事例を例にとり、簡単にまとめます。

*化合物構造式の取り扱い関連
 化学システムである以上、化合物のシステムへの入力が必要です。一般的に我々が二次元構造式を書けば、上手に書く人や、形がゆがんでしまう人、上下関係が逆であったり、さらには裏表が逆だったりします。しかし、人間は利口なので、このような様々な形の化合物構造式を見ても、同じ化合物であるという事を認識します。
 でも、コンピュータはどうでしょうか。もし、これらの化合物を異なる化合物として認識すると、当然実行結果が異なってしまいます。検索しても期待した化合物が出てこなくなるし、パンフレットにあるような値がでない、あるいは間違った答えとなるという事になります。

・二次元、三次元構造式のシステムへの入力時の扱い
(内容により、パンフレット値と実行結果に大きな差が出ることがあります)
 化合物の構造式は全く同じ化合物であっても、「絵」としての構造式は書く人により異なります。構造式をきれいに書く人と下手に書く人、上下逆さまに書く人や裏表を逆に書く人等、全く同じ化合物が書く人によりルックアンドフィールが全く異なってきます。
 化学システムは入力者の違いや書き方の違いを吸収する事が必要ですが、システムの利用目的や、二次元/三次元構造の違いなどでシステムの対応に差異があり、利用目的の違いによる機能的な限界も出てきます。

・化合物構造式の書き方による、システム実行への影響
 先に述べた化合物構造式の作図上の問題だけでなく、化学には厄介な問題があります。全く同じものが、異なった複数の書き方で書かれ、両方ともに正解となる場合があることです。典型的な例はニトロ基で、イオン型と非イオン型の表記があります。また、良く知られた有名なものではケト・エノール互変異性体がありますし、芳香族の表示も、共役型と非共役型があります。
 システムの機能により変わりますが、これらを同じ置換基として認識するソフトと、別の置換基として認識するソフトがあります。この差はシステム開発者の思想やシステムの適用分野や目的により変わります。この事実を知らないと、ユーザが使ったときに期待する結果が得られないという事になります。

・二次元/三次元構造式の扱い
 先の問題は化合物の二次元/三次元を扱う時、特に頻繁に生じます。二次元で入力された場合、書く人により形が異なります、これを三次元に立ち上げると、異なった三次元構造式となってしまいます。このようなことが起きないようにプログラムではいろいろな工夫が払われていますが、システムにより程度の差があります。この事実も知っておくべきことです。化合物の三次元構造式を扱うために、いろいろなコンピュータソフトウエア技術が展開されています。立体化学の扱いも、プログラムの利用目的等で基本が変わりますので注意が必要です。

・プログラムのデフォルト設定(データの再現性に関する問題)
 量子化学計算は、解析結果の説明がしやすく、データの値も細かく出ますので、詳細な議論が出来ると考えられますが、その扱いにおいてはかなりの注意が必要です。例えば、計算時の軌道関数、最適化の繰り返し回数、ストップさせる時のエネルギー値、ローカル/グローバルミニマ、他等の様々な設定が存在し、これらは同じ条件でなければ同じ値は出てきません。これも、パンフレット値と実行値の差が出る原因となります。

◇誤差が大きくなり、追試が出来なくなるという問題

 前記のような様々な問題が解決されなければ、パンフレット値と実行値の値が違ってくるのは当然です。理論化学計算を行なうと、議論が厳密に行なわれているように感じます。しかし、対象となる化合物系の構造式が複雑になってくると、前記の様々な問題の誤差が積み重なり、差異が大きくなります。極端な場合、パンフレットや学会発表等の結果の追試が出来なくなるという事になります。

◇システム利用する時の注意点

 化学システムを利用する場合は、システム開発者のみならず、システムを利用する側にも十分な考慮や留意が必要であることを改めて認識してください。すると、パンフに書かれている公表値との差が大きくなる点に関してある程度理解できますし、完全ではなくとも対策を考えることも可能となります。
 繰り返しになりますが、システム利用者は、化学というアナログの情報をコンピュータというデジタルで処理する場合の様々な問題点を意識しつつ実行する事が大事です。注意しますが、以上の事実はプログラムのバグではありません。システムが正しく動く上での、化学とコンピュータの適合性の問題なのです。
 一方で、システム開発者は可能な限りアナログとデジタルの差異をユーザに意識させずに、正しい解析を実行できるように機能を備えることが必要です。ユーザは、そのような問題を意識することなくシステムを利用し、無条件に実行結果を信用するのですから。


文責:株式会社 インシリコデータ 湯田 浩太郎

2013/02/07

医療診断におけるスタートレックスタイル技術とゴジラスタイル技術:Medical diagnosis by the Star Trek technology and the Godzilla technology

◆医療診断における技術の進歩について:

About progress of the technology on medical diagnoses


 医療分野における診断技術の進歩が著しいようです。医療診断には大きく物理的、化学的および生物的の3分野がありますが、これらそれぞれの分野で検査技術が急激に進歩していることが大きな理由のようです。ここでは、化学検査における診断技術で最新の分析技術を用いた診断(スタートレックスタイル)と、私の記憶にある従来からのアナログ的な技術(ゴジラスタイル)における診断について個人的となりますが、感想を以下にまとめます。

◇最新のスタートレック(Star Trek)技術と、従来からのゴジラ(Godzilla)技術:

Newest Star Trek technology and traditional Godzilla technology on diagnosis of breath


 人の吐く息を分析して病気の診断をするという研究が進んでいるそうです。

 呼気を分析して診断するというのは素晴らしい発想だと思います。もし成功すれば、今までとは全く異なる診断ルートや手法を開発することになるので、新しい分野が開けてきます。大きなインパクトがあります。診断の基本原理はメタボロミクスにおける尿や血液の代わりに呼気が用いられたと考えればよいと思います。


・スタートレック型呼気診断 (Star Trek style diagnosis of breath)
 このようなチャレンジが具体性を帯びてきたのは主として機器分析技術の発達によるところが大きいと言えます。先のトピックスにも書いてありますが、特に呼気に含まれる揮発性有機分子(VOC)の割合が100万分の1から1兆分の1になる(parts-per-million (by volume) to parts-per-trillion range)。これがリアルタイムで分析可能なようになってきたという技術の進歩が大きいと思います。
 研究者はこの技術はスペクトル解析技術のRAFT(real-time air fingerprinting)が基本であり、非侵襲性(non-invasive)で高速診断になるということで説明しています。確かに、記事の写真を見るとStar Trek的な雰囲気が出ています。

・ゴジラ型呼気診断(Godzilla style diagnosis of breath)
 この記事を見て思い出すのは、呼気を用いて診断するという発想は昔もあったという事です。私が最初に知ったのは、呼気を調べて肺がんの診断を行うというアプローチでした。当時は分析技術が進んでいなかったので、犬を用いて肺がん患者特有の呼気を学習させ、肺がんの可能性があると反応(吠える等?)させるというものでした。もっとも、これが実用化されたとは聴いておりませんが・・・。何か、犬が診察室にいて患者の呼気のにおいを嗅いでいるという状況は????ですね。
 ただ、当時感じたのは呼気も他の診断要素と同じように使えるのだという事でした。医者の診断は問診、患者の様子、外見、血液や尿の化学検査、超音波やX線やMRI等の画像診断と様々な情報を利用しますが、呼気もその一つになりうるという事でした。ただ、当時は分析技術が呼気診断が出来るほど進んでいなかったので、犬の嗅覚を利用するという事で、結構真面目に取り組むべきことだったのでしょう。
 

◇呼気診断の可能性:

Potency of the diagnosis of breath

 分析技術が発展してきたので、このようなことへのチャレンジも現実化を帯びてきたのでしょう。私自身は、呼気診断の有効性を一つの大きな可能性のあるチャレンジと考えています。メタボロミクス的な考えで見ると、呼気の中にも代謝化合物はVOCとしていろいろ入っているはずです。病気によってこれらのVOCの種類や割合も大きく変化する事は明白ですし、病気の種類によって、O2、CO2、N2等の比率も変わるはずです。

 記事を見ると、診断データを集めるための被験者を集めているとか、分析機器の開発試験になるとか、他にも研究グループがあり、画像診断や体内流体解析を行う等のチャレンジがされているようですね。まさに、Star Trek-style」的な診断手法にチャレンジしている様子が感じられます。
 
 私は呼気診断にはメリットがいっぱいあると思います。もし、CIR-MSPTR-TOF-MSがコンパクトで車に積めるならば、救急車内での先行診断も可能ですし、集団検診等でも威力を発揮するでしょう。これらは、本格的診断の前に行うプレスクリーニング的診断ですが、診断出来る病気の種類も圧倒的に多くなる可能性があると思います。いままで、診断の空白地帯とされてきた現場での高速・簡易診断が開けてくると思います。実用化にはまだまだ時間がかかるでしょうが・。

◇診断実施のためのデータ解析:

Data analysis for the breath diagnosis

 いずれにしても、本研究はメタボロミクスの大きな枠に入ります。本格的に研究が走ればスペクトルのフィンガープリントデータを用いた病人と正常人との比較をデータ解析で行ない、より精度の高い診断を行なえる診断環境を整える必要がでてきます。このような研究でも多変量解析/パターン認識のデータ解析技術が重要となってきます。
 
 犬を使うゴジラ型の診断から、今回のスタートレック型の診断への移行は時代の流れと感じています。


文責:株式会社 インシリコデータ 湯田 浩太郎