その2:
Why the value that a classification rate, a predictive rate, a coefficient of correlation and determination used by a presentation at the meeting and a pamphlet shows so high and excellent value? The second report.
以前、上記タイトルで本ブログに書かせてもらいました。
前回のレポートではデータ解析の特殊な利用あるいは操作を行なう事で、高い相関係数や決定係数を作為的に実現できることを示しました。この時、特に書きませんでしたが、これらの問題以外にもパンフレット値と実際の計算値のギャップを大きくする要因が、システムを利用するという立場とシステムを開発するという全く正反対となる二つの立場の違いによって引き起こされます。また、化学というアナログとコンピュータというデジタルとのギャップという観点での議論も出来ます。今回は、これらの点についてまとめてみます。実際は、さらにこれら以外の要因もギャップの形成に影響しているのですが、今回は省略します。
システムを利用するというユーザの立場で考えると、システムを利用する場合の留意点や工夫すべき点が浮かんできます。システムの効率が最大になるように利用者が留意すべき点等、以下にまとめる内容を思い浮かべながらシステムの扱い方等について考えてみてください。すると、なぜ公表値と自分が行なう実行結果がこうも違うのかについて、ある程度理解できると思います。
◇システム開発側と利用するユーザとのすれ違い
システムを利用する場合、常に以下の諸問題について理解しておく事が必要です。理解がなければ、パンフレット値と自分の出した値の大きな差異に驚くことでしょう。システムが公表するパンフレットの公表値は、常にベストの条件下にある「瞬間風速」であるという事を意識しておいてください。極端な場合、同じ化合物を用いてもAさんとBさんで結果が異なる事もあり、たとえパンフレットの中で使ってある化合物であっても結果が異なるという結果を招きかねません。この問題はシステムの扱う問題が化学に関する問題であるという事から発生します。留意すべき点はいろいろありますが、全て説明すると大変なので、ここでは典型的なことを例にとり簡単にまとめます。この内容から、他の事象について考えてください。
システムを開発する立場にいると、アナログである化学とデジタルであるコンピュータとの橋渡しを常に考える必要があります。この情報変換が正しく行なわれているか。さらには、利用者が変わっても情報が正しく伝えられるか。また、アプリケーションとしての整合性も整えることが求められます。これらの様々な要求に答え、かつ様々な問題点を解決する事が必要になります。以下に、化学上の問題をデジタルであるコンピュータ上に乗せるための留意点を化合物構造式を扱うという観点で典型的な事例を例にとり、簡単にまとめます。
*化合物構造式の取り扱い関連
化学システムである以上、化合物のシステムへの入力が必要です。一般的に我々が二次元構造式を書けば、上手に書く人や、形がゆがんでしまう人、上下関係が逆であったり、さらには裏表が逆だったりします。しかし、人間は利口なので、このような様々な形の化合物構造式を見ても、同じ化合物であるという事を認識します。
でも、コンピュータはどうでしょうか。もし、これらの化合物を異なる化合物として認識すると、当然実行結果が異なってしまいます。検索しても期待した化合物が出てこなくなるし、パンフレットにあるような値がでない、あるいは間違った答えとなるという事になります。
・二次元、三次元構造式のシステムへの入力時の扱い
(内容により、パンフレット値と実行結果に大きな差が出ることがあります)
化合物の構造式は全く同じ化合物であっても、「絵」としての構造式は書く人により異なります。構造式をきれいに書く人と下手に書く人、上下逆さまに書く人や裏表を逆に書く人等、全く同じ化合物が書く人によりルックアンドフィールが全く異なってきます。
化学システムは入力者の違いや書き方の違いを吸収する事が必要ですが、システムの利用目的や、二次元/三次元構造の違いなどでシステムの対応に差異があり、利用目的の違いによる機能的な限界も出てきます。
・化合物構造式の書き方による、システム実行への影響
先に述べた化合物構造式の作図上の問題だけでなく、化学には厄介な問題があります。全く同じものが、異なった複数の書き方で書かれ、両方ともに正解となる場合があることです。典型的な例はニトロ基で、イオン型と非イオン型の表記があります。また、良く知られた有名なものではケト・エノール互変異性体がありますし、芳香族の表示も、共役型と非共役型があります。
システムの機能により変わりますが、これらを同じ置換基として認識するソフトと、別の置換基として認識するソフトがあります。この差はシステム開発者の思想やシステムの適用分野や目的により変わります。この事実を知らないと、ユーザが使ったときに期待する結果が得られないという事になります。
・二次元/三次元構造式の扱い
先の問題は化合物の二次元/三次元を扱う時、特に頻繁に生じます。二次元で入力された場合、書く人により形が異なります、これを三次元に立ち上げると、異なった三次元構造式となってしまいます。このようなことが起きないようにプログラムではいろいろな工夫が払われていますが、システムにより程度の差があります。この事実も知っておくべきことです。化合物の三次元構造式を扱うために、いろいろなコンピュータソフトウエア技術が展開されています。立体化学の扱いも、プログラムの利用目的等で基本が変わりますので注意が必要です。
・プログラムのデフォルト設定(データの再現性に関する問題)
量子化学計算は、解析結果の説明がしやすく、データの値も細かく出ますので、詳細な議論が出来ると考えられますが、その扱いにおいてはかなりの注意が必要です。例えば、計算時の軌道関数、最適化の繰り返し回数、ストップさせる時のエネルギー値、ローカル/グローバルミニマ、他等の様々な設定が存在し、これらは同じ条件でなければ同じ値は出てきません。これも、パンフレット値と実行値の差が出る原因となります。
◇誤差が大きくなり、追試が出来なくなるという問題
前記のような様々な問題が解決されなければ、パンフレット値と実行値の値が違ってくるのは当然です。理論化学計算を行なうと、議論が厳密に行なわれているように感じます。しかし、対象となる化合物系の構造式が複雑になってくると、前記の様々な問題の誤差が積み重なり、差異が大きくなります。極端な場合、パンフレットや学会発表等の結果の追試が出来なくなるという事になります。◇システム利用する時の注意点
化学システムを利用する場合は、システム開発者のみならず、システムを利用する側にも十分な考慮や留意が必要であることを改めて認識してください。すると、パンフに書かれている公表値との差が大きくなる点に関してある程度理解できますし、完全ではなくとも対策を考えることも可能となります。繰り返しになりますが、システム利用者は、化学というアナログの情報をコンピュータというデジタルで処理する場合の様々な問題点を意識しつつ実行する事が大事です。注意しますが、以上の事実はプログラムのバグではありません。システムが正しく動く上での、化学とコンピュータの適合性の問題なのです。
一方で、システム開発者は可能な限りアナログとデジタルの差異をユーザに意識させずに、正しい解析を実行できるように機能を備えることが必要です。ユーザは、そのような問題を意識することなくシステムを利用し、無条件に実行結果を信用するのですから。
文責:株式会社 インシリコデータ 湯田 浩太郎