多変量解析/パターン認識実施時のサンプリングの重要性:
Importance of sampling on multi-variate analysis and pattern recognition techniques
◆ データ解析時におけるサンプリングについてまとめてみます。
サンプリングについてまとめていますが、最近「ノバルティス社のディオバン(バルサルタン)臨床データ捏(ねつ)造疑惑」が大きな社会問題として出てきました。 今回は番外編として、データ解析を行なっている立場からこの件についての感想をまとめてみます。
前のブログで以下のように書かせてもらいました。
データ解析時に最も重要なことは?⇒サンプリング
この事実は、私が何十年と積み重ねてきたデータ解析の経験から見出された最も重要な結論です。 詳細な解説は現在編集中で、今後順に本ブログにアップする予定です。
今回は、私の過去の経験から導き出された「サンプリング」が大事という事項をまとめている最中に、偶然にも「ノバルティス社のディオバン(バルサルタン)臨床データ捏造疑惑」が話題となりましたので、サンプリングとデータという観点で私の感想を述べます。
もともと私が想定していたサンプリングとは、データ解析をスマートに且つ精度/信頼性高く実施するという目的に立つサンプリングです。 今後は、この観点でデータ解析実施時におけるサンプリング上での考慮すべき、解決すべき問題点等についてまとめる予定です。
しかし今回のノバルティス社の問題は、同じサンプリングではありますが、データ捏造という操作によりデータ解析結果をバイアスの強くかかった(自分の目的に都合のよい)結果に導くという、私が想像もしなかった悪しきサンプリングの実例です。 従って、本ブログに掲載する予定である、私の経験から導き出された「正しい解析に導くためのサンプリング」を語る上で今回のノバルティス社の問題についての言及が必須と感じましたので、私の考えを述べさせていただきます。
これは予定外の事ですので、番外編として以下にまとめます。
◇ 二種類のサンプリング(正しいサンプリングと悪しきサンプリング)
データ解析においてサンプリングが重要という事は、正しいサンプリングを行なって得られたサンプルを用いてデータ解析を行なえば、「正しく、信頼性の高い評価結果」が得られるという事です。 この正しい評価結果ということに強いバイアスがかかり、自分の目的に都合のよい評価結果に導こうとすることは、同じサンプリングであっても、あってはならない事です。 しかもこの強いバイアスのかかったデータ解析結果が、査読者を有し、正当な評価活動をするJournalに正々堂々とまかり通り、結果として世界中の研究者に間違った認識をさせてしまうという事実がさらに問題を大きくする原因と言えるでしょう。 Journalが単なる権威づけの道具として利用されており、この点ではJournalも患者同様に大きな被害者です。
◇ 二種類のデータ捏造(正しいデータ捏造と悪意のデータ捏造)
さて、正しいデータ解析を実現するために行なわれるサンプリングと、自分の目的に都合のよい結果が出るように行なうサンプリングは全く別次元の問題です。
しかし、使用目的や内容により、しばしばデータ捏造を意図的に行なう場合があります。 例えば、データ解析手法の特徴や利点/欠点を明確にする目的で、都合のよいデータを意図的に捏造することがあります。 多くの場合は乱数等を発生させてデータを作ります。 このような場合はその事実(捏造されたデータを用いたという)を明確にしますので、これは正しいデータ捏造(正しいサンプリング)となります。
しかし、データ解析結果が今回のように社会的に重要な影響を及ぼすものである場合。 また、特定の利害者団体に利益をもたらすような方向にバイアスをかけたサンプリングである場合。 しかも意図的なサンプリングである事実を明確にしなかった場合、このバイアス実現を目的としたサンプリングはデータ捏造(悪しきサンプリング)という、はっきりとした「罪」となります。
◇ より高い値を求めるために行なうデータ操作のジャックポット
データ解析の本質を知らず、単に見かけ上良い結果を導き出すためだけに一生懸命になっていると、「葉を見て木を見ず」や「木を見て森を見ず」のような事態に陥り、本人に悪気がなくとも結果的に間違ってしまう事は以前のブログで事例を示しながら何度も説明してきました。 実際に、このような危険な解析結果が様々な公的/私的機関から数値データ解析結果として正式に発表されており、多くの人々の目に触れています。
これは、単なる操作の間違いであり、担当者が意図的に悪いことをしているわけではありません。 また、これらの事実をチェックする人や出来る人は殆どおりません。 多くの場合、このようなデータ解析の現場からは良い結果が出たとして報告されますので、データ解析の信頼性をチエックできない場合はそのまま公表されるのは仕方ないですね。
この場合の問題は、データ捏造のような悪いことはしていないという意識でありながら、データ解析評価の見かけの値を良くするために、行なってはいけないデータ操作を行なっているという事実です。 間違ったと意識することなく、表面的な評価値が高くなっているので、良い結果としてこのような結果が公開されてしまうのです。
◇ 意図的に行なわれるデータ捏造と無意識に行なわれるデータ操作
こういったデータ操作を行なった結果のデータは、おおむね高い値を実現したものとして発表されることが多く、同じようなサンプルデータを用いて実際にデータ解析を行なうと、自分のデータ解析結果と公表されたデータ解析結果とのギャップにがく然とするようになります。
また、このようにデータ解析の品質よりも、解析結果の評価データの高さのみを競う状態となると、高い値の出ることががあたりまえという雰囲気になり、様々なノイズを含んだデータを用いた現実的な解析とのギャップが大きくなります。 このような競争の結果として、さらに高いデータ解析結果の実現を目指した誤ったデータ操作(データ捏造ではありません)が常識的になるという、データ解析分野としての悪循環が繰り返されるようになります。
これらの「データ捏造」と、「間違ったデータ操作」を比較した場合、どちらの方が質が悪いと言えるでしょうか。 私は、データ操作の問題の方が、データ解析実施者に間違ったデータ操作を行なったという意識がない(単に解析結果の値を高くするだけという意識)だけに、データ捏造よりも問題は深刻と言えると考えます。
むしろデータ捏造は、捏造する本人も意思が明確で、バレテしまうと一巻の終わりという事から、先の間違ったデータ操作(本人に悪いことを行なったという自覚がない)よりも、質的に良いものと言えるかもしれません。
◇ 悪貨(悪いデータ解析)は良貨(良質なデータ解析)を駆逐する
間違ったことをしたという意識の無いデータ解析結果は、多くの場合高い評価値を伴って公開、発表されます。 これが標準値となり、その後に実施される良心的な解析を困難としますし、その結果を貧弱なものに見せてしまいます。 正しいデータ解析を心がけていると、手間ばかりかかって、他の間違った解析結果と比較して評価値が低い値となることが多く、かつ理解されないことが多くなります。
実に残念な状態です。
◇ フィールドのデータ解析専門家の必要性
データが統計、多変量解析、パターン認識といった道具を経て出てくると、その結果を無条件で信じてしまう慣習を見直すことが必要と考えます。 また、統計や多変量解析、パターン認識等の手法やアルゴリズムに関する専門家は多数おりますが、実際のフィールドに出て、日々蓄積するデータを解析するという専門家が少ないことも、今回のような問題を大きくする原因ではないでしょうか。
◇ データ解析を自動車の場合と比較した結果:メカニック専門家とフィールド専門家
データ解析には全く異なる二つの技術が存在します。 データ解析手法に関する技術と、そのデータ解析手法を現場のデータに適用してデータ解析を行なう技術です。
仮にデータ解析を自動車に例えると、自動車を製造する技術と自動車を運転する技術は全く別物です。 自動車製造にはエンジン構造や空気抵抗率、ブレーキ、安全装置、電子制御等の知識が必要です。 しかし、このような自動車製造技術と、人や物を載せて目的地まで運ぶという技術は全く異なり、これには運転技術や、道路交通法の習得、他車や通行人との関係や舗装路、砂利道、山岳道路、果ては凍結路の運転テクニック等が中心です。
自動車製造技術はデータ解析手法の技術に該当し、運転技術は、適用する研究分野(フィールド)で実際のデータを用いてデータ解析を行なう技術に該当します。
◇ フィールドでのデータ解析技術のより具体的な例:化学/創薬研究分野を例として
先の自動車の事例では良くイメージがわかないという方のために、私が行なっている化学/創薬関連分野でのデータ解析を例にとって説明いたします。
化学研究分野では化合物を扱う事が必須です。 化合物は2次元および3次元構造式で表現されますが、このままではデータ解析を実施する事はできません。 そこで必要なのが、この2/3次元構造式情報をデータ解析が可能な数値データへと変換する技術です。 例えば、化合物として最も単純なベンゼンをイメージしてください。 このベンゼンを解析対象とするならば、どのようにすればよいでしょうか・・。 このための様々な技術が展開されています。 また、化合物や創薬分野ではサンプルを集めることが極めて難しく、殆どの場合、データ解析としてはかなり小さなサンプル数で実施する事が求められます。 このような個々のフィールド特有の問題に答えて、より信頼性の高いデータ解析を実現する事が求められます。
このような技術や特殊な環境は、化学や創薬といったフィールドでのデータ解析に遭遇しなければ必要としない技術です。 先の自動車でいえば、道路が凍結している時の運転技術みたいなもので、逆ハンドル、ポンピング、チェーンの取り付け技術等でイメージされれば良いでしょう。
これらの運転技術は安全運転という観点で重要ですが、自動車製造技術者には必要のない技術です。 データ解析も、このようにデータ解析手法の専門家と、データ解析手法を現場で適用して実際にデータ解析を行なうという専門家が必要となります。
現場でのデータ解析のあり方に関する専門家(フィールド研究者)を育てることが早急に必要であることが、今回のノバルティスの件が証明していると言えるでしょう。
文責:
株式会社 インシリコデータ
湯田 浩太郎
時代は「コンピュータ時代」から、データが総てを支配する「情報時代」へと急速に変化しつつあります。研究業務自体も、このような時代の変化に対応することが求められます。来るべき「情報時代」におけるAI 革命での「自律型(知的、オートノマス)研究」との適合性を議論することは喫緊の課題となります。
本ブログでは、AI 革命の推進技術である「(大規模)生成AI」が研究業務に与える様々な影響や効果について討論してまいります。興味ある方は、フォローと積極的な討論参加お願いいたします。
インシリコデータ株式会社関連ブログ;Blog of the In Silico Data Ltd..
ようこそ(株)インシリコデータブログへ。このブログでは、主としてインシリコデータのホームページでは直接編集できない細かな内容をフォローいたします。本ブログ内容等に関する質問/要望/意見等はこちらのブログか、インシリコデータのコンタクトアドレス(insilicodata.contact@gmail.com)にメールをいただければ幸いです。
なお、一部で著者の私的な情報に関する掲示板としても本ブログを利用いたしますが、この点お許しください。
In this blog, I discuss and write various themes which I cannot edit on the homepage of the In Silico Data. This blog also partly include a little personal themes.
なお、一部で著者の私的な情報に関する掲示板としても本ブログを利用いたしますが、この点お許しください。
In this blog, I discuss and write various themes which I cannot edit on the homepage of the In Silico Data. This blog also partly include a little personal themes.
0 件のコメント:
コメントを投稿