インシリコデータとの総合連携ブログ
---情報時代の自律（オートノマス）型研究---

　時代は「コンピュータ時代」から、データが総てを支配する「情報時代」へと急速に変化しつつあります。研究業務自体も、このような時代の変化に対応することが求められます。来るべき「情報時代」におけるAI 革命での「自律型（知的、オートノマス）研究」との適合性を議論することは喫緊の課題となります。
　本ブログでは、AI 革命の推進技術である「(大規模)生成AI」が研究業務に与える様々な影響や効果について討論してまいります。興味ある方は、フォローと積極的な討論参加お願いいたします。

インシリコデータ株式会社関連ブログ；Blog of the In Silico Data Ltd..

　ようこそ（株）インシリコデータブログへ。このブログでは、主としてインシリコデータのホームページでは直接編集できない細かな内容をフォローいたします。本ブログ内容等に関する質問／要望／意見等はこちらのブログか、インシリコデータのコンタクトアドレス(insilicodata.contact@gmail.com)にメールをいただければ幸いです。
　なお、一部で著者の私的な情報に関する掲示板としても本ブログを利用いたしますが、この点お許しください。
　In this blog, I discuss and write various themes which I cannot edit on the homepage of the In Silico Data. This blog also partly include a little personal themes.

2013/12/02

東北メディカル・メガバンク機構のシンポジウムに参加しました：２０１３年１１月２９日（金）、東京

◇シンポジウム参加報告：

東北メディカル・メガバンク機構（ToMMo : Tohoku Medical Megabank Organization）のシンポジウムが１１月２９日（金）に東京にて開催されました。

　今回のシンポジウムはToMMoが活動開始してから東北以外では最初のシンポジウムになるという事もあり、約２００人ほど入れる会場も、補助椅子を使うほど大勢の人々で満席状態でした。　このToMMoが多くの人々から注目されていることが如実に示された結果と考えます。当日の会場の様子がこちらにアップされています。
　また、本シンポジウムとその案内パンフレットがこちらにＰＤＦ形式で掲載されています。　このパンフレットからもわかるように、シンポジウムのタイトルは「大規模ゲノムコホートからシークエンス解析へ　－東北発、次世代型医療への挑戦－」となっております。
　このコホート解析では被検診対象の方々は、東日本大震災において津波により被災された方々で、大きな目的は大震災による津波被害による健康への影響をゲノム情報から解析し、その解析結果を今後の被災者のケア（パーソナライズドメディスン）に役立てることが主たる目的だそうです。人ゲノムを被験者より収集、全ゲノム配列を決め、しかも三世代にわたって収集／追跡を行なうものです。　被験者数も約７万人と大きく、収集地域も福島、宮城、岩手県と東北の東日本部分の広範囲に及ぶもので、日本ばかりか世界的スケールで見ても類の無い実験であり、極めて貴重なデータや解析が出来るものと期待されます。

　　報告では、７月１９日（金）に調査開始後、本シンポジウムの直前に１００９被験者の全ゲノム解析が終了したとの報告であった。　これだけの短期間に、１０００以上の全ゲノム解析をやってのけたのは、人ゲノム解析が全世界の共同作業として実施されたことから考えると、本当にこの分野のゲノム解析技術の急速な進歩が実感されます。

　　本プロジェクトで解析された人ゲノムデータは、匿名化された後に一般に公開される予定であるとの話でした。　実際にこれらのゲノム情報が公開されると、データの量が半端ではなく、現在急速に展開しているビッグデータ解析等のソフト関連技術やスーパーコンピュータ等のハード関連技術もさらに高度な手法やハードが必須となるでしょう。　一つの分野が従来の規模を大きく超越してくると、それに関連する分野もその超越した分野に引きずられて、さらに大きく飛躍してゆく。　このような正の連鎖が始まるきっかけとなればよいと考えます。

◇サンプリングの重要性
　　既に本ブログでも言及しておりますように、データ解析を行なっているとサンプル数と同時にサンプリングも重要であるという事を痛感します。　何らかの解析目的を持って要因解析を行なう時、適用するデータ解析の種類や解析力の強弱よりも、データ解析時に必要となる情報があるか否かという事が重要です。　厳密で、多種多様な解析を目指す場合はデータの品質／内容（実験条件、アノテーション）の方も極めて重要になります。
　　データ解析の実施時に必要となる肝心の情報が存在しない場合や、サンプル数やデータ品質の不備がある場合、しばしばデータ解析実施困難となり、出来ても解析信頼性が低い等の問題が発生します。このような、データ解析実施時のサンプリングに関する問題は、本ブログにて時々言及しておりますので、ご参照ください。

　　今回集められたサンプルデータは人ゲノム情報ということで、機密保持の観点から匿名化がきちんと行なわれるようになります。　これが完全であればあるほど、解析実施のために既存のサンプルデータに後から追加でデータをリンクする事はかなり難しくなり、この観点でもデータ解析が出来なくなる可能性が高まります。　
　　今後の医療や創薬の展開を先取りし、将来発生するであろう様々なデータ解析を想定し、それらの解析に必要な情報を備えたメガバンクへと展開していただければと考えます。

以上

文責　湯田　浩太郎
２０１３．１２．１

2013/08/05

サンプリングの重要性について　（番外編）　：　　The importance of sampling on data analysis 　　　　　　(　Extra edition　)

多変量解析/パターン認識実施時のサンプリングの重要性：
Importance of sampling on multi-variate analysis and pattern recognition techniques

◆　データ解析時におけるサンプリングについてまとめてみます。　
　　　サンプリングについてまとめていますが、最近「ノバルティス社のディオバン（バルサルタン）臨床データ捏（ねつ）造疑惑」が大きな社会問題として出てきました。　今回は番外編として、データ解析を行なっている立場からこの件についての感想をまとめてみます。

　　前のブログで以下のように書かせてもらいました。
データ解析時に最も重要なことは？⇒サンプリング
　　この事実は、私が何十年と積み重ねてきたデータ解析の経験から見出された最も重要な結論です。　詳細な解説は現在編集中で、今後順に本ブログにアップする予定です。

　　今回は、私の過去の経験から導き出された「サンプリング」が大事という事項をまとめている最中に、偶然にも「ノバルティス社のディオバン（バルサルタン）臨床データ捏造疑惑」が話題となりましたので、サンプリングとデータという観点で私の感想を述べます。　

　　もともと私が想定していたサンプリングとは、データ解析をスマートに且つ精度／信頼性高く実施するという目的に立つサンプリングです。　今後は、この観点でデータ解析実施時におけるサンプリング上での考慮すべき、解決すべき問題点等についてまとめる予定です。

　　しかし今回のノバルティス社の問題は、同じサンプリングではありますが、データ捏造という操作によりデータ解析結果をバイアスの強くかかった（自分の目的に都合のよい）結果に導くという、私が想像もしなかった悪しきサンプリングの実例です。　従って、本ブログに掲載する予定である、私の経験から導き出された「正しい解析に導くためのサンプリング」を語る上で今回のノバルティス社の問題についての言及が必須と感じましたので、私の考えを述べさせていただきます。　
　　これは予定外の事ですので、番外編として以下にまとめます。

◇　二種類のサンプリング（正しいサンプリングと悪しきサンプリング）
　　データ解析においてサンプリングが重要という事は、正しいサンプリングを行なって得られたサンプルを用いてデータ解析を行なえば、「正しく、信頼性の高い評価結果」が得られるという事です。　この正しい評価結果ということに強いバイアスがかかり、自分の目的に都合のよい評価結果に導こうとすることは、同じサンプリングであっても、あってはならない事です。　しかもこの強いバイアスのかかったデータ解析結果が、査読者を有し、正当な評価活動をするJournalに正々堂々とまかり通り、結果として世界中の研究者に間違った認識をさせてしまうという事実がさらに問題を大きくする原因と言えるでしょう。　Journalが単なる権威づけの道具として利用されており、この点ではJournalも患者同様に大きな被害者です。

◇　二種類のデータ捏造（正しいデータ捏造と悪意のデータ捏造）
　　さて、正しいデータ解析を実現するために行なわれるサンプリングと、自分の目的に都合のよい結果が出るように行なうサンプリングは全く別次元の問題です。　
　　しかし、使用目的や内容により、しばしばデータ捏造を意図的に行なう場合があります。　例えば、データ解析手法の特徴や利点／欠点を明確にする目的で、都合のよいデータを意図的に捏造することがあります。　多くの場合は乱数等を発生させてデータを作ります。　このような場合はその事実（捏造されたデータを用いたという）を明確にしますので、これは正しいデータ捏造（正しいサンプリング）となります。　
　　しかし、データ解析結果が今回のように社会的に重要な影響を及ぼすものである場合。　また、特定の利害者団体に利益をもたらすような方向にバイアスをかけたサンプリングである場合。　しかも意図的なサンプリングである事実を明確にしなかった場合、このバイアス実現を目的としたサンプリングはデータ捏造（悪しきサンプリング）という、はっきりとした「罪」となります。

◇　より高い値を求めるために行なうデータ操作のジャックポット　　　
　　データ解析の本質を知らず、単に見かけ上良い結果を導き出すためだけに一生懸命になっていると、「葉を見て木を見ず」や「木を見て森を見ず」のような事態に陥り、本人に悪気がなくとも結果的に間違ってしまう事は以前のブログで事例を示しながら何度も説明してきました。　実際に、このような危険な解析結果が様々な公的／私的機関から数値データ解析結果として正式に発表されており、多くの人々の目に触れています。　
　　これは、単なる操作の間違いであり、担当者が意図的に悪いことをしているわけではありません。　また、これらの事実をチェックする人や出来る人は殆どおりません。　多くの場合、このようなデータ解析の現場からは良い結果が出たとして報告されますので、データ解析の信頼性をチエックできない場合はそのまま公表されるのは仕方ないですね。　
　　この場合の問題は、データ捏造のような悪いことはしていないという意識でありながら、データ解析評価の見かけの値を良くするために、行なってはいけないデータ操作を行なっているという事実です。　　間違ったと意識することなく、表面的な評価値が高くなっているので、良い結果としてこのような結果が公開されてしまうのです。

◇　意図的に行なわれるデータ捏造と無意識に行なわれるデータ操作
　　こういったデータ操作を行なった結果のデータは、おおむね高い値を実現したものとして発表されることが多く、同じようなサンプルデータを用いて実際にデータ解析を行なうと、自分のデータ解析結果と公表されたデータ解析結果とのギャップにがく然とするようになります。　
　　また、このようにデータ解析の品質よりも、解析結果の評価データの高さのみを競う状態となると、高い値の出ることががあたりまえという雰囲気になり、様々なノイズを含んだデータを用いた現実的な解析とのギャップが大きくなります。　このような競争の結果として、さらに高いデータ解析結果の実現を目指した誤ったデータ操作（データ捏造ではありません）が常識的になるという、データ解析分野としての悪循環が繰り返されるようになります。
　　これらの「データ捏造」と、「間違ったデータ操作」を比較した場合、どちらの方が質が悪いと言えるでしょうか。　私は、データ操作の問題の方が、データ解析実施者に間違ったデータ操作を行なったという意識がない（単に解析結果の値を高くするだけという意識）だけに、データ捏造よりも問題は深刻と言えると考えます。　
　　むしろデータ捏造は、捏造する本人も意思が明確で、バレテしまうと一巻の終わりという事から、先の間違ったデータ操作（本人に悪いことを行なったという自覚がない）よりも、質的に良いものと言えるかもしれません。

◇　悪貨（悪いデータ解析）は良貨（良質なデータ解析）を駆逐する
　　間違ったことをしたという意識の無いデータ解析結果は、多くの場合高い評価値を伴って公開、発表されます。　これが標準値となり、その後に実施される良心的な解析を困難としますし、その結果を貧弱なものに見せてしまいます。　正しいデータ解析を心がけていると、手間ばかりかかって、他の間違った解析結果と比較して評価値が低い値となることが多く、かつ理解されないことが多くなります。　
　　実に残念な状態です。

◇　フィールドのデータ解析専門家の必要性
　　データが統計、多変量解析、パターン認識といった道具を経て出てくると、その結果を無条件で信じてしまう慣習を見直すことが必要と考えます。　また、統計や多変量解析、パターン認識等の手法やアルゴリズムに関する専門家は多数おりますが、実際のフィールドに出て、日々蓄積するデータを解析するという専門家が少ないことも、今回のような問題を大きくする原因ではないでしょうか。

◇　データ解析を自動車の場合と比較した結果：メカニック専門家とフィールド専門家
　　データ解析には全く異なる二つの技術が存在します。　データ解析手法に関する技術と、そのデータ解析手法を現場のデータに適用してデータ解析を行なう技術です。　
　　仮にデータ解析を自動車に例えると、自動車を製造する技術と自動車を運転する技術は全く別物です。　自動車製造にはエンジン構造や空気抵抗率、ブレーキ、安全装置、電子制御等の知識が必要です。　しかし、このような自動車製造技術と、人や物を載せて目的地まで運ぶという技術は全く異なり、これには運転技術や、道路交通法の習得、他車や通行人との関係や舗装路、砂利道、山岳道路、果ては凍結路の運転テクニック等が中心です。　
　　自動車製造技術はデータ解析手法の技術に該当し、運転技術は、適用する研究分野（フィールド）で実際のデータを用いてデータ解析を行なう技術に該当します。　

◇　フィールドでのデータ解析技術のより具体的な例：化学／創薬研究分野を例として
　　先の自動車の事例では良くイメージがわかないという方のために、私が行なっている化学／創薬関連分野でのデータ解析を例にとって説明いたします。
　　化学研究分野では化合物を扱う事が必須です。　化合物は２次元および３次元構造式で表現されますが、このままではデータ解析を実施する事はできません。　そこで必要なのが、この２／３次元構造式情報をデータ解析が可能な数値データへと変換する技術です。　例えば、化合物として最も単純なベンゼンをイメージしてください。　このベンゼンを解析対象とするならば、どのようにすればよいでしょうか・・。　このための様々な技術が展開されています。　また、化合物や創薬分野ではサンプルを集めることが極めて難しく、殆どの場合、データ解析としてはかなり小さなサンプル数で実施する事が求められます。　このような個々のフィールド特有の問題に答えて、より信頼性の高いデータ解析を実現する事が求められます。　

　　このような技術や特殊な環境は、化学や創薬といったフィールドでのデータ解析に遭遇しなければ必要としない技術です。　先の自動車でいえば、道路が凍結している時の運転技術みたいなもので、逆ハンドル、ポンピング、チェーンの取り付け技術等でイメージされれば良いでしょう。
　　これらの運転技術は安全運転という観点で重要ですが、自動車製造技術者には必要のない技術です。　データ解析も、このようにデータ解析手法の専門家と、データ解析手法を現場で適用して実際にデータ解析を行なうという専門家が必要となります。

　　現場でのデータ解析のあり方に関する専門家（フィールド研究者）を育てることが早急に必要であることが、今回のノバルティスの件が証明していると言えるでしょう。

文責：
株式会社　インシリコデータ
湯田　浩太郎

2013/07/26

サンプリングの重要性について　（１　；　オーバービュー）　：　　The importance of sampling on data analysis 　　　　　　(　1; overview　)

多変量解析/パターン認識実施時のサンプリングの重要性：
Importance of sampling on multi-variate analysis and pattern recognition techniques

◆　データ解析時におけるサンプリングについてまとめてみます。　
　　　一回目は全体的な観点から見た場合のサンプリングの重要性です。

データ解析時に最も重要なことは？⇒サンプリング

　　実際にデータ解析を行なうと、データ解析手法の差異やパラメータ選択（特徴抽出）等様々な問題が複雑に絡んできます。　これらの様々な問題を解決しながらベストの答えを探すのがデータ解析の面白いところで、成功すると達成感が出て楽しい作業となります。　
　　このようなデータ解析を常々行なっていると、成功のみならず失敗も数多く経験します。　このような経験に基づいて、データ解析を行なう時に最も大事なことは何なのかと考えると、「データ解析を実施する時に最も重要なことは、サンプリングである」という結論に至ります。

　　サンプリングに失敗したままデータ解析を行なっても、当然ながら良い結果は得られません。　何らかの結果は出ますが、何の役にも立たない結果であり、データ解析そのものを邪魔、あるいは間違った方向に導いてしまう事になります。　多変量解析／パターン認識では最初に行うサンプリングが極めて大事であり、このサンプリングに成功すれば、良好なデータ解析結果は必ず付いてくると言っても過言ではないでしょう。　

　　このサンプリングの問題は、依然説明したようなデータ解析自体の信頼性保持のための「チャンスコリレーション（偶然相関）」や「オーバーフィッティング（過剰適合）」といった問題とは別次元の問題です。　既にこれらの問題を意図的に起こすことで、１００％分類や相関／決定係数の１００％を簡単に実現できることを、重回帰を例にとって示してあります。
　　皆様も、データ解析という一見綺麗に見える包装紙に包まれた中身の良否を冷静に判断できる、あるいは判断する習慣や力を身につけてください。

　　サンプリングが怖いのは、サンプリングが良くない場合でもデータ解析は実施出来るので、必ず解析結果が出ることです。　先に述べた「チャンスコリレーション」や「オーバーフィッティング」を起こしていなければ、一般的にこのような場合は、分類率や相関／決定係数というものは低い値になるため、データ解析に用いたサンプルを疑う事になります。　
　　この時、「チャンスコリレーション」や「オーバーフィッティング」を知らずに、分類率や相関／決定係数のみをデータ解析結果の評価指標としていると、パラメータを追加したりといった自殺行為を起こしやすく、別な意味での失敗を起こすことになります。

　　しかし、運悪くこれらの評価指標値が比較的高い値となった場合はサンプルを疑う事は無くなり、データ解析結果を信じて、次の段階となる要因解析等に移ることになります。　この後はノイズ情報に惑わされ、まともな解析が出来なくなり、混迷という泥沼に入ってしまいます。　

　　この混迷から抜け出すのは、最終的にはその研究分野での常識や慣習という事になります。　結論が、その研究分野の常識や慣習と照らし合わせて納得のゆくときは問題ないのですが、納得がゆかない場合は、データ解析そのものが否定される場合と、従来の常識や慣習にとらわれない全く新しい事実が発見されたという二つの可能性があることとなります。　この証明には追試や検証試験が必要となりますが、楽しい試験となるでしょう。

文責：
株式会社　インシリコデータ
湯田　浩太郎

2013/07/18

現況報告２：　Status report 2　；　Office and my house

現況報告２： Status report 2　；　Office and my house

　　家の方ですが、約二ヶ月半ほどかかりましたが、液状化対策工事と基礎工事が完了し、家全体の形が出来た状態です。　家には足場が組まれ、全体が半透明のブルーシートで囲まれています。　現在は梁や柱だけで、サッシ等が仮止めされ、階段もなく、上階への移動は梯子を使うという状態です。　先日、内部の電気配線や照明の種類や位置の確認、水道の配管位置や洗面、トイレ、エアコン、ホームエレベータ等の最終打ち合わせを現場で行なってきました。　

　　家自体は２Ｘ４工法で建てられております。　従って、他のブロック単位で積み上げるプレハブ工法のように、工場から運ばれて現場で積み上げる時には既に壁や外壁等が出来上がっているのとは状況が全く異なっています。　現在は屋根や外壁のタイルが張られておらず、断熱材等も入っていない状況なので内部がスケスケの状態であり、家の構造や骨組が良くわかります。　家全体でも自然換気を行なうために、屋根の垂木？が一部三角形に切り込まれ（ここからも喚気するそうです）ていたり、外壁と内壁の間に隙間が取られていたりと、現在の家には様々な工夫がされています。　私が想像していた以上に木がふんだんに使われているというイメージを受けました。　まだ壁がないので、壁の位置にある木の間を抜けてとなりの部屋に行けるのも面白いと感じました。　忍者の、壁抜けの術といった感じです。

　　このような状況からわかりますように、他の建築会社と比較して２Ｘ４の住宅の方が家の設計等においてはかなり自由度が高いような感じがします。　私も幾つか他の住宅メーカーと打ち合わせを行ないましたが、どうしてもプレハブ工法の関係からか、ユニット単位の考えから抜け出せず、最終的にはカタログにある家とそんなに変わらないような感じを受けました。　ある意味で、その方が安心だし、多くの実績のある設計となるので良いのかもしれません。　私と家内はいろいろと注文付けるので、やはり２Ｘ４で施工したのが良かったのではと感じています。　かなり、カスタムメードの家になっていると感じています。

　　素人では、骨組みだけの現段階ではまだまだ内部の構造イメージがわからないのですが、もう少しすれば、かなり内装が進み、色彩や形、質感等も見えてくるので、より具体的にイメージをつかむことが出来るようになると思います。

　　インシリコデータの事務所は３階になりますが、大工さんも「いい部屋だよ」と言ってくれました。
実際に行くと、想像以上に視界が良く、また三方向に窓がありベランダもあるので風通しも良く、連日の暑さにもかかわらず、結構過ごしやすい部屋になっているとの話でした。　出来上がるのが、とても楽しみになってきました。

　　今後は内装と外装工事が急速に進むので、家としてのイメージをよりつかみやすくなると思います。　また、進捗状況を報告いたします。

以上

2013/07/04

セミナーに出席して感じた事と考え（２）：Impressions and my thoughts felt to attend the meeting　(2)

第１回「p-Medicine時代の薬づくり ( Drug development of p-Medicine era ) 」

　　本セミナーはサイバー絆研究所 (Institute for Cyber Associates, ICA) が主催するシリーズ研究講演会 Visionary Seminar「薬づくりの新しいR＆Dモデルを探る」のセミナーとなります。今回はその最初の講演会となり、タイトルは「p-Medicine時代の薬づくり」です。
　　セミナー自体は６月２０日（木）に実施されましたが、その後仙台に帰って実家で作業をしたり、幾つかの会議等が重なり、時間が取れなく、報告が今日となってしまいました。

　セミナーですが、大きく二部に分けて構成されています。
　第一部のタイトルは「創薬への情報計算技法の活用－これまでとこれから」として、以下に示す３つの講演がなされました。
　①創薬におけるインシリコ（コンピュータ）技術の活用事例として、ＱＳＡＲをきれいに適用して抗がん剤の開発に導いた多田先生の事例。　創薬過程で発生してくる様々な問題を、数多くのＱＳＡＲの経験と洞察を基本に解決してゆくことで創薬に結び付けるもので、ＱＳＡＲの真髄ともいうべき実例です。　大鵬薬品は開発されたこの抗がん剤の製造工場を約１００億円かけて今年度中に建設するという発表をしました。　私は日経新聞で読みました。
　②創薬研究を支援する基本となる様々な創薬支援データベースを創薬研究者の立場から行なっているという報告。　内容的には創薬や医療現場で起きつつある最新の研究に関する水口先生よりの発表。　トキシコゲノミクスＰＪの研究成果がデータベースとして新たに展開されていることも報告されました。
　③石田先生はiPS細胞を肝臓へと導き、種々薬物との相互作用研究を日々行なっております。　この最新の研究発表と、今後の創薬の大きな形としてiPS創薬とインシリコ技術を結び付けた計算毒性学の展開を提案されました。　日本での計算毒性学発展のルーツとなれば素晴らしいと感じました。

　第二部のタイトルは「p-Medicine時代の薬づくり」として、以下の２講演がなされました。
　①オミックス医療を先導されている田中先生は、今後は個人のゲノム情報と生活環境を結びつけた総合的な医療を目指す事が大事であるという考えに基づいて活躍されております。　ＧＥＴ（Genomes x Environments = Traits)ということで、個人の生活環境を取り入れた網羅的な疾患解析の実現と今後の医療のあり方と研究事例について発表されました。
　②神沼先生は、日常的に病気になるのを予防する３次予防の重要さを強調されました。　現在展開されている様々な医療関連技術を総合的にまとめ、同時に情報関連技術を３次予防の中に組み込んでゆく。　このような医療のあり方が今後の医療に大事であり、最終的には患者と医師や医療機関とのより緊密なコミニュケーションを実現した総合医療を目指すという提案をされました。

「p-Medicine」という言葉を初めて聴かれる方も多いと思います。　この言葉については先の資料に概要が掲載されていますのでそちらを参照してください。

文責：
株式会社　インシリコデータ　湯田　浩太郎

2013/06/24

セミナーに出席して感じた事と考え（１）：Impressions and my thoughts felt to attend the meeting (1)

「iPS細胞創薬の現状と課題(Current status and issues of innovative drug development on the iPS cell)」セミナーに参加して感じたことと私の考えです。

　　先日（６月１９日（水））開催された日経バイオテクセミナーの、「iPS細胞創薬の現状と課題」と題したセミナーに参加しました。
　　会場は満席で、追加の椅子も用意されましたがそれも満席の状態で、iPS（人工多能性幹（induced Pluripotent Stem ））細胞に関する注目度が極めて高いものであることを実感させられました。

　セミナーのタイトルにもありますように、iPS細胞に関する研究の流れが、「iPS細胞を用いた再生医療」から、「iPS細胞を用いた創薬」へと大きく変化していることを実感させられるセミナーでした。
　私は実際にiPS細胞を用いての実験を行なっているわけではありません。　従って、ニュースや関連文献等の間接的な情報でしかiPS細胞の現状を知るだけでした。　このため、山中先生がかなり慎重なお話をされる態度に、そんなものかなーと感じていました。

　以下に私の頭に強く残りました内容について列記します。
１．正常細胞からiPS細胞へと導く技術に関する特許は山中先生グループによる努力で日本が押さえた。　しかし、このiPS細胞を利用目的とする臓器細胞へと導く技術は、欧米によるＥＳ（胚性幹（Embryonic Stem ））細胞に関する一連の研究実績により欧米諸国での特許化が進み、全体としてみると欧米の方が日本より進んでいる。

２．iPS細胞の適用として再生医療が大きくクローズアップされているが、今後のiPS細胞の大きな適用分野としては創薬分野が有望である。　特に毒性等のスクリーニング分野への適用に期待が持てる。

３．適用目的の変更により、iPS細胞に要求される必要事項が変化する。　特に、iPS細胞から臓器への導入に関し、完全に人臓器の機能を再現するという必要性は大きく変化する。

　講演最後のパネルディスカッションでは、「iPS細胞の専門家は人臓器機能の完全再現を目指して頑張っている」との感想が述べられました。　同時に、これは非常に大事な目標ではあるが、極めて時間のかかる困難な道である。　今回のセミナーのタイトルにもあるように、再生医療以外の分野への適用ではこの目標にこだわりすぎる必要はなく、見方を変えた基準事項／目標や品質を考えてもよいのではないかという意見が出ました。
　　確かに私もこの考えに賛成です。　再生医療では確かに人臓器機能の完全再現が重要ですが、毒性スクリーニング等の目的であるならば、別の問題の方が重要になります。　つまり、毒性試験を行なうために十分な量のiPS細胞や人臓器に変換された細胞の安定供給。　また、この場合の品質が国内および全世界で同一であること等の問題です。　毒性試験が安定的、かつ再現性良く実施できることが大切です。　この場合、毒性試験を効率よく、あるいは高感度で検出／再現できるiPS細胞とは何か、という観点でiPS細胞を見直すことも大切ではないでしょうか。

文責：　株式会社　インシリコデータ　湯田　浩太郎

2013/06/01

これは薬理活性デザイン、毒性デザインそれとも副作用デザイン？： Is this an activity design, toxicity design or side effect design?

◇なんかのかけ違いでしょうか？　Something is wrong ?

　　いつも不思議に思っているのですが、以下の事一緒に考えてみませんか。　何かわかったら教えていただければと思います。

　　インシリコ技術に基づいた創薬の主たる技術としてドッキングがあります。　このドッキングを行なう前提となる生物学的な基本は、薬が薬効を示すためにはターゲット蛋白と化合物（薬）が反応するか、蛋白の機能を停止するか邪魔しなければならないという前提であることは理解できますね。　このためには、化合物（リガンド）が蛋白上のしかるべき場所にドッキングしなければならないという事も理解できますね。　この前提に基づいてドッキング研究による薬物設計が行なわれるわけです。

　　このドッキング研究を行なう時、化合物が蛋白のしかるべき場所（ポケット）にうまくフィットしているか否かを評価する事が必要です。　これもわかりますね。　これができなければ、極端な場合、化合物が蛋白とドッキングしているか否かの評価ができなくなりますから。　ドッキング研究を行なう場合、フィッティングに関する何らかの評価技術は必須であり、ドッキング研究の成果に大きな影響を与えるキー技術であることは間違いないでしょう。
　　ここまでは私にも良く理解できるのですが、次からが良く分からなくなってしまうのです。

◇　ドッキングは物理、化学、あるいは生物？ 　Is this a physics, chemistry or biology ?

　　フィッティングを評価する関数として様々なものが提案されているようですが、その多くは物理的な指標を用いたものです。　これも現時点ではこのようにならざるを得ないでしょう。　しかし、現在のフィッティング関数は化合物がレセプターサイトの複雑な形状にうまくフィットしたか否かを評価するだけの極めて単純なものと感じます。　たとえ物理的に単純な指標を用いたフィッティング関数であっても、キー＆ロックの言葉のように変形の無い固い個体どうしの当てはまり度を確認するものであるならば、これらは極めて有効なものとなるでしょう。　
　しかし、ドッキング研究が創薬を最終目標とするならば、その基本は生体に起こっている事象を忠実に反映あるいは利用することであり、この場合は生物学が基本となるでしょう。　少なくとも、生物学的な動きや現象を色濃く反映するフィッティング関数となるべきですね。　生物学的な現象は、柔らかいものどうしのキー＆ロックであり、さらに水等の混在物、複雑な相互作用、反応性、化合物や蛋白の時間的な変化等々の極めて多数の要因を反映したもので評価することが必要です。

　　現在利用されている多くの評価関数は物理的な特性情報が中心となって構築され、生物学的な現象の一部（結合の観点）のみを色濃く反映しています。　すなわち、どの程度レセプターサイトにフィットしているかに注力した物理的な観点中心で、しかも結合の精度や速度にフォーカスが向いている感じがします。　私は、精度の問題は重要ですが、物理的な精度と生物学的な精度は同じ土俵では扱えないものであると思っています。　この観点でいうと、ドッキングの実施目的が創薬であるならば、本当に大事なのは化合物の生物学的な挙動を色濃く反映したものであるべきと考えます。　

　　結合中心の評価関数であると、レセプターサイトに、より強くフィットする（一度くっついたら離れない？）化合物ほど理想的なリガンド化合物となります。　つまり、形状情報中心で評価するものであり、これでは単に複雑な形状に化合物がどの程度フィットしたかどうかの見極めを行なうだけの評価となるでしょう。　　しかも現在は、このフィッティングの精度や処理の早さを競っているようですが、創薬という観点でみた場合、本当にこれで良いのでしょうか。　確かに、ドッキングに関する先のブログにもありましたように、生物学的な観点や化学的な観点を忘れないような工夫や留意点がまとめられています。　たしかに、これらを実現するだけでも生体内の問題を扱うためには極めて大変な作業となることは容易に想像できますが・・・。

　
　　しかし、創薬というものは生体内で起こっている現象をうまく利用する事であるという考えに立つならば、ドッキングといえども物理や計算機中心の問題として考えることは極めて危険と考えます。　この観点で言うと、ドッキングの本質は、先にも述べましたように生物学であるべきであり、常にこの意識を失わないことが重要と考えます。

◇　これって創薬？　毒物設計？　副作用設計？ 　Is this drug design, toxicity design or side effect design ?

　　生体内に存在する蛋白は、腫瘍や体内に取り込まれた菌やウイルス等の一部の例外を除けば不必要で意味無く存在するものは一個たりとも無いはずです。　この意味で考えると、もともと生体内で何らかのミッションを果たしていた蛋白の全てが化合物の不可逆的な結合により失活してしまったならば、本来その蛋白が受け持っていた機能を果たすことが出来無くなることは明白です。　この結果、生体は何らかの大きなダメージを受けるだろうという事は容易に想像できますね。　下手をすれば死んでしまうか、ラッキーであっても何らかのダメージ（副作用や後遺症等）を生命体本体に受けてしまうことは明白です。

　　現在のドッキングは生物学的な働きをあまり考慮しない物理的な評価関数ばかりを用いて、蛋白とリガンド化合物の結合の強さをターゲットとし、その精度や早さばかりを追っている感じがしてなりません。　これでは、蛋白のレセプターサイトにピッタリと結合するようなリガンド化合物が理想的な化合物として設計されてしまう事になりますね。　確かに、結合の観点だけからドッキングをみると正しい選択です。　しかし、ドッキングの実施目的は、化合物と蛋白の結合度を見る程度の単純で、動きの無い死んだドッキングを行なうものではありませんね。　真の目的は、もっと生体内でダイナミックに起こっている生きた現象を追跡することで薬をデザインする事にあると思います。　

　　ドッキングの評価関数自体が単純で、物理的な観点しか考慮されていないものを用いるならば、蛋白ポケットにピタリとはまって、二度と離れないような化合物が優先的に設計されることになります。　これは、化合物にくっつかれた蛋白からみると、その蛋白は永久にその機能を失なうことを意味します。　即ち、結合の強さのみを見ていては、いくら精度を上げたとしても、その努力は意味のないもので、結果的には蛋白を永久に失活させる毒性化合物や副作用を起こす化合物を設計していることになるのではないでしょうか？　これは私がいつも思っている素朴な疑問の一つです。
　　このような問題は、ひとつ前の記事で紹介いたしましたドッキングに関する先のブログでは考慮されておりませんでした。　先のブログのドッキングを車に例えると、車を正しく動かすためのルールや技術がまとめられたものとなるでしょう。　先のブログが主張しているのは、ドッキングであってもルール無視や違反した運転は危険であるという警鐘ですね。　

◇　創薬の基本は、生体の動きに基づいた生物学にあると思います。 　The drug design must be constructed on the biology based on the movement of the body..

　　薬は生体内で起こる生物学的な現象をうまく利用する事でその薬理効果を発現するものです。　
　　この観点でみた場合、蛋白のレセプターサイトにピタリとはまって何らかの薬理効果を及ぼすことは大事ですが、これだけではこのリガンド化合物は薬になっていません。　生体にとっては毒物かもしれませんし、想像もしない副作用をおこす化合物かもしれません。　蛋白に結合したら二度と離れない化合物は、生体にとっては薬というよりも毒に近いかもしれません。　薬のデザインとはこんなに単純なものではないと思います。　

　　例えばヘモグロビンは酸素濃度の高いところで酸素と結合し、酸素濃度が低いところで酸素をリリースします。　これで、生体内に酸素を供給するという重責を担っているわけです。　しかし、同じヘモグロビンに結合するシアンは、一度くっついたら二度とヘモグロビンから離れず（酵素を失活させる）、酸素と結合するヘム本来の機能を阻害して生物を死に至らしめますね。　二度と蛋白から離れないような化合物は生体にとっては毒となる可能性が強いと考えるのが自然と思います。

　　
◇　生体反応の基本は可逆反応であり、不可逆反応ではありません。　Fundamental of biological reaction is a reversible reaction but irreversible reaction

　　元々化合物は生体にとっては異物にしかすぎません。　従って、薬として本当に大事なのは、蛋白に結合してその役割を果たした後と思います。　役割を果たしたならば速やかに蛋白から離脱し、生体内で代謝されて体外に排出される。　基本的に生体内での反応は可逆反応であり、一方通行の不可逆反応ではないと思います。　薬としての例外はペニシリン等の抗菌剤のような極一部のもので、これは不可逆反応を利用していますが、基本的に人間とは関係のない細菌の生体メカニズムをうまく利用したものです。　これであっても、役割を果たした抗菌薬は菌とともに速やかに体外に排出されなければなりません。　このように、薬は可逆反応を基本とすべきであり、不可逆反応に導く可能性の高い化合物は毒物あるいは副作用に繋がる可能性の高い化合物ですので、設計すべきではないと考えます。　
　　この可逆反応を実現するのが薬の設計の基本であり、これが薬たるゆえんでしょう。　これが、最近意識され始めている、創薬へのＡＤＭＥ／Ｔの導入の考えに繋がる事実かと思います。

　　数学や物理等の技術をインシリコに用いることは否定しませんし、きわめて強力なツールとなります。　しかし、対象が生命現象であるならば生物学を基本とし、生命現象を可能な限り反映した形での数学や物理であるべきと考えます。　生命現象の基本をあまり考慮せずに物理的に単純化された現象やパラメータ等に置き換え、結果として生物学的観点上殆ど意味のない単なる精度や計算速度を競う形に変えられたインシリコ創薬というものは、タイトルにも書きましたように、何かかけ違いをしているのではないのではないかと不安を感じてしまうのです。　
　　フィッティング関数にしても、単にレセプターサイトとの結合力のみならず、役割を果たした後の離脱性等も考慮した関数にすることが必要ではないでしょうか。　生命現象を単純な物理パラメータに置き換え、精度や速度の問題にすり替えるのではなく、複雑な生命現象を少しでも多く反映する物理パラメータやその組み合わせ、そして数式の構築に力を注ぐべきと考えています。　また、完全な創薬に持ってゆくならば、離脱後のＡＤＭＥや安全性への考慮も必要になります。

　　皆様はどのように考えますか。　何かアドバイスやコメント等いただければ幸いです。

文責：　株式会社　インシリコデータ　湯田　浩太郎

2013/05/30

インシリコ技術適用上での留意点： Caution of technical points on the in silico technology

　　
◇　インシリコ研究実施上での留意点（ドッキング）：
Must pay attention that insilico research on docking approach

　　デモやカタログに書かれているスペックと、実際に自分が行なった時のスペックの違いに関して、以前このブログでも書かせていただきました。　　この時、たとえカタログで用いているのと同じ構造式の化合物を用いても、コンピュータ上での処理上の問題から開発元とユーザが個別に行った実験とに大きな差異が出ることを話しました。　
　　これは、化学多変量解析/パターン認識による構造-活性／ＡＤＭＥ／Ｔ／物性相関研究分野のみならず、インシリコ創薬におけるもう一つの大きな手法であるドッキングにおいても同様の問題があることが報告され、注意が喚起されています。　これは、以下のブログに書かれていました。
http://medicinalchemistry.blog120.fc2.com/blog-entry-783.html

　　一般的に、コンピュータを通せば何か素晴らしいことが出来て、素晴らしい結果が導き出されるようなイメージが先行しているようです。　しかし、現実的にはアナログ的な現象をデジタルな世界に移し替える、この時に発生する様々な問題の理解と解決なしに期待だけ先行するのは、非常に危険であることを理解しつつ、インシリコ技術を利用する事が大事と考えます。
　　だからと言って、萎縮したり、過剰反応でインシリコ技術を嫌ったりする必要はありません。　インシリコ技術を正しく理解し、その優れた特徴と限界を知り、最大限の成果を得る工夫や技術力をつければ、上記問題は克服できますし、従来手法では得られなかった素晴らしい結果を享受できることも事実です。　この問題はインシリコ分野に限らず、全ての研究分野で言えることです。
　　即ち、市販されているソフトウエアを単純に動かし、結果を鵜呑みにするだけでなく、そのバックにある基本技術を理解し、その限界や留意点を常に意識し、現在自分が実施しているインシリコ実験手順や結果に対して冷静に評価する習慣を身につけるという態度が重要です。

　　ＷＥＴな実験でも、Journalに報告されている実験が再現できないことがあると言われます。　私はそんなことがあるはずはないと思っていたのですが、学生時代に必要に迫られてある世界的に著名な先生が出した論文と同じ合成実験を行ないました。　しかし、どんなに努力しても再現できませんでした(収率が論文同様の高い値とならない）。　合成には、文章中では表現できないノウハウが存在し、時にはその事実が合成の行方を左右する場合があるという事を実感させられた瞬間でした。　特に、世界的に著名な先生方の論文はその傾向があるのかなーーと思いました。　あまり認めたくありませんが、自分の合成技術とのギャップが大きかったということが原因と、今では考えていますが・・。　

　　インシリコの世界も、全く同じです。　Journalやカタログに表だって書かれていない様々な留意点や、論文以前の前提事項が多数存在することは事実です。　残念ながらこのような事実について表だって議論される場や機会は極めて少ないようですが・・・。
　　先のブログには「痛烈批判」と書いてありましたが、ブログに書いてあった内容は批判でもなんでもありません。　単に、ドッキングを行なう時に知っておくべき、留意すべき「前提事項」にしかすぎません。　これらの事実を知った上でドッキングを行なう事が必要だというだけです。　
　　私が以前に本ブログでも書きましたように、化学多変量解析／パターン認識による構造－活性／ＡＤＭＥ／毒性／物性相関研究においても全く同じように、知っておくべきことや前提事項があることは事実です。　誤解してもらっては困りますが、先に私が行なった議論は手法そのものを批判したものではありません、単にインシリコ実験をする前に知っておくべき当然の事実を述べたにしかすぎません。

　　インシリコ実験を行なう時は、それぞれの分野でこのような事実があることを認識しつつ、常に自分のインシリコ実験結果を再見直しする習慣を身につけ、論理的な整合性の評価や不整合性等が無いかを自問自答しつつ実施する事が大切です。　
　　人はついうっかりすると自分の都合の良いように解釈しがちですから・・・。

文責：株式会社　インシリコデータ　湯田　浩太郎

2013/05/29

現況報告：　Status report

　　現在、建て替えのために仮住まい先に住んでいます。
　　ここしばらくパタパタしており、このせいでブログもゆっくり書けなかったのですが、やっと少し落ち着いてきました。　

　　家の建て替えは思った以上に大変です。　施工会社の選定から始まり、家の間取りやデザイン、それが決まると家の中の壁紙、床、天井、個別の部屋の調度品（特にキッチンまわり）や照明器具、配線やコンセントの位置、等々細かなことまで決定してゆきます。　殆ど週末はこれに時間を割かれます。　また、これ以外のこと（資金的なことや仮住まいの決定、そして引っ越し準備、等々）も順を追って走らせます。　さらに、一昨年の地震の件もあり、普通は行なわない地盤調査や液状化対策の検討も行ないました。　
　　引っ越し準備も大変で、今まで何十年も生活してきた過程で増えてきたもの、時代や生活パターンの変化で不用品となったものの始末や、仮住まいと新居への荷物の振り分けとがあり、引っ越し準備もこれまでの引っ越しと異なり、今まで以上に大変でした。　こんなにも不用品があったのだと、つくづく実感しました。　おかげで大分身軽になりました。　秋には、仮住まいから新居に移りますが、この時には現在使っている道具類もかなり整理する予定ですので、さらに身軽になると思います。　
　　非常に大変だったのですが、家内の助けが大きく、本当に助かりました。　事務作業が大嫌いな私ですが、インシリコデータも含め、今回の新築でも家内にはかなり活躍してもらっています。

　　引っ越し後、メールが一時繋がらなくなったりと、落ち着きませんでしたが、やっと一息ついて仮住まいの環境になじんできたところです。　今まで住んでいた家ですが、一週間もしないうちに撤去され、きれいな更地になってしまいました。　とてもさびしい感じがしました。　家が無くなった後の更地で地鎮祭を行いました。　これで、前の家と別れて、もともとの土地に関与する神々の心を鎮めて、新たな家への道筋がついたことになります。　現在は液状化防止の杭が打たれ、その後、基礎工事に入った段階です。

　　徐々に昔のペースを取り戻しつつあります。　このブログも含め、インシリコデータのホームページや、他の関連ブログも情報発信の場として引き続き利用させていただきます。　今後ともよろしくお願いいたします。

文責：株式会社　インシリコデータ　湯田　浩太郎

2013/04/10

iPS細胞を用いた毒性スクリーニング：Toxicity screening using iPS cells

◇iPS細胞のもう一つの適用分野；毒性スクリーニング：
Another application field of the iPS cells

　　iPS細胞というと、どうしても再生医療を最初にイメージしてしまいます。　しかし、iPS細胞を用いた毒性スクリーニングもiPS細胞の利用分野として大きな比重を占めることになりそうです。　３月末に開催された日本薬学会年会で、このiPS細胞を用いた毒性スクリーニングに関するシンポジウムが企画され、興味を持って聴いてきました。

＊ iPS細胞（induced pluripotent stem cells：人工多能性幹細胞、誘導多能性幹細胞）
＊ ES細胞（Embryonic stem cells：胚性幹細胞）

◇iPS細胞を用いた毒性スクリーニングの特徴：
Special characteristic of toxicity screening using iPS cells

　　現在の創薬、機能性化合物開発および環境関連研究では、毒性評価の問題が極めて重要な問題となりつつあります。　膨大な開発費をかけて開発した医薬品に副作用や毒性が出たら、全てを失い、また企業としての信用やイメージも大きくダウンします。　また、ＥＵ等で広がっている動物愛護の立場から、動物を用いた動物実験も厳しく制限されつつあり、今後さらに厳しくなることが予想されます。　以上のような様々な環境の激変より、動物を用いない、かつ人間の臓器細胞と機能的に差異のないiPS細胞を用いた毒性スクリーニングが注目されています。

　　薬物や化学物質の最終投与対象が人間であることを考えるならば、毒性スクリーニングも人間を用いて行なう事が理想ですが、これは実施不可能です。　次善の策として、現在は様々な実験動物を用いて毒性スクリーニングを行ない、人間に外挿しています。　しかし、実験動物と人間とでは代謝メカニズムが異なることが多く、精度の高いスクリーニングは実施出来ません。　さらに、外国、特にＥＵで強まっている動物愛護の観点により実験動物も使えなくなると、人間同様に毒性スクリーニング自体の実施が出来なくなります。

＊　今年度よりＥＵでは皮膚関連の実験に動物を用いることが禁止されました。　今後は動物を用いた実験データは、ＥＵ域内では審査データとして採用されません。　また、製品の販売等も出来なくなります。　動物を用いたin vivo実験から動物を用いないin vitro実験への変換が求められます。　この規制は、化粧品関連企業に対して、早急、かつ厳しい対応を迫るものとなります。

　　上記観点で、iPS細胞を用いた毒性スクリーニングの果たす役割が極めて重要となります。　iPS細胞自体は細胞であり、実験動物を用いなくて済みます。　さらに都合が良いのは、iPS細胞はもともと人間の特性を有した細胞であることです。　この事実は、iPS細胞を用いた毒性スクリーニングは、人間に適用した場合とほぼ同じ結果をもたらすと期待出来ることを意味します。

　　例えば、変異原性試験として世界中で採用されているAmes試験では実験動物ではなく、細胞を用います。　この試験で用いる細胞は菌由来のものなので、人間とは基本代謝メカニズムが異なっています。　このような手法的な限界がiPS細胞を用いると克服できると期待されるのです。

◇iPS細胞の安定的供給の問題：
Problem on a stable supply of iPS cells

　　上記で述べたように、iPS細胞を用いた毒性スクリーニングは、従来手法による毒性スクリーニングと比較して大きなメリットを有していることが分かります。　このiPS細胞を用いた毒性スクリーニングを実際に運用する場合、最も重要な問題が、iPS細胞の均質、大量かつ安定的な供給です。　これが実現されなければ、毒性を公正かつ安定的に評価する事は不可能となります。

　　シンポジウムで受けた感じでは、iPS細胞の安定供給という観点で今後多くの努力が必要であるという感じを受けました。　しかし、この問題の多くは技術的な問題であり、基本原理上での障害ではないので、私個人的には、時間と努力の積み重ねでこの問題は解決されるものと考えます。

◇iPS細胞を用いた毒性スクリーニングとiPS細胞の安定的供給の問題：
Toxicity screening using iPS cells and problems on a stable supply of iPS cells

　　毒性スクリーニングを行なう場合の大きな問題としてiPS細胞の安定的供給があることが見えてきました。　シンポジウムを聴いた感じでは、この実現のための最初で大きなマイルストーンがiPS細胞を人細胞と同じ機能を有する細胞に持ってゆく過程であると感じました。　確かに、iPS細胞を人間の臓器を構成する細胞とするためにはクリアすべき様々な技術上での問題があるようです。
　

　　多くのiPS関連研究者は、iPS細胞を人の臓器細胞と同じものとすることに気を取られているようです。　確かに、iPS細胞を用いた再生医療では人細胞と全く同じ機能を有する細胞に導くことが極めて重要です。　しかし、今は毒性スクリーニングを精度高く行なうことがテーマです。　毒性スクリーニングが主たるテーマであるので、完全に人細胞と同じ機能を有するように変化したiPS細胞が必要なわけではありません。　たとえiPS細胞から人臓器への変換が不十分であっても、従来手法による毒性スクリーニングと比較して、iPS細胞をルーツとした細胞を用いることの優位性は明白です。　もちろん人細胞と全く同じであることが理想ですが、この実現がかなり困難で、時間がかかるのであるならば、完全に人の臓器細胞へと変化したiPS細胞でなくとも、毒性スクリーニングという観点に立てば、このスクリーニングを実施する事は可能でしょう。

◇人臓器への分化が不十分な細胞を用いた毒性スクリーニングの可能性：
Potential of toxicity screening using incomplete organ cells transformed from iPS cells

　　毒性スクリーニングの実用化で問題となるのは、実験に用いる細胞の大量、安定供給であることは既に述べました。　最終目的は毒性スクリーニングであるので、実験に用いる細胞の大量、安定供給を満たすiPS由来の細胞を選択し、これらの細胞を用いた毒性スクリーニングプロトコルを構築する事が毒性スクリーニング実用化への最短距離と考えます。　iPS専門研究者はiPS細胞から完全な人臓器細胞への変換ばかりに注力しています。　しかし、毒性スクリーニングが主役であることを考えるならば、大量、安定供給を目指したiPS関連細胞の作製と、それらを用いたスクリーニングプロトコルの作成を考えた方が良いのではないでしょうか。　これでも、菌や動物の細胞を用いた毒性スクリーニングと比較すれば、iPS細胞による毒性スクリーニングの優位性は明白です。

文責：株式会社　インシリコデータ　湯田　浩太郎

2013/02/18

学会発表／パンフの値と実際の実験の値の差。その２：Differences between experimental value and value of the presentation at the meeting / pamphlet. The second report.

◇学会発表やパンフレットで使われている分類率、予測率、相関係数、決定係数の指標はどうして高い値が多いのかなーー？
その２：
　Why the value that a classification rate, a predictive rate, a coefficient of correlation and determination used by a presentation at the meeting and a pamphlet shows so high and excellent value?　The second report.

以前、上記タイトルで本ブログに書かせてもらいました。

　前回のレポートではデータ解析の特殊な利用あるいは操作を行なう事で、高い相関係数や決定係数を作為的に実現できることを示しました。この時、特に書きませんでしたが、これらの問題以外にもパンフレット値と実際の計算値のギャップを大きくする要因が、システムを利用するという立場とシステムを開発するという全く正反対となる二つの立場の違いによって引き起こされます。また、化学というアナログとコンピュータというデジタルとのギャップという観点での議論も出来ます。今回は、これらの点についてまとめてみます。実際は、さらにこれら以外の要因もギャップの形成に影響しているのですが、今回は省略します。

　システムを利用するというユーザの立場で考えると、システムを利用する場合の留意点や工夫すべき点が浮かんできます。システムの効率が最大になるように利用者が留意すべき点等、以下にまとめる内容を思い浮かべながらシステムの扱い方等について考えてみてください。すると、なぜ公表値と自分が行なう実行結果がこうも違うのかについて、ある程度理解できると思います。

◇システム開発側と利用するユーザとのすれ違い

　システムを利用する場合、常に以下の諸問題について理解しておく事が必要です。理解がなければ、パンフレット値と自分の出した値の大きな差異に驚くことでしょう。システムが公表するパンフレットの公表値は、常にベストの条件下にある「瞬間風速」であるという事を意識しておいてください。極端な場合、同じ化合物を用いてもＡさんとＢさんで結果が異なる事もあり、たとえパンフレットの中で使ってある化合物であっても結果が異なるという結果を招きかねません。

　この問題はシステムの扱う問題が化学に関する問題であるという事から発生します。留意すべき点はいろいろありますが、全て説明すると大変なので、ここでは典型的なことを例にとり簡単にまとめます。この内容から、他の事象について考えてください。

　システムを開発する立場にいると、アナログである化学とデジタルであるコンピュータとの橋渡しを常に考える必要があります。この情報変換が正しく行なわれているか。さらには、利用者が変わっても情報が正しく伝えられるか。また、アプリケーションとしての整合性も整えることが求められます。これらの様々な要求に答え、かつ様々な問題点を解決する事が必要になります。以下に、化学上の問題をデジタルであるコンピュータ上に乗せるための留意点を化合物構造式を扱うという観点で典型的な事例を例にとり、簡単にまとめます。

＊化合物構造式の取り扱い関連
　化学システムである以上、化合物のシステムへの入力が必要です。一般的に我々が二次元構造式を書けば、上手に書く人や、形がゆがんでしまう人、上下関係が逆であったり、さらには裏表が逆だったりします。しかし、人間は利口なので、このような様々な形の化合物構造式を見ても、同じ化合物であるという事を認識します。
　でも、コンピュータはどうでしょうか。もし、これらの化合物を異なる化合物として認識すると、当然実行結果が異なってしまいます。検索しても期待した化合物が出てこなくなるし、パンフレットにあるような値がでない、あるいは間違った答えとなるという事になります。

・二次元、三次元構造式のシステムへの入力時の扱い
(内容により、パンフレット値と実行結果に大きな差が出ることがあります）
　化合物の構造式は全く同じ化合物であっても、「絵」としての構造式は書く人により異なります。構造式をきれいに書く人と下手に書く人、上下逆さまに書く人や裏表を逆に書く人等、全く同じ化合物が書く人によりルックアンドフィールが全く異なってきます。
　化学システムは入力者の違いや書き方の違いを吸収する事が必要ですが、システムの利用目的や、二次元／三次元構造の違いなどでシステムの対応に差異があり、利用目的の違いによる機能的な限界も出てきます。

・化合物構造式の書き方による、システム実行への影響
　先に述べた化合物構造式の作図上の問題だけでなく、化学には厄介な問題があります。全く同じものが、異なった複数の書き方で書かれ、両方ともに正解となる場合があることです。典型的な例はニトロ基で、イオン型と非イオン型の表記があります。また、良く知られた有名なものではケト・エノール互変異性体がありますし、芳香族の表示も、共役型と非共役型があります。
　システムの機能により変わりますが、これらを同じ置換基として認識するソフトと、別の置換基として認識するソフトがあります。この差はシステム開発者の思想やシステムの適用分野や目的により変わります。この事実を知らないと、ユーザが使ったときに期待する結果が得られないという事になります。

・二次元／三次元構造式の扱い
　先の問題は化合物の二次元／三次元を扱う時、特に頻繁に生じます。二次元で入力された場合、書く人により形が異なります、これを三次元に立ち上げると、異なった三次元構造式となってしまいます。このようなことが起きないようにプログラムではいろいろな工夫が払われていますが、システムにより程度の差があります。この事実も知っておくべきことです。化合物の三次元構造式を扱うために、いろいろなコンピュータソフトウエア技術が展開されています。立体化学の扱いも、プログラムの利用目的等で基本が変わりますので注意が必要です。

・プログラムのデフォルト設定（データの再現性に関する問題）
　量子化学計算は、解析結果の説明がしやすく、データの値も細かく出ますので、詳細な議論が出来ると考えられますが、その扱いにおいてはかなりの注意が必要です。例えば、計算時の軌道関数、最適化の繰り返し回数、ストップさせる時のエネルギー値、ローカル／グローバルミニマ、他等の様々な設定が存在し、これらは同じ条件でなければ同じ値は出てきません。これも、パンフレット値と実行値の差が出る原因となります。

◇誤差が大きくなり、追試が出来なくなるという問題

　前記のような様々な問題が解決されなければ、パンフレット値と実行値の値が違ってくるのは当然です。理論化学計算を行なうと、議論が厳密に行なわれているように感じます。しかし、対象となる化合物系の構造式が複雑になってくると、前記の様々な問題の誤差が積み重なり、差異が大きくなります。極端な場合、パンフレットや学会発表等の結果の追試が出来なくなるという事になります。

◇システム利用する時の注意点

　化学システムを利用する場合は、システム開発者のみならず、システムを利用する側にも十分な考慮や留意が必要であることを改めて認識してください。すると、パンフに書かれている公表値との差が大きくなる点に関してある程度理解できますし、完全ではなくとも対策を考えることも可能となります。
　繰り返しになりますが、システム利用者は、化学というアナログの情報をコンピュータというデジタルで処理する場合の様々な問題点を意識しつつ実行する事が大事です。注意しますが、以上の事実はプログラムのバグではありません。システムが正しく動く上での、化学とコンピュータの適合性の問題なのです。
　一方で、システム開発者は可能な限りアナログとデジタルの差異をユーザに意識させずに、正しい解析を実行できるように機能を備えることが必要です。ユーザは、そのような問題を意識することなくシステムを利用し、無条件に実行結果を信用するのですから。

文責：株式会社　インシリコデータ　湯田　浩太郎

2013/02/07

医療診断におけるスタートレックスタイル技術とゴジラスタイル技術：Medical diagnosis by the Star Trek technology and the Godzilla technology

◆医療診断における技術の進歩について：

About progress of the technology on medical diagnoses

　医療分野における診断技術の進歩が著しいようです。医療診断には大きく物理的、化学的および生物的の３分野がありますが、これらそれぞれの分野で検査技術が急激に進歩していることが大きな理由のようです。ここでは、化学検査における診断技術で最新の分析技術を用いた診断（スタートレックスタイル）と、私の記憶にある従来からのアナログ的な技術（ゴジラスタイル）における診断について個人的となりますが、感想を以下にまとめます。

◇最新のスタートレック(Star Trek)技術と、従来からのゴジラ(Godzilla)技術：

Newest Star Trek technology and traditional Godzilla technology on diagnosis of breath

人の吐く息を分析して病気の診断をするという研究が進んでいるそうです。

　呼気を分析して診断するというのは素晴らしい発想だと思います。もし成功すれば、今までとは全く異なる診断ルートや手法を開発することになるので、新しい分野が開けてきます。大きなインパクトがあります。診断の基本原理はメタボロミクスにおける尿や血液の代わりに呼気が用いられたと考えればよいと思います。

・スタートレック型呼気診断 (Star Trek style diagnosis of breath)
　このようなチャレンジが具体性を帯びてきたのは主として機器分析技術の発達によるところが大きいと言えます。先のトピックスにも書いてありますが、特に呼気に含まれる揮発性有機分子(VOC)の割合が１００万分の１から１兆分の１になる(parts-per-million (by volume) to parts-per-trillion range)。これがリアルタイムで分析可能なようになってきたという技術の進歩が大きいと思います。
研究者はこの技術はスペクトル解析技術のRAFT(real-time air fingerprinting)が基本であり、非侵襲性(non-invasive)で高速診断になるということで説明しています。確かに、記事の写真を見るとStar Trek的な雰囲気が出ています。

・ゴジラ型呼気診断(Godzilla style diagnosis of breath)

　この記事を見て思い出すのは、呼気を用いて診断するという発想は昔もあったという事です。私が最初に知ったのは、呼気を調べて肺がんの診断を行うというアプローチでした。当時は分析技術が進んでいなかったので、犬を用いて肺がん患者特有の呼気を学習させ、肺がんの可能性があると反応（吠える等？）させるというものでした。もっとも、これが実用化されたとは聴いておりませんが・・・。何か、犬が診察室にいて患者の呼気のにおいを嗅いでいるという状況は？？？？ですね。
　ただ、当時感じたのは呼気も他の診断要素と同じように使えるのだという事でした。医者の診断は問診、患者の様子、外見、血液や尿の化学検査、超音波やＸ線やＭＲＩ等の画像診断と様々な情報を利用しますが、呼気もその一つになりうるという事でした。ただ、当時は分析技術が呼気診断が出来るほど進んでいなかったので、犬の嗅覚を利用するという事で、結構真面目に取り組むべきことだったのでしょう。

◇呼気診断の可能性：

Potency of the diagnosis of breath

　分析技術が発展してきたので、このようなことへのチャレンジも現実化を帯びてきたのでしょう。私自身は、呼気診断の有効性を一つの大きな可能性のあるチャレンジと考えています。メタボロミクス的な考えで見ると、呼気の中にも代謝化合物はＶＯＣとしていろいろ入っているはずです。病気によってこれらのＶＯＣの種類や割合も大きく変化する事は明白ですし、病気の種類によって、Ｏ２、ＣＯ２、Ｎ２等の比率も変わるはずです。

　記事を見ると、診断データを集めるための被験者を集めているとか、分析機器の開発試験になるとか、他にも研究グループがあり、画像診断や体内流体解析を行う等のチャレンジがされているようですね。まさに、「Star Trek-style」的な診断手法にチャレンジしている様子が感じられます。

　私は呼気診断にはメリットがいっぱいあると思います。もし、CIR-MSやPTR-TOF-MSがコンパクトで車に積めるならば、救急車内での先行診断も可能ですし、集団検診等でも威力を発揮するでしょう。これらは、本格的診断の前に行うプレスクリーニング的診断ですが、診断出来る病気の種類も圧倒的に多くなる可能性があると思います。いままで、診断の空白地帯とされてきた現場での高速・簡易診断が開けてくると思います。実用化にはまだまだ時間がかかるでしょうが・。

◇診断実施のためのデータ解析：

Data analysis for the breath diagnosis

　いずれにしても、本研究はメタボロミクスの大きな枠に入ります。本格的に研究が走ればスペクトルのフィンガープリントデータを用いた病人と正常人との比較をデータ解析で行ない、より精度の高い診断を行なえる診断環境を整える必要がでてきます。このような研究でも多変量解析/パターン認識のデータ解析技術が重要となってきます。

　犬を使うゴジラ型の診断から、今回のスタートレック型の診断への移行は時代の流れと感じています。

文責：株式会社　インシリコデータ　湯田　浩太郎

2013/01/09

動物実験代替法の動き：The recent trend of Alternative Animal Experiments in EU

ＥＵにおける動物愛護団体の動物実験禁止への運動と動物実験代替法の動き：

◆オーストリアのウイーンで見た、動物愛護団体の動物実験禁止運動の現場
昨年８月にオーストリアのウイーン（VIENA）で開催されたEuroQSAR 2012にポスター発表で参加していた時、会場に行く途中オーストリアの国会議事堂の前を電車が通るのですが、たまたまその同じ場所を別の日に電車で通っている時、ＥＵでの動物愛護団体による動物実験禁止運動の現場を見ることが出来ました。

上の写真はオーストリアの国会議事堂の前から撮りました。この国会議事堂は観光の上での大きなスポットとなっています。
この国会議事堂の前を市電が走っているのですが、次の日に電車の中から国会議事堂の写真を撮ったのが次の写真です。

国会議事堂の前に仮の支柱を建て、そこから大きな垂れ幕がつり下がっています。垂れ幕の写真を見れば、動物愛護団体が動物実験禁止を訴えた内容であることがすぐにわかります。写真を拡大してみるとわかりますが、注射針がウサギの眼に突き刺されているイメージが感じ取られます。実際には注射針を刺さずに液体を点眼しているのですが・・・。ウサギの眼の愛くるしさと、注射器の痛々しいイメージが見る人に動物実験の残虐性を強く訴えています。

こちらの写真は、先ほどの主たる垂れ幕の脇に地面の上に置かれた横断幕の様子です。

日本国内にいると、西欧諸国、特にＥＵにおける動物愛護団体や環境保護団体の力が強いという話は良く聞きます。しかし、日本国内の現状から推測するとそのような活動の状況や、社会への浸透力、影響力といった事はなかなか推測できませんでした。実際に現場で活動している人々は若者が中心で行なっていました。活動を支える人々の層の厚さがわかるような感じがします。
　今回のように、実際にその運動をしているところをみると、ＥＵの人々の動物愛護に対する感情や意志は日本と異なり、本物であり、極めて強いものであるという事を改めて感じました。

◆動物実験代替法とＥＵにおける動物実験禁止の動き
　　このような動物愛護団体の強い後押しもあり、ＥＵにおいては今年の３月以降、皮膚関連研究での動物実験データの利用禁止（事実上での動物実験禁止）が制度として動き出します。現在、皮膚関連研究分野ではこの動物実験に代わるIn Vitro試験の確立が急がれており、その有力な動物実験代替法の一つとしてインシリコによるスクリーニングが注目されています。
　　当然、ＥＵにも大きな市場を有する日本の化粧品や関連企業も対応に動き出しており、この流れを受けて日本動物実験代替法学会も大きく動き出しており、その年会等も昨今急速にその参加者を増やしております。

◆動物実験代替法とインシリコスクリーニング技術
　では、動物実験代替法におけるインシリコスクリーニング関連技術としてどのようなものが考えられるのでしょうか。皮膚関連研究分野での適用には、従来から展開されている薬理活性探索を目的としたインシリコスクリーニング技術の適用はその基本原理上適用困難です。一方で、皮膚関連でもＡＤＭＥを主体としたＰＫ／ＰＤシミュレーションによるアプローチは可能ですが、薬物動態だけでは安全性を評価する事は出来ません。丁度、薬理活性探索と毒性評価をＡＤＭＥで議論するのは極めて困難であるのと同じ関係です。

◆化学多変量解析/パターン認識（ケモメトリックス）によるインシリコスクリーニングの歴史
　現在、毒性評価に基本原理上から適用可能な手法として化学多変量解析/パターン認識（ケモメトリックス）技術があります。毒性評価への化学多変量解析/パターン認識の適用自体はかなり昔から適用研究がなされてきましたが、当時からの適用条件から、実験を行なって評価するのが最も確実であるとして、インシリコによる毒性評価は殆ど重視されてきませんでした。
　現在と異なり、動物実験も行なえるし、評価すべきサンプル数も多くなく、またインシリコによる予測自体が当時の極めて貧弱な計算機環境、さらにはデータ解析手法自体も幼稚という条件下では、やはり熟練した実験科学者による実データ重視が当然の帰結でした。

◆時代の変化と技術の進歩による新たな毒性評価へのチャレンジ
　現在は、一昔前と比較して研究に関する環境が様々な観点で大きく変化してきました。最大の変化は動物実験が行なえなくなるという変化でしょう。これは、先にも書きましたように、最終的には実験データを利用するという「実データ主義」が通用しなくなったことを意味します。
　この流れは、環境保護団体の強い後押しもあり、化合物毒性に関する化合物規制（ＲＥＡＣＨ）が実施された流れと逆になります。ＥＵはもともと化合物毒性に関しては「実データ主義」が強力な地域でした。しかし、世界の多くは化合物の毒性評価を全てにわたって実施するのは実用的観点から不可能であるとして、実データ主義と距離を置いていたのですが、これを振り切って規制を実施しました。ＲＥＡＣＨも試験適用期間を過ぎて、本格運用期間に入ってきました。ＲＥＡＣＨ規制で化合物の毒性データが充実してくると、それらのデータを用いてインシリコスクリーニングによる毒性評価信頼性も大きく向上する事となり、相乗効果が生まれます。

◆インシリコデータによる毒性（安全性）評価へのチャレンジ
　インシリコデータの湯田は、化学多変量解析/パターン認識（ケモメトリックス）による化合物の毒性評価という研究業務を、留学先のアメリカペンシルバニア州立大学のＪｕｒｓ先生が開発されたＡＤＡＰＴ（Automated Data Analysis by Pattern recognition Techniques)を用いて行ない、その部分開発や日本へのシステム導入を行ってまいりました。また、この分野での長い経験から、従来手法によるデータ解析手法をそのまま用いた毒性評価には限界があると見極め、化合物の毒性（安全性）評価に特化した新たな解析手法となる「ＫＹ(K-step Yard sampling)法」を開発しました。さらに、化合物の特性を利用し、与えられたサンプルグループ内で最高の予測パフォーマンスを出すことが出来る「テーラーメードモデリング」の技術の開発にも成功し特許化致しました。この二つの基本技術は化合物の毒性（安全性）予測を大きく改善するポテンシャルを持ちます。
　株式会社インシリコデータは以上の二大技術を基本とし、長期にわたり経験してきた化学多変量解析/パターン認識（ケモメトリックス）技術のノウハウを駆使しつつ、新しい時代の要請に答えるインシリコスクリーニングの技術支援を行なってまいります。

◆化学多変量解析/パターン認識（ケモメトリックス）によるインシリコスクリーニングの特徴
　化学多変量解析/パターン認識（ケモメトリックス）によるインシリコスクリーニングの特徴は、その基本原理から適用範囲が毒性（安全性）のみならず、創薬に関係する全ての特性に適用可能であるという点です。化学多変量解析/パターン認識（ケモメトリックス）によるインシリコスクリーニングではその予測対象として薬理活性、ＡＤＭＥ、毒性（安全性）、物性等の一連の創薬に関係する全ての特性を予測対象とするｊことが可能です。一つの基本的なアプローチで多くの種類の特性を予測できることは、予測項目単位に予測手法を変えることと比較した時、大きな利点を持ちます。この点でも、化学多変量解析/パターン認識(ケモメトリックス）によるインシリコスクリーニングの優位性が際立ってきます。
　この事実から、インシリコデータは化学多変量解析/パターン認識(ケモメトリックス）技術の長期にわたる経験やノウハウ、そして新たに開発された技術を融合し、会社としての最終目的となる「並列創薬(Parallel drug design)」を提唱します。さらに、「並列創薬」における個々の特性予測が完全（１００％）となった時に実現する「一段階創薬(One step drug design)」の実現を目指して継続的に研究努力を続けます。

文責：株式会社　インシリコデータ　湯田　浩太郎

2013/01/03

新年明けましておめでとうございます：Happy New Year! May this year will be happy and fruitful.

　新年明けましておめでとうございます。今年も、インシリコ創薬関連研究のさらなる展開目指して頑張りますので、皆様のご支援をお願いいたします。

◆インシリコ創薬関連研究
（In silico drug design related research works)

１．「一段階創薬(One step drug design)」を目指した、「並列創薬(Parallel drug design)」の
　　改善研究
２．「統合概念(Integrated concept)」に基づいた「統合インシリコスクリーニング(Integrated
　　 in silico screening)」の改善研究
３．「実験動物代替法(Alternatives to animal experiments)」 を目指した、インシリコ
　　スクリーニング手法の改善研究
４．毒性のない化合物の展開や規制を目指したインシリコ毒性スクリーニングの展開研究

◆ＫＹ(K-step Yard sampling methods)法のさらなる展開と
　適用事例の拡大
(Further deployment of the KY method, and expansion
　　of an application example)

１．ＫＹ法のさらなる展開研究：クラスタリング、マッピング、要因解析、等々
２．ＫＹ法の適用分野の拡大研究：様々な適用分野への拡大
３．ＫＹ法の普及に努める

文責：株式会社　インシリコデータ　湯田　浩太郎

登録: 投稿 (Atom)