多変量解析/パターン認識実施時のサンプリングの重要性:
Importance of sampling on multi-variate analysis and pattern recognition techniques
◆ データ解析時におけるサンプリングについてまとめてみます。
一回目は全体的な観点から見た場合のサンプリングの重要性です。
データ解析時に最も重要なことは?⇒サンプリング
実際にデータ解析を行なうと、データ解析手法の差異やパラメータ選択(特徴抽出)等様々な問題が複雑に絡んできます。 これらの様々な問題を解決しながらベストの答えを探すのがデータ解析の面白いところで、成功すると達成感が出て楽しい作業となります。
このようなデータ解析を常々行なっていると、成功のみならず失敗も数多く経験します。 このような経験に基づいて、データ解析を行なう時に最も大事なことは何なのかと考えると、「データ解析を実施する時に最も重要なことは、サンプリングである」という結論に至ります。
サンプリングに失敗したままデータ解析を行なっても、当然ながら良い結果は得られません。 何らかの結果は出ますが、何の役にも立たない結果であり、データ解析そのものを邪魔、あるいは間違った方向に導いてしまう事になります。 多変量解析/パターン認識では最初に行うサンプリングが極めて大事であり、このサンプリングに成功すれば、良好なデータ解析結果は必ず付いてくると言っても過言ではないでしょう。
このサンプリングの問題は、依然説明したようなデータ解析自体の信頼性保持のための「チャンスコリレーション(偶然相関)」や「オーバーフィッティング(過剰適合)」といった問題とは別次元の問題です。 既にこれらの問題を意図的に起こすことで、100%分類や相関/決定係数の100%を簡単に実現できることを、重回帰を例にとって示してあります。
皆様も、データ解析という一見綺麗に見える包装紙に包まれた中身の良否を冷静に判断できる、あるいは判断する習慣や力を身につけてください。
サンプリングが怖いのは、サンプリングが良くない場合でもデータ解析は実施出来るので、必ず解析結果が出ることです。 先に述べた「チャンスコリレーション」や「オーバーフィッティング」を起こしていなければ、一般的にこのような場合は、分類率や相関/決定係数というものは低い値になるため、データ解析に用いたサンプルを疑う事になります。
この時、「チャンスコリレーション」や「オーバーフィッティング」を知らずに、分類率や相関/決定係数のみをデータ解析結果の評価指標としていると、パラメータを追加したりといった自殺行為を起こしやすく、別な意味での失敗を起こすことになります。
しかし、運悪くこれらの評価指標値が比較的高い値となった場合はサンプルを疑う事は無くなり、データ解析結果を信じて、次の段階となる要因解析等に移ることになります。 この後はノイズ情報に惑わされ、まともな解析が出来なくなり、混迷という泥沼に入ってしまいます。
この混迷から抜け出すのは、最終的にはその研究分野での常識や慣習という事になります。 結論が、その研究分野の常識や慣習と照らし合わせて納得のゆくときは問題ないのですが、納得がゆかない場合は、データ解析そのものが否定される場合と、従来の常識や慣習にとらわれない全く新しい事実が発見されたという二つの可能性があることとなります。 この証明には追試や検証試験が必要となりますが、楽しい試験となるでしょう。
文責:
株式会社 インシリコデータ
湯田 浩太郎
時代は「コンピュータ時代」から、データが総てを支配する「情報時代」へと急速に変化しつつあります。研究業務自体も、このような時代の変化に対応することが求められます。来るべき「情報時代」におけるAI 革命での「自律型(知的、オートノマス)研究」との適合性を議論することは喫緊の課題となります。
本ブログでは、AI 革命の推進技術である「(大規模)生成AI」が研究業務に与える様々な影響や効果について討論してまいります。興味ある方は、フォローと積極的な討論参加お願いいたします。
インシリコデータ株式会社関連ブログ;Blog of the In Silico Data Ltd..
ようこそ(株)インシリコデータブログへ。このブログでは、主としてインシリコデータのホームページでは直接編集できない細かな内容をフォローいたします。本ブログ内容等に関する質問/要望/意見等はこちらのブログか、インシリコデータのコンタクトアドレス(insilicodata.contact@gmail.com)にメールをいただければ幸いです。
なお、一部で著者の私的な情報に関する掲示板としても本ブログを利用いたしますが、この点お許しください。
In this blog, I discuss and write various themes which I cannot edit on the homepage of the In Silico Data. This blog also partly include a little personal themes.
なお、一部で著者の私的な情報に関する掲示板としても本ブログを利用いたしますが、この点お許しください。
In this blog, I discuss and write various themes which I cannot edit on the homepage of the In Silico Data. This blog also partly include a little personal themes.
2013/07/26
2013/07/18
現況報告2 : Status report 2 ; Office and my house
現況報告2: Status report 2 ; Office and my house
家の方ですが、約二ヶ月半ほどかかりましたが、液状化対策工事と基礎工事が完了し、家全体の形が出来た状態です。 家には足場が組まれ、全体が半透明のブルーシートで囲まれています。 現在は梁や柱だけで、サッシ等が仮止めされ、階段もなく、上階への移動は梯子を使うという状態です。 先日、内部の電気配線や照明の種類や位置の確認、水道の配管位置や洗面、トイレ、エアコン、ホームエレベータ等の最終打ち合わせを現場で行なってきました。
家自体は2X4工法で建てられております。 従って、他のブロック単位で積み上げるプレハブ工法のように、工場から運ばれて現場で積み上げる時には既に壁や外壁等が出来上がっているのとは状況が全く異なっています。 現在は屋根や外壁のタイルが張られておらず、断熱材等も入っていない状況なので内部がスケスケの状態であり、家の構造や骨組が良くわかります。 家全体でも自然換気を行なうために、屋根の垂木?が一部三角形に切り込まれ(ここからも喚気するそうです)ていたり、外壁と内壁の間に隙間が取られていたりと、現在の家には様々な工夫がされています。 私が想像していた以上に木がふんだんに使われているというイメージを受けました。 まだ壁がないので、壁の位置にある木の間を抜けてとなりの部屋に行けるのも面白いと感じました。 忍者の、壁抜けの術といった感じです。
このような状況からわかりますように、他の建築会社と比較して2X4の住宅の方が家の設計等においてはかなり自由度が高いような感じがします。 私も幾つか他の住宅メーカーと打ち合わせを行ないましたが、どうしてもプレハブ工法の関係からか、ユニット単位の考えから抜け出せず、最終的にはカタログにある家とそんなに変わらないような感じを受けました。 ある意味で、その方が安心だし、多くの実績のある設計となるので良いのかもしれません。 私と家内はいろいろと注文付けるので、やはり2X4で施工したのが良かったのではと感じています。 かなり、カスタムメードの家になっていると感じています。
素人では、骨組みだけの現段階ではまだまだ内部の構造イメージがわからないのですが、もう少しすれば、かなり内装が進み、色彩や形、質感等も見えてくるので、より具体的にイメージをつかむことが出来るようになると思います。
インシリコデータの事務所は3階になりますが、大工さんも「いい部屋だよ」と言ってくれました。
実際に行くと、想像以上に視界が良く、また三方向に窓がありベランダもあるので風通しも良く、連日の暑さにもかかわらず、結構過ごしやすい部屋になっているとの話でした。 出来上がるのが、とても楽しみになってきました。
今後は内装と外装工事が急速に進むので、家としてのイメージをよりつかみやすくなると思います。 また、進捗状況を報告いたします。
家の方ですが、約二ヶ月半ほどかかりましたが、液状化対策工事と基礎工事が完了し、家全体の形が出来た状態です。 家には足場が組まれ、全体が半透明のブルーシートで囲まれています。 現在は梁や柱だけで、サッシ等が仮止めされ、階段もなく、上階への移動は梯子を使うという状態です。 先日、内部の電気配線や照明の種類や位置の確認、水道の配管位置や洗面、トイレ、エアコン、ホームエレベータ等の最終打ち合わせを現場で行なってきました。
家自体は2X4工法で建てられております。 従って、他のブロック単位で積み上げるプレハブ工法のように、工場から運ばれて現場で積み上げる時には既に壁や外壁等が出来上がっているのとは状況が全く異なっています。 現在は屋根や外壁のタイルが張られておらず、断熱材等も入っていない状況なので内部がスケスケの状態であり、家の構造や骨組が良くわかります。 家全体でも自然換気を行なうために、屋根の垂木?が一部三角形に切り込まれ(ここからも喚気するそうです)ていたり、外壁と内壁の間に隙間が取られていたりと、現在の家には様々な工夫がされています。 私が想像していた以上に木がふんだんに使われているというイメージを受けました。 まだ壁がないので、壁の位置にある木の間を抜けてとなりの部屋に行けるのも面白いと感じました。 忍者の、壁抜けの術といった感じです。
このような状況からわかりますように、他の建築会社と比較して2X4の住宅の方が家の設計等においてはかなり自由度が高いような感じがします。 私も幾つか他の住宅メーカーと打ち合わせを行ないましたが、どうしてもプレハブ工法の関係からか、ユニット単位の考えから抜け出せず、最終的にはカタログにある家とそんなに変わらないような感じを受けました。 ある意味で、その方が安心だし、多くの実績のある設計となるので良いのかもしれません。 私と家内はいろいろと注文付けるので、やはり2X4で施工したのが良かったのではと感じています。 かなり、カスタムメードの家になっていると感じています。
素人では、骨組みだけの現段階ではまだまだ内部の構造イメージがわからないのですが、もう少しすれば、かなり内装が進み、色彩や形、質感等も見えてくるので、より具体的にイメージをつかむことが出来るようになると思います。
インシリコデータの事務所は3階になりますが、大工さんも「いい部屋だよ」と言ってくれました。
実際に行くと、想像以上に視界が良く、また三方向に窓がありベランダもあるので風通しも良く、連日の暑さにもかかわらず、結構過ごしやすい部屋になっているとの話でした。 出来上がるのが、とても楽しみになってきました。
今後は内装と外装工事が急速に進むので、家としてのイメージをよりつかみやすくなると思います。 また、進捗状況を報告いたします。
以上
2013/07/04
セミナーに出席して感じた事と考え(2):Impressions and my thoughts felt to attend the meeting (2)
第1回「p-Medicine時代の薬づくり ( Drug development of p-Medicine era ) 」
本セミナーはサイバー絆研究所 (Institute for Cyber Associates, ICA) が主催するシリーズ研究講演会 Visionary Seminar「薬づくりの新しいR&Dモデルを探る」のセミナーとなります。今回はその最初の講演会となり、タイトルは「p-Medicine時代の薬づくり」です。
セミナー自体は6月20日(木)に実施されましたが、その後仙台に帰って実家で作業をしたり、幾つかの会議等が重なり、時間が取れなく、報告が今日となってしまいました。
セミナーですが、大きく二部に分けて構成されています。
第一部のタイトルは「創薬への情報計算技法の活用-これまでとこれから」として、以下に示す3つの講演がなされました。
①創薬におけるインシリコ(コンピュータ)技術の活用事例として、QSARをきれいに適用して抗がん剤の開発に導いた多田先生の事例。 創薬過程で発生してくる様々な問題を、数多くのQSARの経験と洞察を基本に解決してゆくことで創薬に結び付けるもので、QSARの真髄ともいうべき実例です。 大鵬薬品は開発されたこの抗がん剤の製造工場を約100億円かけて今年度中に建設するという発表をしました。 私は日経新聞で読みました。
②創薬研究を支援する基本となる様々な創薬支援データベースを創薬研究者の立場から行なっているという報告。 内容的には創薬や医療現場で起きつつある最新の研究に関する水口先生よりの発表。 トキシコゲノミクスPJの研究成果がデータベースとして新たに展開されていることも報告されました。
③石田先生はiPS細胞を肝臓へと導き、種々薬物との相互作用研究を日々行なっております。 この最新の研究発表と、今後の創薬の大きな形としてiPS創薬とインシリコ技術を結び付けた計算毒性学の展開を提案されました。 日本での計算毒性学発展のルーツとなれば素晴らしいと感じました。
第二部のタイトルは「p-Medicine時代の薬づくり」として、以下の2講演がなされました。
①オミックス医療を先導されている田中先生は、今後は個人のゲノム情報と生活環境を結びつけた総合的な医療を目指す事が大事であるという考えに基づいて活躍されております。 GET(Genomes x Environments = Traits)ということで、個人の生活環境を取り入れた網羅的な疾患解析の実現と今後の医療のあり方と研究事例について発表されました。
②神沼先生は、日常的に病気になるのを予防する3次予防の重要さを強調されました。 現在展開されている様々な医療関連技術を総合的にまとめ、同時に情報関連技術を3次予防の中に組み込んでゆく。 このような医療のあり方が今後の医療に大事であり、最終的には患者と医師や医療機関とのより緊密なコミニュケーションを実現した総合医療を目指すという提案をされました。
「p-Medicine」という言葉を初めて聴かれる方も多いと思います。 この言葉については先の資料に概要が掲載されていますのでそちらを参照してください。
文責:
株式会社 インシリコデータ 湯田 浩太郎
本セミナーはサイバー絆研究所 (Institute for Cyber Associates, ICA) が主催するシリーズ研究講演会 Visionary Seminar「薬づくりの新しいR&Dモデルを探る」のセミナーとなります。今回はその最初の講演会となり、タイトルは「p-Medicine時代の薬づくり」です。
セミナー自体は6月20日(木)に実施されましたが、その後仙台に帰って実家で作業をしたり、幾つかの会議等が重なり、時間が取れなく、報告が今日となってしまいました。
セミナーですが、大きく二部に分けて構成されています。
第一部のタイトルは「創薬への情報計算技法の活用-これまでとこれから」として、以下に示す3つの講演がなされました。
①創薬におけるインシリコ(コンピュータ)技術の活用事例として、QSARをきれいに適用して抗がん剤の開発に導いた多田先生の事例。 創薬過程で発生してくる様々な問題を、数多くのQSARの経験と洞察を基本に解決してゆくことで創薬に結び付けるもので、QSARの真髄ともいうべき実例です。 大鵬薬品は開発されたこの抗がん剤の製造工場を約100億円かけて今年度中に建設するという発表をしました。 私は日経新聞で読みました。
②創薬研究を支援する基本となる様々な創薬支援データベースを創薬研究者の立場から行なっているという報告。 内容的には創薬や医療現場で起きつつある最新の研究に関する水口先生よりの発表。 トキシコゲノミクスPJの研究成果がデータベースとして新たに展開されていることも報告されました。
③石田先生はiPS細胞を肝臓へと導き、種々薬物との相互作用研究を日々行なっております。 この最新の研究発表と、今後の創薬の大きな形としてiPS創薬とインシリコ技術を結び付けた計算毒性学の展開を提案されました。 日本での計算毒性学発展のルーツとなれば素晴らしいと感じました。
第二部のタイトルは「p-Medicine時代の薬づくり」として、以下の2講演がなされました。
①オミックス医療を先導されている田中先生は、今後は個人のゲノム情報と生活環境を結びつけた総合的な医療を目指す事が大事であるという考えに基づいて活躍されております。 GET(Genomes x Environments = Traits)ということで、個人の生活環境を取り入れた網羅的な疾患解析の実現と今後の医療のあり方と研究事例について発表されました。
②神沼先生は、日常的に病気になるのを予防する3次予防の重要さを強調されました。 現在展開されている様々な医療関連技術を総合的にまとめ、同時に情報関連技術を3次予防の中に組み込んでゆく。 このような医療のあり方が今後の医療に大事であり、最終的には患者と医師や医療機関とのより緊密なコミニュケーションを実現した総合医療を目指すという提案をされました。
「p-Medicine」という言葉を初めて聴かれる方も多いと思います。 この言葉については先の資料に概要が掲載されていますのでそちらを参照してください。
文責:
株式会社 インシリコデータ 湯田 浩太郎
登録:
投稿 (Atom)