◇データ解析実施時の様々な状況:
Various situations that should be solved before the data analysis executed
データ解析を実施する時、様々な状況に遭遇します。 信頼性の高いデータ解析を行うには、これらの起こりうる問題について正しく対応/処理しなければなりません。 私のブログにて、一部ではありますが既にこれらの問題点に関する記述と、留意点や対応の仕方をまとめてあります。
以下に示される様々な問題は、データ解析を正しく行う上で解決すべき重要な項目です。 しかし、多変量解析/パターン認識の実行においては、データ解析手法そのものの理解が優先され、データ解析を実行する上で問題となるこれらの事項はあまり気にしないか、ないがしろにされているのが現状のようです。 実際、これらの事項が無視されても、データ解析自体は実行され、結果は出てきますので・・・。 しかしこの場合、データ解析結果の保証はありませんが・・・。
データ解析はデータを入れて実行すれば終わりというものではありません。 様々なデータ解析手法を実行するソフトウエアは多数あり、簡単に手に入ります。 しかし、これらのソフトウエアで提供されるデータ解析手法を正しく実行し、信頼性の高いデータ解析を実現するためには、データ解析実行前や途中で発生する様々な問題を解決する事が必要です。 正しく、かつ信頼性の高いデータ解析を行ない、その結果を解析してさらなる活動や研究につなぐ。 これが、データ解析を行う上で最も重要な事項となります。
以下にリストアップされている様々な事項は、実際にデータ解析を行おうとすると、データ解析実施前に真っ先に解決しなければならない問題です。 これらの問題点に対処することなく、単に「データがあったからソフトウエアを実行した」というような表面的なデータ解析を行なうと、多くの場合は真に求めたい結果ではなく、フェークな解析結果となり、これらに翻弄されてしまいます。 このようなことに陥る前に、正しくかつ信頼性の高いデータ解析を行う事を心がけてください。 手法の理解も大事ですが、その手法の効果を100%出し切るようにデータ解析を行なう事も極めて大事なことです。 以下に示される様々な問題点を解決し、間違いが無いようにするための知識や理解を深めておくことが、安心してデータ解析を行うための重要なポイントとなります。
◇リスト
1.サンプルに関する様々な問題
1-1.サンプル数が少ない時
1-2.サンプル数が多い時
1-3.データサンプリングの重要性
1-4.ネガサンプルの重要性
2.パラメータ数に関する様々な問題
2-1.パラメータ数が少ない時
2-2.パラメータ数が多い時
3.欠損データの扱いは?
3-1.欠損の割合
3-2.種々補完法
4.最小サンプル数は?
5.サンプルポピュレーションの偏りはどう解決するの
5-1.クラスポピュレーションの限界比率は
6.予測率向上の手法とは
6-1.サンプルの小グループ化
・類似サンプル群
・グループ分け(官能器群等)
6-2.データ解析手法上での工夫
・線形から非線形へ
・コンセンサス法
・「テーラーメードモデリング」
・KY法(二クラス分類およびフィッティング(重回帰))
7.分類率と予測率の関係
7-1.分類率 >= 予測率
7-2.クロスバリデーションと外挿
8.線形問題と非線形問題
9.手法間連携
9-1.意味ある連携
9-2.意味のない連携
10.サンプル数が少ない時に安心してデータ解析を行うには
10-1.限界数以下(計算自体が出来ない)
10-2.2サンプルを用いた重回帰
11.パラメータからの情報読み込みと情報量・分類性
11-1.パラメータの種類
11-2.プログラムにより値が変わる(LogP等)パラメータ群と
値が変わらない(MC等)パラメータ群
12.クラスタリングの特徴と限界
12-1.様々な条件によりクラスタリングの結果が大きく変わることへの対応
13.次元減少、圧縮、変換、分解等の特徴と使い分け
14.特徴抽出(パラメータ選択)の意義と手法
14-1.特徴抽出の意義
14-2.主たる特徴抽出手法
(a)パラメータとしてのチエック
(b)統計的原理や手法を用いたアプローチ
(c)最適化法等を利用したアプローチ
(d)データ解析の種類により異なる特徴抽出アプローチ
(e)データ解析手法での個別特性に特化したアプローチ
15.矛盾データの扱いと発見
16.パラメータの桁数の違い(オートスケーリング:正規化(normalization))
17.ウェイトベクトルの読み方
18.パラメータ同士の演算(演算パラメータ)
19.過剰適合
20.過剰適合とチャンスコリレーションの違い
21.クロスバリデーション(リサンプリング)手法と意義
22.サンプル抽出(外れサンプルの扱い、データの品質)
23.ネガティブサンプルの重要性
24.同値(同じデータ)サンプルが複数入った場合
24-1.重みが変わる時と変わらない時(LLM等)
25.パラメータデータが不均衡の時(1/0 データで片方が数%しかない時等)
25-1.全サンプル内でパラメータデータの割合が不均衡な場合
25-2.クラス内でパラメータデータの割合が不均衡な場合
25-3.クラス内のサンプルデータが全て同じ値の時
26.連続変数でも、データが無い時は0になる場合の扱いや不均衡度
27.分野(化学)特有の問題
27-1.幾何/立体異性体
27-2.互変異性体
27-3.ニトロやニトロソの表現
27-4.塩や含水(溶媒)化合物の扱い
27-5.芳香族の扱い
27-6.三次元構造の問題
27-7.ポリマー等
28.サンプルデータの重複(同一化合物が同一活性、同一化合物が複数(矛盾)の活性)
29.データ解析指標はどのようなものがあって、どの程度の値が出ていればいいの?
29-1.二クラス分類
29-2.フィッティング(重回帰)
30.マッピング手法の違い
31.一元一項対応と一元多項対応問題
32.異なるプロトコルによる実験データの扱い上での注意と考え方
32-1.細かな実験条件の違うサンプルデータの扱い(マージ、スプリット)
32-2.マージを進める上での留意点と考え方
32-3.スプリットを進める上での留意点
33.多クラスデータ解析の二クラス分類手法での扱い
33-1.多クラスサンプル群の二クラスでの扱い
34.統計、多変量解析およびパターン認識の違い
今後、ここに掲載された内容に関してより細かな解説を行なってゆきます。 また、ここで討論される解決手法は絶対的なものではありません。 もっと良い方法があるかもしれません。 それは、データ解析を行なう研究者の方々が個別に考えて対処してください。
編集および湯田の都合上、掲載等の順番が上記リストと異なったり、掲載内容の重複や組み合わせ、また掲載時期も不規則になるかと思いますが、この点お許しください。 また、ここに掲載されたリストは、あくまでも暫定版です。 今後、上記のような項目がさらに追加されると思います。 化学データ解析に関心のある研究者の方々は、時々本ブログをチエックしていただければと思います。
ここで示された項目は、化学多変量解析/パターン認識の実行時に知っておく、解決すべき事項です。 もちろん、データ解析実施主体としての多変量解析/パターン認識に関する個々の手法に関する知識も必要です。 しかし、これらに関する情報はWEBや書籍等に多数記載されていますのでそちらを参照してください。
また、実際の現場でケモメトリックスという観点で化学多変量解析/パターン認識を実行しようとする場合は、上記留意点の他に、対象分野の知識、計算機化学/計算化学、コンピュータ等の関連技術について専門家レベルは必要ありませんが、ある程度の基礎知識程度は知っておいた方が良いでしょう。 でなければ、処理を間違って変なパラメータを作成したり間違った解釈をしたり、さらには無意味な操作を行なう、あるいはシステム内部で行なわれている処理の意味を理解せずに省略したりという、本人が気付かないで見過ごしてしまう様々な危険性が高まります。
文責:株式会社 インシリコデータ 湯田 浩太郎