先日開催されたAI-SHIPSシンポジウムにてチャットにて質問した内容と追加の質問項目です。 当日は、時間的な制限もあり残念ながら以下の質問に対しての回答は殆どありませんでした。
■全体的かつ一般的な質問
・本PJではAIを標榜していますが、AI技術の適用はどのようにされたのでしょうか?
・機械学習を行ったのでAIであるということが多いのですが、機械学習は本質的にデータサイエンス分野での基本技術であってAIでは本質ではないと考えます。
現在のAIとはネットワーク型で、従って最低でもNNが基本で深層学習が中心と考えます。
機械学習を行えばAIであるならば、現在のMVA(多変量解析)やPR(パターン認識)は総てAIとなりますね。
・弊社もビッグデータをターゲットとするが、本PJでのビッグデータとはどのようなサイズなのでしょうか、参考にさせていただきます?
研究用データベースの構築においては化合物の選択は極めて重要な問題です。 どのような基準で実施されたのか?具体的に教えてください。
・化合物空間等意識したのでしょうか → データ解析上で重要です
■予測関連に関する質問です
・予測モデルや予測用ツリーはどのような形で、いつ公開されるのでしょうか?
・オートスケーリングはどのようにされていますでしょうか?
・三次元パラメータは使っていますでしょうか?
・予測モデルは更新が必要となりますが、可能であれば更新のスケジュール等を教えていただきたいのですが
・化合物選択の戦略とアプローチ素晴らしいと感じました。参考にさせていただきます。
・重回帰での予測はrだけで評価するものではないと考えます。 S字曲線(非線形)のグラフでも、線上から外れた化合物群の特徴や別の解析に適用する等臨機応変に対応できます。 これらの展開で新しいことが見えてくるかもしれません。
化合物のコンピュータ上での扱いで極めて大事な「一元一項や一元多項」への対応はどのような手段で対応されているのでしょうか。 具体的に教えてほしいと思います。
・一元一項対応がされなければ、化合物データベースでの扱いはメチャクチャとなります。
・この一元一項対応に対する処置はどのように対処されているでしょうか?
・一元多項対応がされなければ、データ解析はうまくゆかないことは明らかです。
化合物データベースが公開されれば、一元一項や一元多項対応がされているかは直ぐにわかりますし、他のプロジェクトでの展開や検証も可能となります。
■AIに関する一般的な質問です
現在のAI技術の展開ではサンプル数が多いことが必要条件となっています。
・安定的なAI実施のために必要なサンプル数はどのくらいと考えるでしょうか。
・サンプル確保のための工夫として何か工夫されましたでしょうか?
・AIによる要因解析にはディープテンソルやSHAP Value等複数ありますが実施されたのでしょうか?
・現在のAIはネットワーク型で、最低でもNNが基本で深層学習が中心と考えています。 もしも機械学習を行えばAIであるとするならば、現在のMVAやPRは総てAIとなりますね。
以上の他にも気になる観点の項目等ありましたが、時間も限られていることもあり総てを尽くすことはできませんでした。
□AIに関する討論の場です。化学AIを学ぶ上での参考にしてください。
Drug Design and Toxicity Prediction by AI:人工知能による創薬、毒性評価