第三世代:コンテンツ(情報)の世代 ⇒ ただ保存しているだけのデータでは単なるコンピュータの肥やしでしかない。今後はデータ量と内容(コンテンツ)が問題となるであろう。
コンテンツはデータであるが単なるデータではない。データは単なる情報を入れている器のようなものであるが、コンテンツは器の中に存在するものとなる。データの利用法や展開手法に工夫を加えることでデータが内包するコンテンツを明白な形として取り出し、様々な機能を発出できることになる。これが、単なるデータでなくコンテンツの所以である。
◆単なるデータベース(辞書)からコンテンツ(情報)の世界へ
データも集積されればデータベース化するということは、従来のコンピュータ技術の常識であった。この場合のデータベースは言い換えれば電子辞書ということである。データ量が多くなれば辞書から辞典、そして大辞典と変化してゆくが、単なるデータの記録書にしか過ぎない。
データをまとめたデジタル辞書は単なる情報の保存や確認に利用されるもので、内在する情報を用いた活用までは出来ていない。つまり、辞書はターゲット項目を探すもので、データ間に内在するターゲット情報を探し出すものではない。
◆コンテンツ(情報)の探索と活用
現在、ハードウエアの機能向上およびデータ解析手法の進歩が急速に進んでいる。この結果従来では考えられない量のデータの扱いが可能となり、従来の数字や文字データに加えて音声や画像データが大量に保存され、その記録密度も急速に向上している。大量のデータを表現して「ビッグデータ」と呼ぶが、現在は確実にビッグデータの時代へと突入しており、このビッグデータを処理するデータ解析手法もきわめて多数展開されている。
◆今後の展開は? (ビッグデータ、データサイエンス、人工知能)
今後は大量のデータを扱うビッグデータ対応のデータベースが中心となり、データベース自体の関連技術も大きく変化するし、既に変化している。また、データ自体も保存にメモリ領域が取られて保存が難しかった画像や音声データも記録密度高くかつ大量に保存される。ひと昔は難しかった画像情報を直接用いた画像検索も主従開発され、実用化されてきた。
この大量データを扱う手法としてデータサイエンスや人工知能も急速に拡大している。サンプルデータ数が急速に拡大すると同時に、データサイエンスや人工知能も大量データを扱って実行できる手法の開発も進み、こちらはCPUの高速化が大きな貢献をしている。
現在、GAFAを中心に大量のデータが蓄えられ、これらのデータを用いて様々な要求に答えるデータ解析や人工知能の応用が展開されている。
一見、データさえあれば何でもできるように見えてくるが、実際にデータサイエンスや人工知能を実施しようとすると、いくつかの問題点が見えてくる。データサイエンスや人工知能をせいどや信頼性高く実施するためには量だけの問題ではなく、もう一つ重要な問題点の解決が必要となる。次回はこの点について言及します。
次回のテーマ:
◆ビッグデータ、データサイエンス、人工知能を正しく展開し、適用するには?
以上