(MMDで、初音ミクとおしゃべりできるソフト「音声インタラクション構築ツールキット:MMDAgent」)(「名古屋工業大学」の開発による)
(前回の(↑ コレ)の「人工知能」について)
今回は、前回に書いた「名古屋工業大学」の開発による「MMDAgent」というのが面白そうなので、「人工知能」について書きたいと思います。
21世紀になったらできると言われていた技術の中で、後は、「人工知能」位なので、これが完成すれば、「初音ミク」ちゃんにも、「人工知能」が搭載できる(かも?)というわけで、かなり期待の高い物です。
まずは、自分は、「名古屋工業大学」の人間ではない上に、まだ、「MMDAgent」自体が、たぶん公開されていないので、何とも言えないのですが、前回に書いたように、「人工知能」への道のりは、一筋縄ではいかない位、難関なのです!
そこで、自分が、この「人工知能」プロジェクトのプランを設計するならば、という仮定のもとで書いていくので、これに限らず、「人工知能」への道のりに挑戦してみたい人は、頑張ってやってみましょう!
((注意!)以下は、自分が「人工知能」を設計するなら。という仮定のもとの物なので、この「MMDAgent」の挙動やシステムとは、まったく無関係なので、注意して下さい!「人工知能」を作ってみたい人向け、の物です。あるいは、今回の参考資料です。)
(人工知能の歴史)
(昔の方のXBOX版だった時の、「人工知能」N.U.D.E.(Natural Ultimate Digital Experiment)の3DCGコミュニケーションドール「P.A.S.S.」)
http://www.xbox.com/ja-JP/games/n/nude/details.page/
たぶん、こんな感じだろうという「人工知能」応答型コミュニケーションでは、昔の方のXBOX版だった時の、「人工知能」N.U.D.E.(Natural Ultimate Digital Experiment)の3DCGコミュニケーションドール「P.A.S.S.」というのがありました。
詳細は、XBOXのホームページの動画を見ればわかる通りな感じです。
「人工知能」を作ってみよう!という歴史は、けっこう古い時代からあって、そもそも「パソコン」というコンピューターが、この世に登場した時期から、「これで!人工知能が作れるかも?」と、ずっと言われ続けていたので、「パソコン」や「コンピューター」そのものの歴史です。
日本のパソコン向けに、これが出たのは、大昔のパソコン時代の「EMMY」や、「EMMY2」といったソフト辺りが有名ですが、このソフトは、女の子を口説くシミュレーターだった気がします。
しかし!「人工知能」(当時は、「AI」と呼ばれていた)が、そもそも、8ビットや、16ビットの時代に動く為には、前回に書いたように、「言語辞書数」の語彙が、少なすぎて容量的に無理があったので、滅茶苦茶な応答をする。という、女の子を口説くシミュレーターとしては、「かなり、シュールな物でした!」
根本的な設計構想は、大体似た感じですが、現在においては、先程の「XBOX版N.U.D.E.@のP.A.S.S.」のようにして、コンピューターの高速化、大容量化、複合的なアルゴリズムを処理できるようなコンピューターのシステム設計などが、現在では、進んでいて、どうも、もうそろそろ「人工知能」が、本格的に作れる時代に現在が、すでになっているわけです。
「XBOX版N.U.D.E.@のP.A.S.S.」なんかは、けっこう、賢くて、いろいろ物知りだった気がします。
(現在に、「人工知能」を作るプロジェクトのプランニング)
実は、「人工知能」は、技術的には、すでに作れる位に、コンピューターが高度になっていますが、なぜ?実現しないのか?というと、それは!「”人工知能”を作るプロジェクトのプランニング」にあるのです!
前回に書いたように、「人工知能」の1番のネックは!「150万語以上の語彙数の辞書が必要!」という事で、気が遠くなりそうですが、普通に考えればわかる通り、「人間の寿命や、人類史の時間には限りがある」わけで、ここを理解しないと、いわゆる「時間の論理的に不可能」なわけです。
そこで、不可能な事がわかっている事をやっても、技術者は意味がないので、これを解決する方法を、「”人工知能”を作るプロジェクトのプランニング」として、組む必要があるのです!
つまりは、今から、基本辞書の単語の語彙数で、「150万語以上の電子辞書」ですが、実は、「会話文」などの別辞書が必要になるので、おそらくこの、100倍とかの語彙数になります!が、これを集めるのに、今から、「250年後に完成した!」では、今生きている私達は、面白く無いわけです!
それで、結局は、今生きている私達が扱えるには、「”人工知能”を作るプロジェクトのプランニング」を組むしかないわけです。
そのやり方の1つとしては、「コーパス収集システム」を、例えば、今回のように、「名古屋工業大学」の「MMDAgent」などや、「N.U.D.E.@のP.A.S.S.」などが備えているか?にかかっているわけです。
「コーパス」というのは、言語学の分野で、言葉の構造、文章の構造を解析する為のシステムの事ですが、簡単に言えば、超超!大量の文章例(単語だけでなくて、例文の事)を集積して、解析するシステムの事です!
といっても、難しくはなくて、基本は、例えば、「明日、買い物に行くんだけど、天気は?」とかの文章を集めるだけです。
このコーパス収集システムがないと、「人工知能」は、「頭が進化しない!」ので、必須機能なのです!
例えば、これが無いと、「明日に、買い物へ行きますが、天気は、何ですか?」というような、通常、会話する日本語とは似ても似つかない「コンピューターにわかりやすい文章」のみ!しか、返答してくれないのです!
「コーパス収集システム」では、例えば、ユーザーに協力をお願いして、このソフトウェアを使う場合に、「コーパス収集をして、言語学に生かしてもいいですか?」という前書きが必要で、ユーザーは、ソフトを扱う中で、例えば、「初音ミク」ちゃんと、もっと「おしゃべり」の語彙数を増やしたいなぁと感じた場合に、入力したりして増強したりした際のデータを送って、集中管理するシステムの事です。
まず、1人の力では、「初音ミク」ちゃんに「おしゃべり」させたいなぁと思って、入力できる単語や文章数は、たかだか知れていて、一生かかっても、「数万語(3〜5万語もいけば、相当、頑張った人でしょう!)」が限界で、”絶対不可能!”なわけです!
「絶対不可能!」とわかった理論数値が出た場合には、技術者は、わざわざ、その方法を選ばない事が賢明な判断です。
しかし、「”人工知能”を作るプロジェクトのプランニング」の1つのメカニズムとして、「コーパス収集システム」を組み込めば、実は!「150万語」なんて、アッという間!(3〜5年もあればできるはず)なのです!
しかも!さらに!様々な外国語を話せる!ようにもなります!
こういったように、言語学や、人工知能では、「学問」や「技術」だけではなくて!「プロジェクトのプランニング」が、とても重要で大切なわけです!
自分が思うには、「N.U.D.E.@のP.A.S.S.」にしても、「初音ミク、おしゃべりソフト」にしても、ゲームなどの分野が、これまで、「学術分野」などに貢献してこなかったなぁと思うわけですが、「コーパス収集システム」付きの「人工知能」ゲームを作れば、言語学に貢献でき、人類の文明の進化に貢献できます!
しかし、「コーパス収集システム」は、セキュリティー設計が難しくて、例えば、「初音ミク、おしゃべりソフト」のミクちゃんに、「明日、9時から会議だから、手帳に記録しといて」とかを話して、それをやらせるようなシステムも作れるわけですが、「けっこう!日常会話になるので、セキュリティー調整のメカニズムが大変になります!」
基本的には、自分で、入力したデータで「コーパス収集に協力できる場合のみに送る」というのが普通です。
また、言語学の基本的なスタンスでは、文章構造の解析にあるので「コーパス収集には制限をかけない(方言、口語、俗語、18禁など)」という事が重要な1つですが、なぜか?というと、制限をかけてしまうと、その言語の持つ特徴が把握できなくなったり、偏ったりするからです。
どういう事なのか?というと、データに、あらかじめ「ふるい」をもうけてしまうと、例えば、「日本語」として集めたはずのデータが、実は、「漁師言葉」に偏っていたなどが起きるわけで、その中で、解析された言葉は、特殊な特徴を持つからです。
といっても、「方言」などに制限をもうけないのは、例えば、「初音ミク、おしゃべりソフト」などでは、ミクちゃんに話しかける人は、(ココが、人工知能の賢さである、柔軟さ、なのですが)
・「ワンコロは、散歩へ連れて行ったか?」と、お父さんが話す。
・「ワンワンがいたよ」と、小さな子供が話す。
・「ワンちゃん、いたねー」
・「犬を連れて散歩へ行きました。」
などのようにして、「人工知能」に話しかける人は、それぞれの話し方で話します。
これが、判断できなけらば、「人工知能」ソフトとは言えないわけです!
こういった文章の多彩な表現を解析できる方法が、先程書いた、言語学手法の「コーパス」なわけですが、日本語ならば、いいのですが、外国語も同様な現象が起きているわけで、これが進めば、「機械翻訳ソフトの精度が上がる!」など、私達の生活全体が、とても便利になるわけです。
(「人工知能」や「機械翻訳ソフト」の壁)(「言葉の揺れ」を、どう処理するか?)
先程の例で、「犬」の事を、「ワンコロ」「ワンワン」「ワンちゃん」などとたくさんの呼び方で、それぞれの人が話しかけましたが、こういったように、1つの単語に対して、複数の「表記方法」「発音」などがある場合の事を、言語学では、「言葉の揺れ」などと言います。
しかし、言語学では、「口語体」の解析は、ほとんど進んでいない状況なので、それで、「機械翻訳ソフト」などの精度が、いまひとつなわけです。
「言葉の揺れ」という概念自体も、とてもアバウトな範疇に入ってしまう物で、「同意語」「類義語」などとも、少し違うし、あるいは、これも含めたり、「方言」も含めたり、「方言」は別として処理したりと、けっこうバラバラです!
というのも、「口語」で話している、こうした「言葉の揺れ」が発生するメカニズムが、「方言」や、「古語」的な物が入り混じって、このように幅ができるからです。
こうした事を、「言葉の揺れ」の「揺れ幅が吸収できる機械翻訳システム(あるいは、人工知能)か?」という事で、問題にされます。
「人工知能」用の電子辞書が、基本語彙数「150万語以上」が、おそらく数100倍に跳ね上がってしまう原因が、ここにあるわけです。
通常は、そういうわけで、「コーパス収集システム」を使わなければ、「人工知能」が完成するのは、200年先とかになってしまうわけです!
しかし、私達は、それこそ、世界中に、「何億人もいる!」ので、「コーパス収集システム」に協力できるユーザーが増えれば、「人工知能」は、「何ヶ国語でも話せたりする!」という夢のソフトになる!(はず!)です!
昔は、子供は、そんなにゲームばっかりして!とか言われていたわけですが、そうではなくて、子供は、遊びの中からも、古代の昔から学ぶのが、本来の姿勢です。
例えば、「Nintendo3DS」などには、「3D立体視デジカメ」が付いていますが、子供は、外を歩き回ったり、いろいろな場所へ行って、この「3D立体視デジカメ」で、「ヘラクレスカブトムシ」の写真を撮ってきたとします!(ありえな〜い!)
今は、実は、「デジカメの写真」などの中の部分を示して、「説明文字タグ」を付けられるのですが、これも、これからの「人工知能」設計には、重要です!
それで、「Nintendo3DS」の方は、「WiFi」に対応していたりするので、「お気に入り写真アップロード」をする時に、例えば、「公開疑問3D写真?」とかとして、この「3D立体視デジカメ」で撮った「ヘラクレスカブトムシ」の写真をアップロードすると、誰か、それに詳しい人が、「それは、ミヤマクワガタだよ!」と教えてくれるように、新しいゲームのコミュニティーができたりするわけです。
(「人工知能」や、これからの「電子辞書」「機械翻訳ソフト」は、デジカメの写真の「説明文字タグ」を読めないと意味が無い)
つまり、例えば、「人工知能」のミクちゃんに、デジカメの写真を見せた時に、「文字タグ」を読んでくれるように設計すれば、子供が、
「この写真の動物は何?」
と「人工知能」に聞けば、
(人工知能):「それは、”動物”ではなくて、アルパカのぬいぐるみです。」
と教えてくれるわけです。
つまり、「デジカメの写真タグ」も工夫しなければいけなくて、「人工知能」の設計の肝はここですが、(大分類)(小分類)(分野)(詳細種別)など、とても、複雑な階層構造を持たせます。
(これは、機械翻訳ソフトの単語登録構造も、このようにすれば、より精度の高い、今の文章の内容を、コンピューターが理解した、優先翻訳例が出やすい設計になります!)
例えば、デジカメの写真の「文字タグ」や、電子辞書の単語が、「ワイン」であれば、それは(お酒)分類にしておけば、より精度の高い翻訳文を選んでくれます!
あるいは、(大分類:「飲み物」)(中分類:「お酒」)(小分類:「ワイン」)のように階層構造を持たせておけば、「飲み物に関する、より良い翻訳例」にも「お酒に関する文章の翻訳例」にも、「ワインの、注ぎ方のより良い翻訳例」にも、どんどんと、「幅の広い、人工知能の回答、返答例がもたせられます!」
例えば、
(子供):「このワインは、どのグラスで飲むのが、おいしいですか?」
(人工知能):「お酒は、大人になってからね。」
という感じの、人工知能的な「直接の質問返答」以外の柔軟な返答が返ってくるシステム設計になります。
「コーパス収集の文章例」としては、
・「これ、何?」
・「これは、何ですか?」
・「ねえ、これは?」
などのように、言語学で、「文法」から考えると、「人工知能」が意味を取れない質問文も、出てくるわけですが、この「文章の表現の揺れ幅を吸収して、全部処理できる」必要があります。
普通は、「方言」も入るはずなので、
・「何、言う(ゆう)とります?」
とかも、処理できなければいけないわけですが、「全ての世界中の人々の、全ての文章で同時に起こる!」ので、「コーパス収集解析システム」がなければ、到底、「人工知能」が賢くなったりするのには、私達が生きている程度の時間では無理なわけです!
(ただし、「”人工知能”を作るプロジェクトのプランニング」をきちんと組めば、たぶん、3〜5年もあれば、比較的、簡単に完成してしまいます!)
また、このように集めた「コーパス収集システム」のデータは、当然、皆が協力して作り上げていく物ですから、それを扱ったユーザー全体の共有資産とするのが普通で、言語学などの学術分野の貢献ができるわけです。
今回のようにして、「名古屋工業大学」などのように、「大学」だと、このように「純粋学問分野」として研究できるので(「言語学などの学術分野の貢献の為」という部分)、本来は、学術の発展という物は、このようにしてできあがっていく物です!
企業などになってしまうと、企業は、1企業の利益の為に行動するわけであって、かえって、学問分野が停滞してしまうのは、そういった理由もあるのです。(そうすると、当たり前だが、多数のユーザーの協力を得る事ができなくなるので。)
どういう事なのか?というと、こういった所が、「言語学プロジェクト」独特なわけですが、例えば、一生懸命ユーザーが、「初音ミク、おしゃべりソフト」に教えていくと、実は、MikuMikuDanceの他のキャラクターの時でも賢くなっているなどや、「同様な言語学プロジェクト全体に参加している、他の人工知能も賢くなる!」ので、ユーザーは、一生懸命やる、やりがいがあるので、プロジェクトが進むのは、「共有財産」だからです。(「人工知能」プロジェクトは、この仕組みが無いと無理!)
ただ、今回、面白そうなのは、「MMDAgent」は、「総合システム」な事で、ちょうど、MikuMikuDanceや、「VOCALOID 初音ミク」が発展していくメカニズムと、そっくりですが、参加したい得意分野の人が、MikuMikuDanceモーション担当であれば、この「初音ミク、おしゃべりシステム」の「リアクション」を増やしたり、モデル、アクセサリが作れる人は、他のモデルで、話せたり、好きなアクセサリを装着させたり、あるいは、「外国語」や「言語学」サポートができる人は、「電子辞書」や「コーパス文章例」を、どんどん増設していって、増やしていったりと、「みんなで参加して、1つの巨大プロジェクトを作れば、1人では、数万年後に完成するシステムが、3〜5年とかで完成したり、どんどん使い込む内に、精度があがったり、リアクションが増えたり!といった事が可能になるはずです!」
個人的には、例えば、「人工知能:初音ミク」ちゃんなどに、デジカメの写真を見せると、「文字タグ」から、関連情報を、電子辞書から探してきて、読み上げてくれるような、「秘書」機能的になったら、凄いなぁと思います。
例えば、「ツタンカーメン」の写真を見せて、
「この写真の人物は、何世紀の、どこの人?」
とかを聞くと、
「紀元前1300年頃の、古代エジプト第18王朝のファラオです。」
とかと、関連情報を読み上げてくれて、そうすると、では「ファラオって何?」などのように、つなげられるので、「人工知能」でも、会話が成り立ちそうなわけです。
定型文の説明文を用意して固定しておけば、「博物館」「美術館」などの質問応答用に使えそうです。
思うには、「N.U.D.E.@」を、XBOX360版で再始動して、今回は、「初音ミク」人気もあるので、「初音ミク」なども選べるようにすれば、かなり人気が出ていい気がします。
けっこう、「ミク」ちゃんの「人工知能」と、「おしゃべり」してみたいなぁというユーザーは、多いと思います。
さらに!「3D立体視テレビ」も出ているので、XBOX360は対応状況が未定で、よくわかりませんが、「3D立体視テレビ」対応にすれば、かなりバーチャルな感じです。
評価:
--- マイクロソフト --- (2003-04-24) |
評価:
--- エンターブレイン --- (2003-06) |
(MMDで、初音ミクとおしゃべりできるソフト「音声インタラクション構築ツールキット:MMDAgent」)
(これは、「名古屋工業大学」の開発による、サイエンスの分野の紹介動画です。)
最近は、MikuMikuDance関連の技術開発まわりが、恐ろしい事になっていて、MMEの3DCGエフェクトも凄いですが、こちらは、本場のサイエンティストの方なのです!
もともと、「VOCALOID 初音ミク」もそうですが、「初音ミク」自体が、音声技術の最先端なわけで、そもそもが、バリバリのサイエンスの分野なのです!
なので、自分もそうですが、けっこう、技術ばたの人の心をつかんでしまうので、割と、「初音ミク」関連まわりには、サイエンティストが、かなりいるはずです。
という事で、この「音声合成などの人工知能的な会話能力の開発」の方の動画の説明を書きます。
この動画では、音声認識、音声合成技術と、3Dキャラクターのアクションとを合わせたり、言語プロセッサによって、「人工知能」的な初音ミクちゃん(など、何でも)と会話できる!という恐ろしい技術のたまものです!(クリプトンや、ヤマハの技術陣がからんでくれば、VOCALOIDが、「人工知能」的になって「話す!(発音する。ではなくて、”おしゃべりする!”という会話能力の方です!)」のは時間の問題で、けっこう早いはずです。そういえば、21世紀になったらできると言われていた技術に「3D立体視テレビ」がありましたが、これは、実現したのですが、もう1つ残っているのは「人工知能」技術です!)
ついに!バーチャルアイドルが、3D立体視テレビだけでなくて、「人工知能」的に、会話できるようです!
大昔にも、似た考え方がありましたが、現代では、言語プロセッサ用の辞書量が膨大なので(作って増設して、増やしていけば、精度が、どんどん上がったり、また、かなりの外国語でも対応できるようです!)、かなり判断して話せるようです!
完全に、サイエンス分野の物なので、かなり扱いが難しくなる気がしますが、サイエンステクノロジーの優秀な物は、やっている事は、複雑で高度であっても、扱う人の方は、意識せずに簡単である。というのが、サイエンスの最終目標なので、技術が拡大していけば、だんだん、簡単で手軽に扱えるようになると思われます。
自分も、こうした言語プロセッサなど用の電子辞書などは、ちょっとかじった事がありますが、実は、「人工知能」として扱える程の量の電子辞書量としては、「150万語以上」が絶対に、必要になってきます!
問題なのは、その位の量の語彙を素早くさばける電子辞書は、けっこう作るのが難しいわけです。
自分が知っている中では、その位の能力を持つ電子辞書は、「英辞郎」という電子辞書しか知りません。
「英辞郎」自体は、現在、第5版ですが、「170万語」以上でも、まだまだ、さばける語彙数の数パーセントという、恐ろしい数の語彙数が扱える上に、ユニコード対応なので、世界中の古今東西の、ほとんど全ての言語に対応しています。
この「名古屋工業大学」などの、「人工知能」的な言語プロジェクトで、しかも、世界中の全ての言語に対応した言語システムを構築したい場合には、この「英辞郎」に入っている機能の「ユーザー辞書作成」機能を使えば、自分で、世界中の、どの国の言語でも、電子辞書数を増やす事が可能なので、言語プロジェクトチームには、うってつけの技術でしょう。
「人工知能」用に必要な電子辞書の語彙数の目安を書くと、
・2000語(必須日常単語の最低限を集めると、これ以下では無理。犬、猫、赤、青、黄色、大きい、小さい、スプーン、フォークなど、基本単語を書き出しただけで、この数になる)
・10000語〜15000語(普通の必須日常会話の簡単な物まで)
・35000語〜50000語(高校入試、大学入試程度まで)
・7万語〜10万度(一般社会人程度まで)
・25万語〜50万語(一昔前の、電子辞書の程度で、けっこう、調べたい単語に限って出てこない、微妙な感じの程度)
・100万語〜150万語(とりあえず、外国語の新聞などや、各技術、産業分野などの多岐な専門用語まで、翻訳したり、把握できる程度。なので、「人工知能」では、ここが最低ラインとなります。)
さらに!この「150万語」越えをしてくると、博物館などでの「考古学の古代語」も話したり、説明できるようになってきます。(けっこう、秘書系や、ツンデレ系に自分は弱い)
「英辞郎」の電子辞書や、ユニコードでは、かなりの「古代語」電子辞書でも扱えます。
ここで、わかってくる事は、技術は、知識よりも「気合い!が大事!」という事で、この分量をこなせるのは、知識だけではなくて、主に!「気合い!」の方が重要なので、気合い!で頑張ってみましょう!