AIが人と機械のコミュニケーションを支援する
多感覚の情報を統合して解析
政府の未来社会構想「ソサエティ5.0」では、少子高齢化や地方の過疎化など人口減少をめぐる重要な課題の解決策として、人とAI(人工知能)、ロボットが協調して家事や仕事をする技術の開発を求めています。この構想について、サクティ教授は「実現に向けて、もっとも大切なのは、AI自体が賢くなるだけでなく、機械が人間をどのようにサポートできるか、共に生活できるかということです。そこで、我々の研究室では、人が機械に対し、意見交換や共同作業などで知識をシェアするコミュニケーションにより、インタラクション(交流)することが必要との見方から、研究を展開しています」と説明します。
サクティ教授が准教授の頃から携わり、今でも主な研究として開発を続けているAI技術は、「スピーチ・チェーン(言葉の鎖)」というヒューマンコミュニケーションのモデルに発想を得たシステムです。音声を聞き取りテキストにする「自動音声認識(ASR)」と、テキストを読み上げて話す「音声合成(TTS)」を統合していて、機械が自身の発話を聞いてフィードバックしながら話すので、言語表現の精度が高い円滑な対話が可能になります。さらに、視覚の役割をする画像キャプショ二ング(IC)などで多感覚の情報を取り込んだり、異なる言語に切り替えるコードスイッチング(CS)で多言語の音声翻訳に対応したりと、機械のコミュニケーション能力を高めることを目標にしています。
幼児のように言語を習得する
日本語、英語など使用人口が多い音声言語の自動機械翻訳では、通常、対象になる言語特有の知識や、音声認識したデータとそれをテキストに書き起こしたデータなど大規模な高資源のデータを用意して、それを参照する「教師あり学習(深層学習)」を行いますが、そのようなデータ収集と整備には多くの時間と予算がかかり、利用者の少ないマイナーな言語では不可能です。世界には7000以上の言語があり、そのうちシステム化されている言語は100から200程度。システム化されていない言語は6000以上も残されています。サクティ教授らが研究に取り組んでいる「低資源多言語マシン・スピーチ・チェーン」の技術は、そうしたデータがほとんどない未知の言語であっても、ASRとTTSが統合されたシステムなので、音声の認識と合成を繰り返すうちに「教師なし学習」や「半教師あり学習」を行い、その言語の特徴、単語の意味など知識を蓄えて翻訳に役立てることをめざしています。言語の壁を越え、多言語に対応できるシステムです。
「インドネシアの地域言語であるジャワ語などの音声データを集めており、それを使ってシステムの構築を進めています。低資源多言語マシン・スピーチ・チェーンを使えば、マイナー言語でも幼児のように少しずつ言語学習して、Lifelong 学習が可能となり、マイナー言語でも多言語音声翻訳が使えるようになります。より多くの人々のためにも、システムの完成を目指したい」とサクティ教授。
ネット検索で見つけた研究の場
サクティ教授は、インドネシア・バンドン工科大学を卒業後、ドイツ・ウルム大学に留学し、工学博士の取得を目指していた時に、「AIによる音声合成の研究を長く続けられる場を見つけたい」とインターネットで検索していたところ、当時、国際電気通信基礎技術研究所(ATR)の研究所長だった中村哲・現奈良先端科学技術大学院大学研究推進機構特任教授の研究を知り、すぐさまメールで連絡し、来日して研究員になりました。「日本で行う研究が興味深く、生活環境もよかったので、腰を落ち着けて研究しようと決心しました」。
その後、2011年には中村教授の研究室にて奈良先端大助教、2018年には特任准教授となり、北陸先端科学技術大学院大学准教授を経て、今年4月に、再び本学教授として赴任しました。研究に対する思いは「人間に学んで成果を得たら、それを人間の生活に戻して実際に改善されるまでサポートすることが大切」です。
地図と言葉を結びつける
大内准教授は、文章に書かれた場所を地図の位置情報と自動的に照らし合わせて足跡をたどったり、衛星画像の時間的な変化から、被災箇所をつきとめたり、位置など空間の情報と言語情報を統合して解析するAIの開発に取り組んでいます。
人の移動軌跡を解析する研究では、大規模言語モデル(LLM)を使い、まず、文章から場所を表す言葉を抽出します。次いで、文章の作者が実際に訪れたかどうか、その順番を予測したうえで、地図上にプロットして可視化します。その際、「奈良市」と「奈良公園」にみられるような場所の包含関係も含めて、訪問順序を図式(知識グラフ)で表せるようにしました。
「松尾芭蕉の奥の細道を読んでいてひらめきました。新型コロナ禍で感染者の行動を軌跡として地図上に描き出し、感染源を特定するような使い方にもつながると思っています」と大内准教授。
また、衛星画像から異変を自動的に読み取り、説明する研究は、衛星画像データと、文字情報を読み込んで統合する大規模画像言語モデル(LVLM)を使います。撮影に時間差がある2枚の衛星画像を読み込ませ、時間の経過に伴い変化した場所を突き止めると同時に、その地名、変化の理由などを入れた説明文を表記させて、一目で理解できるようにします。「地震で土砂崩れした場所などの被災箇所は上空から見つけ易く、衛生画像を読み取り、状況を言葉で説明できるようなAIがあれば、人間の専門家の助けにもなると思います。」
大内 啓樹准教授
文系に優しい理系大学院大学
大内准教授は、甲子園大会の出場をめざす高校球児だった。大学は文系の教育学部に入り、高校の英語教員を目指していたところ、教員一人当たりの英作文などのテストの添削の多さに驚き、「これをコンピュータで自動的にできないか」と思ったのが、理転のきっかけでした。本学に入学し、自然言語処理の分野の研究で博士を取得。今年4月に准教授となりました。
「本学入学時は、文系の数学しか学んでいなかったので同期のみんなに追いつくために必死でしたが、文系向けの授業の設定や先輩の指導など受け入れる体制が整っていることがありがたかった」と振り返ります。「本学での研究で未知の領域を開拓する楽しさを知り、研究領域全体を刷新するような研究に挑みたい」と話します。
ロボットがコミュニケーションを支援する
メファムード助教は、オンラインの会議などで参加者のコミュニケーションを支援するためのロボットやアバターの設計の研究をしています。これまで、参加者が遠隔操作により、自分の意見を伝える形で発言させられるロボットを他の参加者のそばに置くことで、コミュニケーションに対する不安が軽減できるなど、支援策を提案しています。「新型コロナ禍の影響もあり、オンラインでの会議が増加しています。高齢者らコミュニケーションが取りにくい人の支援も考えていきたい」と語ります。
メファムード助教は、パキスタンの国立科学技術大学(NUST)でロボット工学の修士課程を修了した後、大阪大学で博士号を取得しました。「日本は父親から科学が進んだ国と聞かされていて、人型ロボットのエキスパートも多い。社会貢献できる研究を手掛けたい」。
メファムード・ファイサル 助教
英語が公用語
研究室に所属する大学院生17人のうち、半数以上の9人が留学生だけに、研究室内では、主に英語で議論します。
博士後期課程2年生の高橋舜さんは、東京外国語大学でアラビア語を専攻していましたが、フィールドワークにより、未知の言語の文法を明らかにする「フィールド言語学」に興味を持ち、「音声データをコンピュータでもっと自動的に処理できないか」と大学3年生の時に思い立ちました。そこで本学に入学して音声言語処理の研究を続けています。「テキストを使わない教師なし音声認識が現在のテーマで、音声データをテキストに書き起こす時の文字のような独自の記号をコンピュータに自ら発見させる手法を提案しています。将来的には、多言語通訳にもつながる言語普遍的な音声言語処理技術に持っていきたい」と抱負を語ります。好きな言葉は中東の格言で「知を求めよう。たとえそれが(中東から遠く離れた)中国にあっても」。
博士後期課程1年生のベニタ・アンジェラ・チタリムさんは、インドネシア・バンドン工科大学出身。特定の子音が聞き取れないお年寄りや聴覚障がい者のリハビリのための自動音声認識や音声合成の研究を続けています。「現在、聴覚障がいの症状と同じ条件下の音声データの収集を行っていますが、英語以外の言語のデータがほとんどなく、苦労しています。今は、お年寄りにフォーカスしていますが、社会に受け入れられるように多くの人を助けていきたい」。本学については「多くの人が英語を習得したいと話しかけてくれるので、友達ができやすい環境がすばらしい」と話していました。
高橋 舜さん
ベニタ・アンジェラ・チタリムさん