情報科学領域
自然言語処理学研究室
准教授
上垣外 英剛 Kamigaito Hidetaka
生成AIが携える知識を自ら拡張し、膨大な情報の処理能力を高める
機械が人間の言葉を理解
人間が問いかけると、コンピュータがネット上の膨大なデータを検索して、立ちどころに自然な言い回しで答えてくれる。このチャットGPTなど生成AI(人工知能)の出現は、機械の知能化の研究が情報科学のさまざまな理論や技術を取り込み、とめどなく急速に進化していることを実感させるほどの衝撃でした。
上垣外准教授の研究は、自動的に他国の言語に変換する機械翻訳やチャットGPTなどの基盤技術である「自然言語処理」の分野です。「現在の研究対象は、機械に人間の言葉を正確に理解させ、整った文を作りださせる自然言語生成のためのプログラムです。それに次々とデータを追加して学習させても、ミスなくスムーズに情報処理のための知識を拡張できるという高性能化の新しい手法を提案し、開発に取り組んでいます」と研究の進行状況を説明します。ネット上に膨大な情報が氾濫する中で、生成AIが底力を発揮するには欠かせない課題です。実現したとき、身近な例では、米ドジャースで大活躍する大谷翔平選手の本塁打の本数など成績が更新されるたびに、ただちに取り入れて補正し、常に最新の情報を踏まえた対話がかなうことが期待されます。
自動的に推論して補完
コンピュータが自然言語を生成する場合、特定分野の大規模な言語データのセットを使った機械学習(深層学習)により、その分野に共通した言語の特徴を抽出するように訓練された「事前学習済み言語モデル」をあらかじめ作っておき、利用します。ただ、新たに学習用のデータを追加していくと、すでに持っていた知識が上書きされて忘れてしまう事態を招くことがあります。
こうしたミスの回避策として、文中の単語(人名、場所など物事)同士の相互関係の構成をネットワークのように図式化して整理した「知識グラフ」を別に作り、これを参照する方法があります。ところが、知識グラフの作成は人手に頼るので、作業時間やコストがかかり、実用化のネックになっていました。
そこで上垣外准教授が提案した新手法は「人は本を読んで知識を得るのだから、人間(事前学習済み言語モデル)が本(知識グラフ)を携えたパターンを機械が模倣すればよい」との発想から編み出されました。それは、この言語モデルのプログラムの中に、知識グラフが入る領域を設けるとともに、追加されたデータから言語モデル自体が推論してグラフに書き込まれていない知識を補完します。これで、継続して自動的に正しく知識グラフを更新してテキストを作成するための突破口が開ける可能性が見えてきました。
「研究開発は、言語モデルに知識グラフを組み入れて、新手法の有効性を実証する段階にきています。当面の用途は、新たな知識を参照する必要があるテキストの自動要約や対話の自動応答が考えられますが、汎用性が高いので、知識グラフを入れ替えることで専門性を出す方法も考えていきたい」と抱負を語ります。
発展性を重視する
上垣外准教授がAIの研究を始めるきっかけを作ったのは、ロボットでした。十数年前の高校生時代に、「人間のように動くロボットを作りたい」とあこがれ、その脳に当たる部位には、AIの初期の手法である「パーセプトロン」などが使われていることに興味を持ち、東京工業大学に入学しました。
「大学、大学院へと進学して行く間に、人間の脳が、本来、どのように考え、体を動かしているかということに興味が移って、人工知能の研究にシフトしていったのです。グーグル検索などが広まり出したころに中高生だったので、体を持たないロボットという概念に違和感がなく、発展の可能性を感じていたのかもしれません。」
東工大助教を経て、2022年に本学准教授に就任しました。その間、上垣外准教授は機械翻訳や、記事などテキストの自動要約、知識グラフの研究で成果を上げました。「ウェブ検索に連動した広告文を自動的に生成する研究では、過去にない広告文という条件を付けて機械学習(強化学習)させたところ、予想以上に魅力的なキャッチコピーになったことが印象に残っています。」
上垣外准教授の研究哲学は「発展性を重視する」です。「研究を始める前から次の研究にどのようにつなげるかを常に考える。特に、急進しているAIの分野は、研究途上で世の中の流れが変わったり、より優れた方法が出現したりします。最初の研究方法に固執すると、かえって問題を難しくする。時機を待つことも大切です。」
趣味は、高校生時代から続けている写真撮影。被写体は、ペットの猫のほか、奈良・京都の神社仏閣など風景が中心で、休日には訪ね歩きます。「奈良の街の人々は、表情が明るく、気さくで心がなごみます。」