ブックタイトルSENTAN せんたん MAY 2021 vol.30

ページ
5/20

このページは SENTAN せんたん MAY 2021 vol.30 の電子ブックに掲載されている5ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。

概要

SENTAN せんたん MAY 2021 vol.30

知の扉を開く進化する手法の基礎固めこのような課題を克服するため、機械翻訳の方法は進化し続ける。統計的機械翻訳(SMT)は、単語、句の訳や並べ替えが適合する確率など翻訳の作業に必要な知識情報について、蓄積した翻訳用例集(コーパス)から統計的に近似の情報を取り出して学習し、最適の翻訳候補を選んで精度を高める。さらに、ニューラル機械翻訳(NMT)は、SMTの作業の各段階に必要な言語情報をAIの深層学習という方法により、自動的に学習してしまうことから、大きな話題を呼んだ。ただ、流暢に翻訳するあまり、訳出すべき単語が抜けてしまったり、訳語が重複したりするケースもあり、改善が急がれている。こうしたことから、渡辺教授らは、解析に必要な情報(アノテーション)を付加した言語データづくり、単語間の係り受けの解析を的確に機械学習で行わせる方法などについて細部にわたる基礎固めの研究を行っている。「例えば、固有名詞の場合、本学の名称の正式な英訳は『NARA Institute of Science and Technology』ですが、奈良先端大と省略したのを『NARA Cutting Edge』と英訳されたら困りますよね。このような固有表現の扱いは発展途上で、背景がわかるようなデータを集めれば、個別に柔軟に対応できるという研究も行っています」と渡辺教授。性能が向上した最近の成果は、NMTを使い、日本語と英語など文の構造がかなり異なる言語間の翻訳を向上させたことだ。機械翻訳システムの言語の変換の時点で、それぞれの主語、述語などの位置を明示する「自己注意機構」というシステムにより、個別の句単位の構造を導きだし、比較対象して同期させる方法で、日英翻訳のほか、独英翻訳でも成功した。また、NMTは、蓄積データにない「未知語」の処理は苦手だが、さまざまなデータのつながりを示す「知識グラフ」を入れることで改善することを確かめた。「NMTは、大量のデータを入力すれば、比較的容易に出力されますが、その間にどのような処理がされているのか、ブラックボックスが多いシステムでもあります。そこを明らかにし、問題点を解決することで精度を高め、質問応答に使うなど応用範囲を広げていきたい」と渡辺教授。「バグ(プログラムの誤り)があると、自分の研究が正しいかどうか判断できなくなります。だから、バグをできるだけ少なくしようと心がけてきました」と渡辺教授。日々、論文と向き合っているが、息抜きは吉本新喜劇のお笑い芸人たち。東京勤務のときは、関西だけで配信される漫才の番組を京都の自宅で録画して置き、ハードディスクに入れて持ち帰り、楽しんでいた。タイトルを自動的に解析するとともに、推論技術により内容を把握したうえで要約する。さらに、目的の論文を関連する文書を含めて検索できるデータベースづくりにも役立てる。これまで印刷されていない電子ファイル(PDF)形式の論文データから、図表の画像データを抽出することに初めて成功した。「論文の数が急増していて、研究者がすべて読んでまとめるのは限界にきています。文書読解からデータベースづくりまでをコンピュータにより自動化していくことを想定しています」と進藤特任准教授。現段階では、過去の実験データを参照することが多い新素材など材料系の分野の論文を中心に研究している。「研究者によって論文のテキストや図表の書き方が異なるため、重要なデータのある場所がわかりにくいという難点があり、材料分野の研究者と共同で取り組んでいます」データのつながりを探る研究室所属の学生も自然言語処理のさまざまなテーマに取り組んでいる。博士後期課程2年の芝原隆善さんは、多くの文書に無作為に含まれる情報の中から、特定の対象にまつわる情報を検索し、そのつながりを明らかにする知識グラフの研究だ。例えば、全国の大学院の新卒生のリストが出たときに、いくつかのキーワードを入力するだけで、奈良先端大出身者を自動的に選んで、その同窓生などの情報を得る。あらかじめ人手でデータベースを作ることもなく、かなりの省力化になる。「ある問題に対する各政党の対し方、特定の政党の方針の変遷などを政党名が変わってもたどることができ、比較検討して俯瞰できるようなことも考えています」と意欲をみせる。大学生時代から、「何かひらめくとすぐに資料が調べられる」大学の図書館が好きで、研究でも図書館情報学の情報整理の考え方が参考になった、という。博士前期課程2年の澤田悠冶さんは、機械翻訳の課題のひとつである固有表現の自動抽出の研究だ。バイオサイエンスの専門用語が主な対象で、「ビタミンA&B」の表記では「ビタミンA」「B」と読みこまれて、ビタミンの表記が消失する問題に挑んだ。「AとBが並列関係にあり、ビタミンは両者にかかることを示し、ビタミンBの表記が復活できました。とくに辞書がない新しい専門用語は自動的に正しく表記することが困難で、これからの課題です」。澤田さんは、文系理系融合の総合政策学部の出身。通販サイトのレビューから特徴を抽出する研究を行っていたが、その中で見つけた奈良先端大の自然言語処理の論文に魅かれて入学した。「自然言語処理の大本のところから研究できるので、もやもやとしていた思いが吹っ切れ、毎日が楽しい」。博士後期課程への進学が決まっている。知識を獲得する進藤特任准教授は自然言語処理や画像処理の技術を使って、論文など専門性が高い文書を解析し、書き込まれた知識を獲得する研究を行っている。論文のテキスト部分と引用論文の▲芝原隆善さん▲澤田悠冶さん?情報科学領域自然言語処理学研究室https://isw3.naist.jp/Contents/Research/mi-01-ja.htmlS E NTAN04