情報科学領域
知能コミュニケーション研究室 助教
品川 政太朗 Shinagawa Seitaro
コンピュータとの対話で自在に画像を描く
デザインの現場で活用
コンピュータに言葉でイメージを説明することにより、思い通りの高品質な画像を自動的に描かせる「深層画像生成モデル」の研究が盛んになっています。自分の考えを可視化してコミュニケーションを深めたり、広告や服飾などさまざまな意見を取り入れるデザインの制作現場に活用したり、言語と画像を組み合わせて課題を解決する「ビジョン・アンド・ランゲージ」というITの新分野の有力な手段になるからです。この画像生成モデルの基盤技術を開発する品川助教は、初心者でも使える自然言語によりコンピュータとの対話を繰り返し、指示された内容を的確に反映した画像を得る高精度なシステムの研究を重ねています。
「画像生成システムには、手描きの線画を入力するなど熟練したスキルが必要なケースが多いですが、自然言語は未経験者でも使えます。ただ、言葉の意味が多様で、十分に言い切れていない内容もあり、そのあいまいさや欠落した部分を、コンピュータ側が提示して利用者に確認することで、精度を高めることを目指しています」と品川助教は説明します。
利用者に情報不足を表示
品川助教の手掛ける「深層画像生成モデル」の仕組みは、まず利用者が思い描く物体のイメージを伝える短文の中から、どの位置をどんな形、色にしたいかといった、意図を表す単語の情報を引き出し数値化(複数の数値を組み合わせたベクトルの形式)します。次いで、人工知能(AI)の深層学習という手法により、あらかじめ蓄積された画像データとテキストデータで学習された画像生成器によって、一から新しく画像を作成して提示します。
これまで提案したシステムでは、画像がイメージと合わなければ、別の表現の短文を入力してすり合わせていましたが、指示内容を明確に表現できる短文に限って使う必要があり、「未だきめ細かい操作が難しい」などの評価がありました。
そこで、品川助教は、画像生成の際に、どの単語情報が不十分かを推測できる「グラフ構造」というITの理論を使って、「形」「色」など単語別に可視化して表示し、利用者に「この出力でいいか」と確認を求める方法の研究を進めています。
これまで、すべての指示語を一括して可視化する方法しかなかっただけに、指示語の補足や部分的な修正が、きめ細かく容易にできるようになるわけです。例えば、鳥の画像を生成したい利用者の指示には含まれなかった胸の形について、「丸いか細いか、どちらがいいですか」とコンピュータが可視化して提示し、新たに入力することでイメージ通りの画像を結ぶことができます。
「人間同士のコミュニケーションでも抜けた言葉を聞き返して誤解を防ぐことがありますが、今回のようなコンピュータが対話しながら、人間に合わせて学習していくというシステムを拡充し、実用化をめざしたい」と品川助教は抱負を語ります。
柔道部の体験が原点
こうした人とコンピュータのコミュニケーションに関わる研究の原点は、東北大学工学部の学生時代に柔道部の「主務」を経験したことにあります。マネージャー役も担当するため、部内外の調整に奔走している間に対話を重ねることの大切さを実感しました。そのことから、専攻していた情報工学の分野でも「コンピュータと対話的なプロセスで建設的な関係を築けるのではないか」と考えるようになりました。そこで、研究の場を探していたところ、奈良先端大の知能コミュニケーション研究室(中村哲教授)に遭遇し、博士課程から入学して研究を続けています。
品川助教の研究の心構えもやはり「1人でできることは少なく、コミュニケーションを取りながら、研究に励むこと」。札幌市出身で大学は仙台市と北の生活が長く、奈良県に住むのは初めて。「温暖で環境がよく、観光地にも行きたいが、助教に就任して忙しくなり、奈良公園で鹿とたわむれることしかできていません」と打ち明けています。