2016/09/02
研究成果のポイント
- 全国の都道府県の組合せからなる隣接ブロックを網羅的に数え上げて索引化することに成功。
- 膨大な個数の隣接ブロックを数え上げたことは、明治以降の都道府県設置以来、初めての結果。
- 地理的分布の統計解析の基礎データとして、独立行政法人 統計センター等から公開予定。
- 疫学や環境調査などにおいて、直接計算により統計的に最もリスクが高い隣接ブロック(ホットスポット)の検出に初めて成功。
研究成果の概要
北海道大学の湊 真一教授、水田 正弘教授は、奈良先端科学技術大学院大学の川原 純助教、岡山大学の栗原 考次教授、石岡 文生准教授らとの共同研究により、全国の都道府県の組合せからなる隣接ブロックを網羅的に数え上げて索引化することに初めて成功しました。本研究により、都道府県の組合せ隣接ブロックの総数は1098億5712万5702通りであることが明らかになりました。これは明治以降の都道府県設置以来、初めての計算結果です。今回得られた索引データは、公的統計や疫学調査等における地理的分布の統計的解析の基礎データとして重要であり、独立行政法人統計センターから公開されます(http://www.nstac.go.jp/services/prefcomp.html)。今回の学術的な成果は、2016年度統計関連学会連合大会における企画セッション「超高速グラフ列挙法と統計学への応用 」(数学協働プログラム)として、9月5日(月)に発表予定です。
なお、本研究は、日本学術振興会 科学研究費助成事業 基盤研究(S)「離散構造処理系の基盤アルゴリズムの研究」の助成を受けたものです。
論文発表の概要
研究論文名:データ解析における超高速グラフ列挙法および連結成分列挙法の活用について(5編)
著者:水田 正弘(北海道大学 情報基盤センター)、湊 真一(北海道大学 大学院情報科学研究科)、谷道 正太郎(独立行政法人統計センター)、川原 純(奈良先端科学技術大学院大学情報科学研究科)、石岡 文生、 栗原 考次(岡山大学大学院環境生命科学研究科)
公表会議:統計関連学会連合大会 企画セッション「超高速グラフ列挙法と統計学への応用」
公表日:日本時間 2016年9月5日(月) (会場:金沢大学 角間キャンパス)
研究成果の概要
(背景)
統計調査等で地理的特徴を解析する場合に、都道府県単位で結果を比較することがよく行われます。一方、関西2府4県など、つながっている地域をまとめて考えることもよくあります。すなわち、県単体ではなく、隣接情報を用いることで、より広域の地域的特徴を考慮することができます。例えば、東京都を含む3都県の隣接ブロックは全部で14通りあります(図1)。このように、複数の都道府県からなる隣接ブロックの組合せが全国に何通りあるかという問題は、統計分野の基礎データとしての意味を持ちます。隣接ブロックに含まれる都道府県数が少なければ、一つひとつ順番に数え上げていくことができますが、都道府県数が多くなると組合せの総数はネズミ算のような勢いで増えてしまい、計算時間がかかり過ぎるため、これらを全て網羅的に数え上げたという結果は、過去に知られていませんでした。
(研究手法)
北海道大学大学院情報科学研究科の湊教授を中心とする研究プロジェクトでは、膨大な個数の組合せを超高速に場合分けしながら処理するZDD(ゼロサプレス型二分決定グラフ)と呼ばれるアルゴリズム技法の研究開発を行っています。本研究では、北海道大学情報基盤センターの水田教授、岡山大学の栗原教授、石岡准教授らの統計学的な知識をもとに、奈良先端科学技術大学院大学の川原助教の協力を得て、ZDD技法を用いて、全国の都道府県の組合せからなる隣接ブロックを網羅的に数え上げて索引化する課題に取り組みました。
(研究成果)
本研究により、隣接ブロックに含まれる都道府県数を1, 2, 3, ..., 47と増やした時に、全国の隣接ブロック数が何通りあるかを正確に数え上げることに成功し、それら全てを合計した総数は、1098億5712万5702通りであることを明らかにしました(表1)。これは明治以降の都道府県設置以来、初めての計算結果です。さらに、隣接ブロック数を数え上げただけでなく、見つかった全てのブロック構成をコンパクトに索引化して保持することができます。本研究成果により、疫学や環境調査等において統計的に最もリスクが高い隣接ブロック(ホットスポット)を、近似的な方法ではなく直接計算して検出することが初めて可能になりました。今回得られた索引データは、公的統計や疫学調査等における地理的分布の統計的解析の基礎データとして重要であることから、独立行政法人統計センターから公開され、学術・教育に限らず商用も含め自由に利用できます。
(今後への期待)
本技法を用いれば、各都道府県内の市町村の組合せについても同様のことが可能となります。また米国50州の組合せや、世界の大都市の行政区についても適用可能です。期待される応用としては、例えば、伝染病や公害病の発生危険地域の検出、少子高齢化対策の基礎データ(出生率、婚姻率、離婚率、死亡率等)の分析、種々の経済活動の地理的分析等が考えられます。本研究により隣接ブロックの総数が明らかになったことで、実データに見られる地理的偏りが単なる偶然のばらつきによるものか、偶然ではない未知の原因が疑われるものかを、より正確に検定することができます。また索引化により、特定の都道府県を含む(または含まない)など様々な制約条件を満たす隣接ブロックを素早く抽出することができ、統計処理の高速化が期待できます。
お問い合わせ先
北海道大学大学院情報科学研究科 教授 湊 真一(みなと しんいち)
TEL:011-706-7259/6469 FAX:011-706-7808 E-mail:minato@ist.hokudai.ac.jp
ホームページ: http://www-erato.ist.hokudai.ac.jp/
奈良先端科学技術大学院大学情報科学研究科 助教 川原 純(かわはら じゅん)
TEL:0743-72-5362 FAX:0743-72-5369 E-mail:jkawahara@is.naist.jp
ホームページ: http://www-lsm.naist.jp/index.php/Home/
岡山大学大学院環境生命科学研究科 教授 栗原 考次(くりはら こうじ)
TEL:086-251-8832 FAX:086-251-8832 E-mail:kurihara@ems.okayama-u.ac.jp
ホームページ: http://www.okayama-u.ac.jp/user/est/homeJapan.html
独立行政法人統計センター統計技術研究課 企画担当
TEL:03-5273-1368 FAX:03-5273-1081 E-mail:I-kenkyukikaku@nstac.go.jp
ホームページ: http://www.nstac.go.jp/