関研究室 研究テーマ

関研では、主に、データ解析の研究をしています。データとしては、人工的に生成し たデータではなく、現実の世界にある、背後の構造が未知のデータに対し、そ の構造を明らかする方法を研究し、また、それにより現実に役に立つ結果を出 すことで、データを提供してくれた世界に貢献することを目標にしたいと考え ています。 方法論の研究としては、統計データ解析のためのモデルにおける推測方式や、 確率モデルの理論解析とシミュレーションによる評価/分析、 等の研究を行なっています。

現実のデータ/統計モデル/確率モデルに興味を抱く人を歓迎します。

研究テーマを以下に示します。 卒論で配属された人には、 これらの中などから、本人の希望に合わせて、 具体的なテーマを考えたいと思います。



<研究テーマの説明>
データ解析手法に関する研究(データマイニング)
 

 近年、ネットワーク技術、センサー技術の発展とともに、 大量の情報収集が即時的広域的に可能となってきています。 たとえば、ものの売買の場面では、 クレジットカードの使用履歴や、コンビニなどのPOSデータ。 行政でも、介護保険の要介護度認定のためのアセスメント調査結果 などの個人情報。などなど、いくらでも列挙できます。 各種の情報は、本来の目的、例えばクレジットカードなら、 代金の決済に使われるわけですが、 それ以外にも役に立つ情報をいろいろ含んでいると思われます。 情報はこのように一度、デジタル化されれば、 低コストで大量に収集・蓄積・加工できますから、 そこから有益な情報を引き出せる可能性が広がってきます。 計算機のコストパフォーマンスは年々向上しますから、 大量に蓄積された情報を加工/分析することは、容易になってきています。 つまり、このようなデータを利用した 計算機による各種の意思決定支援の可能性は大きく広がりつつあるといえます。

 しかし、これらのデータは1件1件は少ない情報しか持っていない上に、 広い範囲から情報が収集されるため、従来の単一の統計モデルではその多様性に 対応できないという問題点が存在します。 また、データ収集の方法によっては欠測値が存在したり、データの構造が複雑で あったりもします。 データ解析は統計学の分野で長い研究の歴史があります。また、近年、 情報工学領域では、人工知能分野の機械学習や、データベース関連分野で データマイニングやデータウェアハウスなどという名前で研究されています。 それぞれの分野で問題を捉える視点や用語は異りますが、 類似した研究が進められています。 当研究室では、このような研究に学びながら、 データ発生源としての現象に対する理解を与えてくれるような確率モデルを 多量データから見付け出し、有益な情報を引出すための統計手法を研究しています。

 具体的には、沢山の個体(人やものごと)のそれぞれに対して、 沢山の観点(変量)の観測が行なわれたデータを対象とした 樹形モデルなどの解析手法についての研究を進めています。

AICやMDLなどの統計モデルの評価規準に関する研究

 現実の世界からデータが与えられ、 データに基づいて何らかの判断をする必要があるとき、 そのデータを発生させた現実の世界の仕組みを把握理解する必要があります。 その理解の方法として、統計学では、 データがどのような仕組みで発生したかを数学で記述したもの (確率分布を指定するモデル)を当てることを目標とします。

 現実の世界に関する我々の知識は不完全なものですから、 どのような仕組み(モデル)が妥当なのかは、 得られたデータから判断しなくてはなりません。 このような判断の際に用いられる規準をモデル選択規準と呼びます。 まだ、現在いろいろな分野で盛んに研究されているテーマですが、 従来の統計的仮説検定などの考え方を包括する考え方として期待されています。

 当研究室では、これらのモデル選択規準の統計的性質を シミュレーション実験などで研究しています。 また、その応用として、 系列として与えられるデータの途中での起こるモデルの変化を当てる方法の研究や、 限られているとはいえ、現実の世界に関する我々の知識がある場合に それをうまくモデル選択の際に役立てるための方法に関して 研究を進めています。



統計屋は多量データを喰ってモデルの げっぷ をする。


Seki Lab @ Gunma Univ.JP. 1999.