MDL研究室へようこそ
筑波大学 情報理工学位プログラム 機械学習/データマイニング研究室(MDL)では,アルゴリズムの開発と数理統計学に基づく理論的解析を通じて,機械学習・データマイニングの信頼性の向上を目指しています.とくにデータバイアスに起因する課題に重点的に取り組んでいます.研究テーマの概要
博士前期課程・博士後期課程への進学を検討されている方で,データバイアスのもとでの信頼できる機械学習を実現するためのアルゴリズムの開発や理論的解析に関心のある方のご応募を歓迎します.詳細は研究室に興味のある方へページをご覧ください.
筑波大学情報科学類3年生向けの研究室紹介動画を公開しています.
お知らせ
研究概要
機械学習は大量のデータから学習してコンピュータに予測を行わせる技術であり,チャットボットから医療画像診断まで幅広い応用を支えています.しかし,訓練に使われるデータは,モデル学習者の意図から外れて偏っていることがあります.このデータの偏りをデータバイアスと呼びます.バイアスのあるデータで学習したモデルはそのバイアスの影響を強く受け,信頼性の低い結果を生む恐れがあります.本研究室では,データバイアスが存在する状況でも意図どおりに振る舞うアルゴリズムの開発を目指しています.具体的な研究テーマは次の3つです.
- 公平性 (Fairness): 予測対象のデータは,歴史的・文化的背景を反映して,人種・性別・年齢などの社会的属性に関して偏っていることがあります.このバイアスは学習済みモデルに引き継がれ,それらのグループに対する差別的な予測を引き起こす可能性があります.公平な機械学習アルゴリズムとは,このようなバイアスのある訓練データのもとでも正確かつ非差別的な予測を行うよう設計されたアルゴリズムです.最近の成果として,公平性と予測性能のトレードオフを高効率で制御できる後処理型アルゴリズムの開発 (M. Sakata et al., 2026) や,公平性制約のもとで最高精度を達成するアルゴリズムの理論的解明 (K. Fukuchi, 2025; K. Fukuchi et al., 2023) などが挙げられます.
- 転移学習 (Transfer Learning): 訓練時に観測されるデータは,予測時に直面するデータとは分布が異なることが多くあります.たとえば,ある病院の患者データは別の病院のデータと一致しないことがあり,シミュレーションで学習したモデルが実環境で失敗することもあります.このようなデータ分布の不一致は,学習済みモデルのターゲットデータへの性能低下を招く可能性があります.転移学習は,少量のターゲットデータを用いてモデルをターゲット分布に適応させることでこのバイアスに対処します.最近の成果として,サポートが重ならない設定での転移学習の成功の理論的保証 (M. Fujikawa et al., 2025) や,事前学習のスケーリング則の理論的証明 (K. Fukuchi et al., 2026) などが挙げられます.
- 外分布汎化 (Out-of-Distribution Generalization): 予測対象のデータが,非因果的な属性とスプリアスに相関していることがあります.たとえば,物体検出タスクでは,訓練データ中で牛はほぼ常に草原の背景とともに登場するため,モデルが動物そのものではなく背景を手がかりに予測を行うことがあります.このスプリアス相関により,学習済みモデルは同じ物体が異なる文脈に登場すると大きく性能が低下することがあります.外分布汎化の目的は,テスト時にそのようなスプリアス相関が成り立たない状況でも正確に予測できる手法を開発することです.最近の成果として,スプリアス属性が未知の場合にも視覚言語モデルを活用してスプリアス相関を軽減するアルゴリズムの開発 (下坂, 2024) が挙げられます.
現在進行中の助成事業
基盤モデルによる外分布汎化可能な公平回帰アルゴリズムのminimax最適性解明 (科学研究費助成事業 (基盤研究(B)); 2026–2030; 研究代表者:福地 一斗)
- 本研究課題では,外分布汎化のシナリオにおける公平性ミニマックス最適(最良の公平学習アルゴリズム)の解明を目指す.外分布への汎化を実現するため,基盤モデルを活用して異なるドメイン間に共通するタスクを見出す.
識別における因果構造を考慮したAIに対する攻撃機序の理解とその防御戦略の構築 (科学研究費助成事業 (基盤研究(A)); 2023–2027; 研究分担者:福地 一斗 (研究代表者:佐久間 淳,東京科学大学))
- 本研究課題では,識別の因果構造を通じたAIに対する攻撃機序の理解と,それに対する防御戦略の構築を目指す.
参考文献
- Kazuto Fukuchi and Jun Sakuma. Demographic Parity Constrained Minimax Optimal Regression under Linear Model. Advances in Neural Information Processing Systems, vol. 36, pp. 8653-8689, 2023.arXiv
- Kazuto Fukuchi. Meta Optimality for Demographic Parity Constrained Regression via Post-Processing. Forty-second International Conference on Machine Learning, vol. 267, pp. 18024-18046, 2025.arXiv
- Kazuto Fukuchi, Ryuichiro Hataya, and Kota Matsui. Provable Target Sample Complexity Improvements as Pre‑Trained Models Scale. Proceedings of The 29th International Conference on Artificial Intelligence and Statistics, 2026. to appear.arXiv
- and Kazuto Fukuchi. Fair Classification with Efficient and Post-hoc Controllable Fairness-Accuracy Trade-off. Forty-Third International Conference on Machine Learning, , pages, 2026.
- , Youhei Akimoto, Jun Sakuma, and Kazuto Fukuchi. Harnessing the Power of Vicinity-Informed Analysis for Classification under Covariate Shift. Proceedings of The 28th International Conference on Artificial Intelligence and Statistics, vol. 258, pp. 392-410, 2025.arXiv
- , 福地 一斗. 視覚言語モデルを用いたスプリアス相関の低減における欠損グループへの汎化. 第27回情報論的学習理論ワークショップ (at 情報論的学習理論ワークショップ), vol. IBIS2024, pp. -, 2024 (ポスターのみ).