効率を最大化するチーム
輸送問題から指導、そして信頼まで。山田誠准教授が率いる機械学習とデータ科学ユニットは、様々なものを最適化するのがミッションです。
Okinawa Institute of Science and Technology (OIST) Graduate University
image: 最適輸送問題を示す簡略化したイラスト。表面上は単純に見えるが、配送ポイント(倉庫と工場)間の最適なルートを計算する計算複雑さは、ポイントの数が増えるにつれ急激に増加する。 view more
Credit: 瀬良垣香織(OIST)
情報化社会は数学の上に成り立っています。地点Aと地点Bの間の最適ルートを見つけることから、一国の電力網の将来の負荷を予測すること、明日の天気を予測すること、さらには病気の最適な治療法を特定することまで、アルゴリズムには共通の構造があります。つまり、アルゴリズムは入力データを受け取り、それを一連の計算によって処理し、最終的に出力を提供するというものです。現在進行中のAI革命を推進しているのは、多くの場合、何百万行にも及ぶコードで構成されるアルゴリズムで、それはますます高度化しています。モデルが解決策を提示するまでの行程が多くなればなるほど、必要なコンピュータ資源、時間、エネルギーのコストは高くなります。
これらの数学的モデルを最適化すること、それが、沖縄科学技術大学院大学(OIST)機械学習とデータ科学ユニットの研究の中心です。山田誠准教授が率いるこのユニットは、機械学習(ML)の潜在能力を最大限に引き出し、効率性を向上させることを理念として活動しています。データサイエンスに限らず、ユニット内の教育や学術成果の最適化も、分散型階層構造を通じて実現されています。
コスト削減
複数の倉庫から異なる店舗へ商品を輸送する任務を想像してみてください。各倉庫には異なる数量の商品があり、各店舗が求める商品数も異なります。輸送コストを最小化するためには、必要なすべての商品を移動する総距離を最小化する、倉庫と店舗間の最も効率的なルートを決定する必要があります。これが「最適輸送」問題の基本的な設定です。表面上は単純に見えますが、規模が大きくなると複雑さが増し、アルゴリズムの複雑さやコストも増加します。
「私たちは、最適輸送問題を解決するための新しいツールの最適化と設計に焦点を当てています」と山田准教授は話します。最適輸送は、データサイエンスにおいて、データ配送ポイント間の最も効率的な移動方法を見つける手段として中心的な役割を果たしています。シングルセル遺伝子発現データを例に考えてみましょう。「このデータは、非常に高次元かつサンプル数が非常に多いです。例えば、10万個の細胞から2万個の遺伝子発現データを調査することがあります。創薬や疾患分類の文脈で、各遺伝子の関係を計算することは、特にそのデータを使って機械学習を訓練する際に非常に複雑です。私たちの目標の一つは、このような高次元かつ大規模なケースにおける最適輸送のコストを、性能を落とさずに、流通拠点の数に応じてのみ増加する線形計算量(線形複雑度)に削減することです。」
今年開催される機械学習分野で最も重要な国際会議の一つ、「The Thirteenth International Conference on Learning Representations (ICLR 2025)」において、OIST機械学習とデータ科学ユニットから5本の論文が採択されました。そのうち2本は、計算コストの高い機械学習において、最適輸送コストの削減に特化したモデルを提案しています。1つ目の論文では、単純な平均ではなく、特徴量の分布全体を比較することでクラス間の関係をより正確に捉える最適輸送手法を紹介しています。このアプローチにより、精度と計算効率の両方が向上しています。2つ目の論文は、ラベルのないデータに対する効率的な教師なし学習の課題に取り組んでいます。このような設定では、機械学習モデルはデータの構造(特徴量とサンプルの関係)と、類似性を測定するためのルールの両方を同時に学習する必要があります。ここでは、データ分布間の違いを最小限の努力で変換するための量として定義されるワッサースタイン距離を用いています。この計算コストの高い課題を克服するため、研究チームは「木構造ワッサースタイン距離」に基づく新たな手法を提案しました。この手法では、すべての分布点のペア間で距離を計算する代わりに、サンプル(たとえば細胞)と特徴量(たとえば遺伝子)を分岐する木構造上のノードにマッピングします。この構造では、任意の2ノード間は常に1本のパスで接続されており、それにより必要な比較回数を大幅に削減し、計算コストを劇的に低減しています。
アクセシビリティの拡大
同ユニットのもう一つの重要な焦点は、モデルの開発、使用、出力の段階でエラーや潜在的な危害を軽減し、モデルの信頼性と安全性を向上させることです。この分野の課題の一つが「オープンセット認識」で、これはモデルが訓練後に遭遇する入力データが不規則で、しばしば完全に無関係であるという問題です。信頼性の高い機械学習の研究を率いるモハマド・サボクロウ博士は次のように説明しています。「画像から異なる種類の車を検出する機械学習モデルを使用している場合、例えば、虎の写真をモデルに与えた際に『この画像は分類できない』と認識できないのは問題です。分類すべきでない対象を自信を持って分類してしまうと、問題になります。」
既知のオブジェクトを異なる配置(例えば、異なる角度から見た車)で認識し、その境界線をモデルに教えることは困難です。また、訓練データと無関係または類似しないサンプル(アウト・オブ・ディストリビューション(OOD)サンプル)を検出することは、一般的に異常検出問題として扱われています。同ユニットがここで探求しているアプローチの一つが「対比学習」で、これはモデルに類似した入力を集約し、類似しない(つまり異常な)入力を特徴空間で分離するように学習させる手法です。「異常検出は、新規物体検出、不規則性検出、オープンセット認識、アウト・オブ・ディストリビューション検出など、類似したタスクと密接に関連しています。これらのタスクは本質的には類似していますが、主にテスト設定において異なる部分があります」とサボクロウ博士は説明します。「私たちは、これらの異なるタスクタイプ間でメトリクスを統一する取り組みを進めており、これによって知識共有が大幅に促進されると考えています。」
同研究ユニットは、モデルの脆弱性を暴露するさまざまな攻撃を通じて、信頼性の高いモデルの開発にも取り組んでいます。「敵対的攻撃」は、データに微妙な変更を加えることでモデルに誤りを引き起こします。「バックドア攻撃」は、トレーニングデータに隠されたトリガーを悪用し、これらのトリガーは意図的に導入されたものや、誤った相関や社会的偏見を通じて偶然に継承されたものを含む可能性があります。例えば、モデルが写真の照明に基づいて家族関係を誤って推論したり、十分に網羅されていないトレーニングセットから少数派グループへの偏見を学習したりする可能性があります。さらに、「メンバーシップ推論攻撃」は、入力データがモデルのトレーニングセットに含まれていたかどうかを検査し、データ漏洩を検出または悪用します。これはプライバシーと安全性に重大な影響を及ぼします。これらの攻撃は、例えば、がん検診モデルが画像のスケールバーのような人工的な画像から誤って学習したり、生成モデルが著作権保護された素材を再現したりする可能性を明らかにします。これらの戦略は、AIシステムの安全性と信頼性を向上させるための強力な診断ツールを提供します。
成長の促進
データサイエンスはほとんどの科学分野の基盤となっており、研究者がデータから知識を抽出する方法を改善することは、科学的プロセスの効率化に直結します。さらに、AIの普及に伴い、計算コストの削減とモデルの安全性・信頼性の確保がますます重要になっています。
効率の原則は同研究ユニットの在り方にも浸透しています。このユニットは、フラットな人間関係とメンターシップの分散型アプローチが特徴です。例えば、山田准教授はユニットのメンバーが執筆した論文においては責任著者になることをすすめています。むしろ、山田准教授は「共同責任著者になることはキャリアと学びの両方に有益です。だからこそ、この役割は通常ポスドクが担い、経験を積むためのものです」と述べています。こうした考え方から、学生への指導はユニット全体に委ねられており、山田准教授を中心に集まるのではなく、ポスドクや研究員が大学院生やインターンを直接指導する役割を担っています。ただし、山田准教授は常にメンバーの近くにいて、すべてのプロジェクトの進捗を把握しています。山田准教授は「実践を通じて学ぶ方がはるかに効率的です。それに、私は話すのが好きだから」と話します。同様に、サボクロウ博士も協働にやりがいを感じており、インターン、企業、元同僚、さらには世界中の外部研究者と密に協力しています。「学術キャリアを通じて自然にネットワークが形成され、お互いに助け合うことで知識が広がり、進歩が生まれるのです」とサボクロウ博士は説明します。
フラットで信頼性の高い文化がユニット内に育まれることで、チームは成果を上げているようです。実際、ICLR 2025に採択された5つの論文のうち4つはインターンによって執筆されました。また、他大学からのインターンを定期的に受け入れ、沖縄の中学生を対象にした数学カフェや、昨年は世界中から200人以上の参加者が集まった人気の機械学習サマースクールなど、さまざまな科学普及活動にも力を入れています。山田准教授とチームは、こうした基礎的な取り組みを通じて、科学へのコミットメントを実践しています。山田准教授は次のように語っています。「教育は、科学と社会にとって最良の長期投資です。その投資の効率を最大化することが私たちの目標です。」
Disclaimer: AAAS and EurekAlert! are not responsible for the accuracy of news releases posted to EurekAlert! by contributing institutions or for the use of any information through the EurekAlert system.