News Release 1-Feb-2024

AIシステム、一人の子供の経験を通して初期言語獲得について新たな知見を示す

Peer-Reviewed Publication

American Association for the Advancement of Science (AAAS)

新しい機械学習モデル ―― 1年以上にわたって一人の幼い子供の一人称視点で記録されたビデオとオーディオでトレーニングを行った ―― から、初期の言語獲得について新たな知見が得られた。この知見は、子供が言葉や概念をどのように学ぶかを解明するための貴重な枠組みになるだけでなく、より人間に近い方法で言語を学ぶことができる人工知能（AI）システムの開発においても極めて重要になりうる。子供は月齢6～9ヵ月頃から最初の言葉を獲得し始め、話し言葉を現実世界の物や概念と結び付ける。1.5～2歳になると、大半の子供は平均300語を理解できる。しかし、子供がどのように最初の言葉を獲得するのか、そしてそれらの言葉をどのようにそれらが指し示す視覚的対象に確実に結び付けるのかはほぼわかっていない。このテーマは広く議論され、仮説もいくつか提示されているが、従来、初期の言語獲得は実験室で研究されており、そこで得られた結果は現実世界にも適用できるとは言えない。子供におけるこのプロセスの解明を進めることで、言葉と視覚的表現のつながりを発展させる次世代のマルチモーダルAIシステムに情報を提供できると考えられる。

Wai Keen Vongらは今回、新しいアプローチを用いてこれらの問題に取り組んでいる。彼らは子供視点を活用した対照学習モデル、Child’s View for Contrastive Learning model （CVCL）モデルを取り入れた。一人の子供の1年半以上（月齢で6～25ヵ月）にわたる一人称視点の体験を記した頭部装着カメラの縦断的記録を用いて、VongらはCVCL ―― 比較的一般的なニューラルネットワーク ―― を子供向けの言語的発話（子供が聞いていたもの）も同時に出るビデオフレーム（子供が見ていたもの）でトレーニングした。彼らはこれを通して、このモデルが子供の日常体験に存在する言葉とその指示対象のマッピングを学習できることを示した。このモデルのトレーニングは実際の自然な体験の正確なサブセットで行ったのだが、トレーニング中に子供が置かれた状況で見られた特定の視覚的対象以外を一般化したり、それらの視覚的表現と言語的表現を連携したりすることも可能だった。Vongらによると、このモデルは、感覚入力の限られた比較的一般的な学習メカニズムではあるが、子供が最初の言葉をどのように獲得し、それらの言葉をどのように視覚世界に確実に結び付けるかを研究するための計算的基盤になるという。ただ、このような結論に達したとは言え、子供の言語獲得における未解明部分を完全に解決できるかという点ではこのモデルにはいくぶん限界があると、Vongらは強調している。

Journal

Science

DOI

10.1126/science.adi1374

Article Title

Grounded language acquisition through the eyes and ears of a single child

Article Publication Date

2-Feb-2024

Disclaimer: AAAS and EurekAlert! are not responsible for the accuracy of news releases posted to EurekAlert! by contributing institutions or for the use of any information through the EurekAlert system.