Un nuevo modelo de aprendizaje automático, entrenado con vídeo y audio grabado desde la perspectiva en primera persona de un niño de corta edad durante más de un año ha proporcionado nuevos conocimientos sobre la adquisición temprana del lenguaje. Los hallazgos solo ofrecen un marco valioso para entender cómo los niños aprenden palabras y conceptos, sino que también podrían ser fundamentales en el desarrollo de sistemas de inteligencia artificial (IA) capaces de aprender el lenguaje de manera más parecida a la humana. Entre el sexto y el noveno mes de vida, los niños comienzan a adquirir sus primeras palabras, vinculando las palabras habladas con objetos y conceptos del mundo real. Para cuando tienen una edad de entre 1,5 y 2 años, la mayoría de los niños pueden comprender un promedio de 300 palabras. Sin embargo, el modo en que los niños adquieren sus primeras palabras y cómo estas palabras se relacionan con sus contrapartes visuales es poco comprendido. Si bien es ampliamente debatido y se han propuesto varias hipótesis, la adquisición temprana del lenguaje se ha examinado tradicionalmente en entornos de laboratorio con hallazgos que carecen de generalizabilidad a entornos del mundo real. Comprender mejor este proceso en los niños podría informar sistemas de IA multimodales de próxima generación que desarrollan vínculos entre palabras y representaciones visuales.
En este trabajo, Wai Keen Vong y sus colegas abordan estas cuestiones mediante un enfoque novedoso. Introducen el modelo Child’s View for Contrastive Learning (CVCL). Utilizando grabaciones longitudinales de una cámara montada en la cabeza de un solo niño durante un período de 1,5 años (de los 6 a los 25 meses), Vong et al. entrenaron el CVCL, una red neuronal relativamente genérica, con fotogramas de vídeo (que representaban lo que el niño veía) coincidiendo con expresiones lingüísticas dirigidas al niño (lo que el niño escuchaba). A partir de los datos recogidos, los autores demuestran que el modelo es capaz de aprender asociaciones palabra-referente presentes en la experiencia cotidiana del niño. Aunque el modelo fue entrenado en un subconjunto estricto de experiencias naturalísticas reales, fue capaz de generalizar más allá de los objetos visuales específicos vistos en el entorno del niño durante el entrenamiento y alinear las representaciones visuales y lingüísticas de los mismos. Según Vong et al., este modelo, con entrada sensorial limitada y mecanismos de aprendizaje relativamente genéricos, proporciona una base computacional para investigar cómo los niños adquieren sus primeras palabras y cómo esas palabras pueden conectarse con el mundo visual. A pesar de las conclusiones del estudio, los autores destacan varias limitaciones de su modelo para llenar completamente las lagunas en la comprensión del aprendizaje de palabras en los niños.
Journal
Science
Article Title
Grounded language acquisition through the eyes and ears of a single child
Article Publication Date
2-Feb-2024