News Release

Um novo estudo avalia o machine learning para a detecção de empréstimos lexicais em diferentes idiomas do mundo

Os resultados surpreendentes ressaltam a complexidade da evolução da linguagem ao mesmo tempo em que mostram promessas para algumas aplicações atuais

Peer-Reviewed Publication

Max Planck Institute of Geoanthropology

Borrowing

image: Lexical borrowing is very widespread and may affect even those words that play an important role in our daily life. English 'mountain', for example, was borrowed from Old French, along with many other words view more 

Credit: Johann-Mattis List, Hans Sell

O fenômeno dos empréstimos lexicais, ou a transferência direta de palavras de uma língua para outra, tem interessado os estudiosos há milênios, como evidenciado no diálogo Kratylos de Platão, no qual Sócrates discute o desafio imposto aos estudos etimológicos pelas palavras emprestadas. Na linguística histórica, os empréstimos lexicais ajudam os pesquisadores a rastrear a evolução das línguas modernas e apontam o contato cultural entre grupos linguísticos distintos - sejam eles recentes ou antigos. Contudo, as técnicas para identificar palavras emprestadas têm resistido a uma formalização, exigindo que os pesquisadores confiem em uma variedade de evidências indiretas e na comparação de vários idiomas.

"A detecção automática de empréstimos lexicais ainda é uma das tarefas mais difíceis que enfrentamos na linguística histórica computacional", diz Johann-Mattis List, que liderou o estudo.

Nesse estudo, pesquisadores da PUCP e do MPI-SHH empregaram diferentes técnicas de machine learning para treinar modelos linguísticos que imitam as maneiras pelas quais os linguistas identificam empréstimos ao considerarem apenas as evidências fornecidas por uma única língua: se os sons ou as maneiras pelas quais os sons se combinam para formar palavras se revelam atípicos quando comparados com outras palavras na mesma língua, isto muitas vezes indica empréstimos recentes. Os modelos foram então aplicados a uma versão modificada do World Loanword Database (Banco de Dados de Empréstimos Mundiais), um catálogo de empréstimos para uma amostra de 40 idiomas de diferentes famílias de idiomas, a fim de testar com que precisão as palavras de um determinado idioma seriam identificadas como emprestadas ou não pelas diferentes técnicas.

Em muitos casos, os resultados foram insatisfatórios, sugerindo que a detecção de empréstimos é muito difícil para os métodos de machine learning mais comumente utilizados. Entretanto, em situações específicas, como em listas com uma alta proporção de empréstimos ou em idiomas cujos empréstimos se originam em sua maioria de uma única língua doadora, os modelos linguísticos lexicais das equipes mostraram alguma promessa.

"Após estas primeiras experiências com empréstimos lexicais monolíngues, poderemos prosseguir em outros aspectos do problema, avançando para abordagens multilinguísticas e interlinguísticas", diz John Miller da PUCP, colíder do estudo.

"Nossa abordagem assistida por computadores, juntamente com o banco de dados que estamos disponibilizando, lançará uma nova luz sobre a importância dos métodos assistidos por computadores para a comparação de idiomas e para a linguística histórica", acrescenta Tiago Tresoldi do MPI-SHH, o outro autor colíder do estudo.

O estudo une esforços contínuos para resolver um dos problemas mais desafiadores da linguística histórica, mostrando como a detecção de empréstimos lexicais não pode depender apenas de informações monolíngues. No futuro, os autores esperam desenvolver abordagens mais integradas que considerem evidência multilíngues.

###


Disclaimer: AAAS and EurekAlert! are not responsible for the accuracy of news releases posted to EurekAlert! by contributing institutions or for the use of any information through the EurekAlert system.