image: Lexical borrowing is very widespread and may affect even those words that play an important role in our daily life. English 'mountain', for example, was borrowed from Old French, along with many other words view more
Credit: Johann-Mattis List, Hans Sell
詞彙借用(借詞),意即將語詞從一個語言直接轉移到另一個語言。學者們針對詞彙借用的討論已長達數千年之久,此點可由柏拉圖的「克拉底鲁篇」(Kratylos) 中的對話可得證,蘇格拉底討論借詞對於詞源學研究的所帶來的挑戰。在歷史語言學中,詞彙借用可以幫助學者追逤現代語言的演化脈絡,也意味著兩個語言群體文化上的接觸�不論是晚期或是早期。然而,目前尚未有適當的電腦演算法自動偵測借詞 ,因此學者們必須仰賴各種替代資訊以及多種語言的比較。
項目主持人,游函(Johann-Mattis List)說「自動偵測借詞仍然是歷史語言學研究中最艱難的挑戰之一」。
本次研究,由秘魯天主教大學以及德國馬克斯普朗克人類歷史科學組成的研究團隊測試了各種機器學習技術來訓練語言模型模擬語言學家如何憑藉單一語言所提供的訊息鑑定借詞:比對同一語言中的許多詞彙,如果不典型的音位或是音位集合出現在某一詞語中,這個線索往往代表著近期的借詞。這個模型的測試資料為改良版本的世界借詞資料庫 (World Loanword Data-base) ,這是一個集結40個來自世界各個不同語系的語言的借詞目錄,參照專家的鑑定結果來決定各種不同的機器學習模型的偵測結果的正確性。
多數的實驗結果不盡如人意,表示偵測語詞借用對於最普遍使用的機器學習方法 來說仍然存在很大的困難。 然而,在特定的情況之下,例如:一個詞表之中如果佔有很高比例的借詞,或是一個語言中的借詞多數源自同一個供給語言,此團隊的語言模型還是獲得了積極的進展。
秘魯大學的共同第一作者,John Miller表示「經過這次使用單一語言詞表的實驗之後,我們可以繼續從更多面向探討此議題,例如轉移到多語言或跨語言的研究方式」。
來自馬克斯普朗克的共同第一作者,Tiago Tresoldi補充說道「由我們的電腦輔助 (computer-assisted) 方式,連同我們發佈的數據,可以更近一步地闡述電腦輔助方法在比較語言學以及歷史語言學研究中的重要性」
此次研究為歷史語言學中最有挑戰性的問題之一拼上了其中一塊拼圖 ,顯示了借詞偵測是不能僅憑著單一語言的資訊。未來,研究團隊希望能夠優化實驗方法將多語言的資訊整合進入考量。
###
Journal
PLOS One