News Release

CLICS: Weltweit größte Datenbank sprachvergleichender Kolexifikationen

Neuste Version von CLICS setzt innovative Standards für reproduzierbare Forschung und schafft verlässliche Basis für Forschungsfragen in der quantitativen Linguistik

Peer-Reviewed Publication

Max Planck Institute of Geoanthropology

Language Map

image: Global distribution of languages included in the CLICS3 release, identified by language family. view more 

Credit: S. J. Greenhill

In jeder Sprache gibt es Wörter, die sich trotz gleicher Form auf unterschiedliche Konzepte beziehen können. So kann das englische Wort fly sowohl das Verb fliegen als auch das Insekt Fliege bezeichnen. Durch den Vergleich dieser sogenannten Kolexifizierungen und ihrer charakteristischen Verteilung können Linguisten Einblicke in verschiedenste Aspekte gewinnen, darunter in die menschliche Wahrnehmung, Sprachevolution und Sprachkontaktsituationen. Die dritte Version von CLICS erhöht dabei die Anzahl an Datenpunkten (Sprachen, Konzepte, Datenquellen) im Vergleich zu vorangegangenen Versionen signifikant und erlaubt es, Kolexifizierungen global und in noch nie da gewesener Tiefe untersuchen zu können.

Dank detaillierter computerunterstützter Arbeitsschritte fördert CLICS die Standardisierung linguistischer Datensätze und bietet damit Lösungsvorschläge für eine Vielzahl wiederkehrender Herausforderungen in der linguistischen Forschung. „Während Datensammlung in der Vergangenheit häufig mittels ad-hoc Lösungen realisiert worden ist, leisten unsere vorgeschlagenen Arbeitsschritte und Richtlinien einen wichtigen Beitrag zur Langlebigkeit und Nachnutzbarkeit linguistischer Forschung und Forschungsresultate“, sagt Tiago Tresoldi.

Effizienz von CLICS demonstriert in praktischer Forschung

Das Vermögen von CLICS, einen Beitrag zu aktuellen Forschungsfragen in der Psychologie und der Kognitionswissenschaft leisten zu können, wurde bereits in einer erst kürzlich veröffentlichten Studie in Science gezeigt. Diese Studie untersuchte die weltweite Verteilung von Kolexifizierungsnetzwerken von Wörtern, die Emotionskonzepte ausdrücken und es konnte gezeigt werden, dass die Bedeutung bestimmter Ausdrücke die Emotionen beschreiben stark zwischen verschiedenen Sprachfamilien variiert.

„CLICS wurde in dieser Studie verwendet, um gezielt Unterschiede in der lexikalischen Kodierung von Emotionen in den Sprachen der Welt aufzuzeigen. Das Potenzial der Datenbank ist dabei aber nicht auf dieses Feld beschränkt und viele weitere spannende Forschungsfragen können mit CLICS in der Zukunft bearbeitet werden“, sagt Johann-Mattis List.

Neue Standards und Richtlinien erlauben nachhaltiges Aggregieren lexikalischer Informationen

Aufbauend auf den neuen Richtlinien für eine standardisierte Datenstruktur für die Verwendung in Sprachvergleichenden Studien, zuerst vorgestellt im Jahre 2018, war das Team um CLICS in der Lage, die Anzahl an Datenpunkten von 300 Sprachen und 1200 Konzepten in der ersten Version von CLICS auf nunmehr 3156 Sprachvarietäten und 2906 Konzepte in der aktuellen Version von CLICS zu erhöhen. Die neuste Version garantiert dabei auch die Reproduzierbarkeit der Datensammlung sowie Auswertung gemäß aktueller Leitfäden und den Richtlinien zur guten wissenschaftlichen Praxis. „Dank der neuen Standards und den von uns entwickelten Arbeitsschritten sind unsere Daten nicht nur FAIR (auffindbar, zugänglich [accessible], interoperabel, wiederverwendbar [reusable]), sondern es wird künftig auch wesentlich einfacher sein, bestehende Daten in unsere Prozesse zu integrieren“, sagt Robert Forkel.

Die Effizienz der Arbeitsschritte mittels derer Daten für CLICS aufbereitet werden können, konnte in einer Reihe von Experimenten und Tests gezeigt werden, wobei eine Vielzahl internationaler Forschender und Studierender involviert war. Dies führte zugleich zur Vorbereitung neuer Daten sowie der Verbesserung bestehender Daten. In einer Studie beispielsweise wurden Arbeitspakete für Studierende höherer Semester vorbereitet, welche alle Schritte der Datensammlung und Datenaufbereitung umfassten (Datengewinnung, Verknüpfung zu Referenzkatalogen, Quellinformationen zusammenstellen). „Für uns war es sehr wichtig, dass Personen außerhalb des Kernteams unsere Werkzeuge verwenden und testen. So konnten Prozesse und Arbeitsschritte weiter optimiert und zugänglicher gemacht werden“, sagt Christoph Rzymski.

Durch die verbesserte Zugänglichkeit von CLICS und aller involvierten Abläufe können Menschen, die Forschung betreiben, künftig nicht nur leichter einen Beitrag zu CLICS selbst leisten, sondern auch mittels der etablierten und erprobten Prozesse selbst Studien und Sammlungen basierende auf Kolexifizierungen vorbereiten. „Die Zahl von Menschen, die unsere Standards und Arbeitsschritte aktiv in ihrer Forschung nutzen, wächst stetig. Wir hoffen, dass diese mit der neuen Version von CLICS eine noch weitere Verbreitung finden“, sagt Simon Greenhill.

###


Disclaimer: AAAS and EurekAlert! are not responsible for the accuracy of news releases posted to EurekAlert! by contributing institutions or for the use of any information through the EurekAlert system.