News Release

Bundeskanzlerin oder Trainer? Software findet zu mehrdeutigen Namen in Texten die richtige Person

Peer-Reviewed Publication

Saarland University

Software Maps Ambiguous Names in Texts to the Right Person

image: A new technique enables it to query documents by means of keywords, entities, and categories. view more 

Credit: Johannes Hoffart/Max Planck Institute

Diese Pressemitteilung ist verfügbar auf Englisch.

Beim Lesen des Nachnamens „Merkel" wissen selbst Menschen nicht, ob nun die Bundeskanzlerin Angela Merkel oder der berühmte Fußballtrainer Max Merkel gemeint ist. Informatiker des Saarbrücker Max-Planck-Instituts für Informatik haben nun eine Software entwickelt, die in Texten die Mehrdeutigkeit von Namen automatisch auflösen kann. Diese Zuordnung von Namen auf eindeutige Objekte wie Personen und Orte verbessert nicht nur Suchmaschinen und Empfehlungssysteme. Sie hilft auch dabei, riesige Textmengen effizient zu analysieren. Während der Computermesse Cebit präsentieren die Forscher ihr Programm zum ersten Mal am saarländischen Forschungsstand (Halle 9, Stand E13).

Wenn ein Name mehrdeutig ist und in keinem Zusammenhang steht, tun sich auch Menschen mit der genauen Zuordnung schwer. Bei „Müller ist Torschützenkönig!" ist nicht klar, wer gemeint ist – der „Bomber der Nation" Gerd Müller, Fußball-Weltmeister im Jahr 1974, oder Thomas Müller, immerhin Torschützenkönig während der Weltmeisterschaft 2010. Die Suche im Netz macht das noch anstrengender. Bisher erkennen die Suchmaschinen zwar Zeichenketten, wie „Angela Merkel", lassen aber Erwähnungen wie „Bundeskanzlerin" oder „Deutschlands First Lady" ganz unbeachtet. Noch schlimmer: Bei der Eingabe von „Merkel" liefern sie als Ergebnis auch Informationen zu vielen anderen Personen, die den gleichen Nachnamen besitzen.

Forscher am Max-Planck-Institut für Informatik haben nun ein Programm entwickelt, das die Mehrdeutigkeit von Namen in Texten selbstständig auflöst, indem es diese geschickt mit Hilfe des Online-Nachschlagewerkes Wikipedia analysiert. Dazu bildet ihre Software namens AIDA zwischen den Erwähnungen im Text und den dazu potenziell passenden Personen und Orten eine Verknüpfung. „Je mehr Verweise in Wikipedia vom Namen auf die jeweilige Person verlinken, je mehr Wörter sich aus deren Wikipedia-Artikel im Text der Erwähnung wiederfinden, desto höher wird die Verbindung gewertet. Diese Wertungen prüft AIDA und bestimmt schließlich die höchste als eindeutiges Namen-Objekt-Paar", erläutert Johannes Hoffart, der AIDA am Max-Planck-Institut für Informatik mitentwickelt hat. Um die neuartige Technik zu demonstrieren, haben sie bereits eine darauf aufbauende Suchmaschine entwickelt. Diese ermöglicht es nicht nur, die Suche nach Buchstabenfolgen mit der Suche nach eindeutigen Objekten wie Personen und Orten zu kombinieren, sondern sich auch Treffer für eine bestimmte Kategorie angeben zu lassen. So ergibt die Anfrage „Angela Merkel + Umweltorganisationen + Energiewende" Texte, die von der Bundeskanzlerin im Kontext von Umweltorganisationen wie „Greenpeace" und der Energiewende handeln.

Derzeit arbeiten die Saarbrücker Informatiker mit der Deutschen Nationalbibliothek und ihren Standorten in Leipzig und Frankfurt am Main zusammen. Auf deren Textkorpus lassen sie AIDA los, um die Schlagwortsuche mit der Suche nach eindeutigen Objekten zu verknüpfen. „Die Treffer sind dann wesentlich genauer", sagt Hoffart.

„Auf diese Weise können wir aber nicht nur bessere Suchmaschinen bauen, sondern auch auf effiziente Weise riesige Textmengen für den Computer so aufbereiten, dass er sie fast wie ein Mensch versteht", erklärt Gerhard Weikum, wissenschaftlicher Direktor am Max-Planck-Institut für Informatik in Saarbrücken. Das eröffne auch neue Perspektiven für automatisch generierte Empfehlungen und die Analyse von Datensätzen, so Weikum, der am Max-Planck-Institut die Abteilung für Datenbanken und Informationssysteme leitet und am Saarbrücker Exzellenzcluster für „Multimodal Computing and Interaction" forscht. „Wer ein Fan des Trainers ist, der bekommt eines seiner Bücher angeboten, wer sich jedoch nur für die gleichnamige Kanzlerin interessiert, wird dagegen auf Bücher verwiesen, die sich mit ihr beschäftigen", nennt Weikum als Beispiel.

Die AIDA Software sowie der Quelltext sind für Forschungszwecke frei verfügbar.

###

Hintergrund zur Saarbrücker Informatik an der Universität des Saarlandes

Den Kern der Saarbrücker Informatik bildet die Fachrichtung Informatik. In unmittelbarer Nähe forschen auf dem Campus sieben weitere weltweit renommierte Forschungsinstitute. Neben den beiden Max-Planck-Instituten für Informatik und Softwaresysteme sind dies das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI), das Zentrum für Bioinformatik, das Intel Visual Computing Institute, das Center for IT-Security, Privacy und Accountability (CISPA) und der Exzellenzcluster „Multimodal Computing and Interaction".

Pressefoto unter http://www.uni-saarland.de/pressefotos

Weitere Informationen:

Projektseite: http://www.mpi-inf.mpg.de/yago-naga/aida/

Online-Demonstrator: https://gate.d5.mpi-inf.mpg.de/webaida/

Fragen beantwortet:

Johannes Hoffart
Datenbanken und Informationssysteme
Max-Planck-Institut für Informatik
Tel: +49 681 9325-5028
E-Mail: jhoffart@mpi-inf.mpg.de

Redaktion:

Gordon Bolduan Wissenschaftskommunikation
Kompetenzzentrum Informatik Saarland
Tel.: +49(0)681 302-70741
E-Mail: bolduan(at)mmci.uni-saarland.de

Hinweis für Hörfunk-Journalisten: Sie können Telefoninterviews in Studioqualität mit Wissenschaftlern der Universität des Saarlandes führen, über Rundfunk-Codec (IP-Verbindung mit Direktanwahl oder über ARD-Sternpunkt 106813020001).


Disclaimer: AAAS and EurekAlert! are not responsible for the accuracy of news releases posted to EurekAlert! by contributing institutions or for the use of any information through the EurekAlert system.