Juergen Dietrich, Senior Lead Data Scientist bei der Bayer AG
In allen Bereichen werden heute sog. Natural Language Processing (NLP) - Verfahren eingesetzt, die eine Extraktion und Charakterisierung von Text- und Sprachinformationen erlauben. Neben der klassischen ‚Named Entity Recognition‘ werden auch Ähnlichkeitsanalysen von Freitextinformation eingesetzt. Letzteres wird dafür benutzt, um ähnliche Inhalte in anderen Texten zu identifizieren.
Erstens: Identische Terme können unterschiedliche Bedeutung (zum Beispiel Nebenwirkung eines Medikaments, dessen Anwendungsgebiet und Begleiterkrankung). Darüber hinaus bestehen – je nach Anwendungsfall – Probleme bei der Identifizierung von Sarkasmus und Ironie. Und obwohl die aktuellen Methoden satzübergreifend Relationen (Kontext) herstellen können, ist das in einem Schritt zu verarbeitende Datenvolumen begrenzt.
Wir haben ein Trainingsdatensatz für ein KI-Modell mit einer hohen Güte und absichtlich mit unterschiedlichen Sprachtypen erzeugt. Unsere Experimente zeigen, dass neben einer Identifizierung identische Terme mit unterschiedlicher Bedeutung auch bei unterschiedlichen Sprachtypen möglich ist. Das erzeugte KI-Modell ist daher robuster, kostengünstiger und lässt sich vielseitiger einsetzen.