Innovationsspitze der Computerlinguistik: ExB räumt beim GermEval-Wettbewerb ab

Innovationsspitze der Computerlinguistik: ExB räumt beim GermEval-Wettbewerb ab
26. November 2014 admin

München – 26.11.2014

INNOVATIONSSPITZE DER COMPUTERLINGUISTIK: EXB RÄUMT BEIM GERMEVAL-WETTBEWERB AB

Erster und zweiter Preis an Teams von ExB
Technologieplattform PTPT belegt Innovationsvorsprung bei Named Entity Recognition

Das Münchner Entwicklungs- und Technologieunternehmen ExB (www.exb.de) hat eine eindrucksvolle Bestätigung für die Innovations- und Leistungsfähigkeit seiner Technologien erhalten. Als Teilnehmer der GermEval Challenge – dem internationalenEntwicklerwettbewerb im Bereich Namenserkennung / Named Entitiy Recognition (NER) – konnte das Team von ExB mit zwei Beiträgen den ersten und zweiten Platz erreichen. Insgesamt hatten an dem Wettbewerb, bei dem es um das möglichst genaue Auslesen und Erkennen von Namen und Informationen aus einem vorgegebenen Bestand unstrukturierter Daten ging, 11 Teams mit 33 Beiträgen teilgenommen.

Big Picture bei Big Data: PTPT erlaubt die Analyse unstrukturierter Datenbestände

Computerlinguistik und automatisierte Namenserkennung sind zentrale Funktionen zukünftiger Anwendungen der Datenverarbeitung und –organisation, sei es für Übersetzungstechnologien, Data Mining, Sprachverarbeitung und biomedizinischer Wissenschaft. Bislang konnten Analysen von Big Data Beständen nur auf Basis strukturierter, also bekannter Daten, erstellt werden. Die von ExB entwickelte Technologie kann jedoch auch unstrukturierte Daten verarbeiten: Diese werden „erkannt“, d.h. in strukturierte Daten umgewandelt und können so nach den sonst üblichen Analysemethoden ausgewertet werden.

Branchenweit gilt dabei die Verarbeitung deutscher Sprache aufgrund ihrer großen Komplexität als eine der schwersten Disziplinen. Qualitätskriterien sind hier nicht nur Verarbeitungsschnelligkeit und –menge, sondern vor allem die Genauigkeit und Intelligenz der Lösung.ExB hat durch intensive Entwicklungsarbeit mit der Technologieplattform PTPT die Grundlage dafür geschaffen, unerreicht genaue Lösungsansätze für diese Aufgabe zu bieten. Die im Wettbewerb eingereichten Ansätze setzten auf zwei unterschiedliche Algorithmen. Platz 1 wurde von der Conditional Random Fields (CRF) Methode belegt und zeigte einen Lösungsweg auf Basis eines grafischen Models. Auf Platz 2 kam die Maximum Entropy Methode, ein Ansatz auf statistischer Basis.

Universal-Plattform PTPT: Die zentrale Basis für Aufgaben der linguistischen Datenextraktion

Beide Methoden basieren auf der ExB PTPT Plattform. Sie ist sowohl eine Anwendung zur Sprach- und Informationsverarbeitung und bietet zudem ein umfassendes Framework, mit dem verschiedenste Lösungsansätze realisiert werden können. Die Universalität von PTPT geht dabei weit über die Namenserkennung und Datenextraktion hinaus. Sie erlaubt es auch, andere Aufgabenstellungen wie beispielsweise Bilderkennung, Bild-Text-Erkennung oder ortsbasierte Datenverarbeitung durch Teilbereiche ihrer Technologie abzudecken.

Dr. Ramin Assadollahi, Gründer und CEO von ExB, sieht die erstklassige Wettbewerbsplatzierung als starken Beweis dafür, wie leistungsfähig PTPT ist: „ExB versteht sich als Incubator für Innovationen im Bereich Datenerkennung und –verarbeitung. Unsere Entwicklungen stehen dadurch an einem sehr frühen Stadium ihrer wirtschaftlichen Verwertungskette – daher ist es extrem wichtig, in einem ersten Schritt die wissenschaftlich objektive Bestätigung für ihre Exzellenz und Wettbewerbsfähigkeit zu erhalten.“

Der GermEval 2014 Wettbewerb fand im Rahmen der Konvens 2014 Anfang Oktober an der Universität Hildesheim statt. Die Wissenschaftsveranstaltung gilt als der Treffpunkt der Computerlinguisten in Deutschland, mit insgesamt 130 Teilnehmern aus über 60 Instituten. Die Teilnahme an weiteren wissenschaftlichen Wettbewerben ist ein klares Ziel von ExB, denn auf diese Weise kann am besten und nachdrücklichsten demonstriert werden, wie stark sich die Plattform PTPT innerhalb der Branche positioniert und welch vielfältige Lösungsansätze für unterschiedlichste Aufgaben rum um Sprach- und Datenverarbeitung mit ihr umgesetzt werden können.