Forschung bei ExB

Bei der Künstlichen Intelligenz ist vieles denkbar. Unsere Forschung macht vor allem: machbar.

KI ist ein großes Forschungsthema – und wir von ExB beteiligen uns daran mit hohem Aufwand: Fast ein Drittel unseres Budgets geht in die Forschung. Fokus bildet dabei die angewandte Wissenschaft, also die Frage, wie NLP, Machine Learning und insbesondere Deep Learning in ihrer praktischen Anwendung einen möglichst hohen wirtschaftlichen Nutzen liefern können. Hier leisten wir nicht selten Pionierarbeit.

Unsere Forschung in Zahlen

  • 9

    Doktorarbeiten

  • 30+

    Patente

  • 50+

    Veröffentlichungen

Angewandte Forschung

Weiterdenken heißt für uns: an die Praxis denken.

Forschung bedeutet für uns bei ExB: Sich nicht mit den theoretischen Verheißungen Künstlicher Intelligenz begnügen, sondern genau hinschauen, wofür KI in der Praxis tatsächlich gebraucht wird – und auf welche Weise sie unseren Kunden den größtmöglichen Nutzen bringen kann.

Nehmen Sie zum Beispiel das Natural Language Processing, kurz NLP. Während sich akademisches NLP fast ausschließlich auf reine Texte wie Nachrichtenartikel konzentriert, sieht die Realität oft anders aus: Da geht es vor allem um Dokumente wie Rechnungen, Beschwerden, Gutachten, Excel-Tabellen, PowerPoint-Folien usw. mit wenig Linguistik und viel räumlicher Anordnungen. Der häufigste Anwendungsfall ist die Extraktion von Informationen aus einer Tabelle, einer Schlüsselwertliste oder ähnlichen nicht-textuellen Daten. Dagegen ist das Extrahieren von Daten aus reinem Text, mit Sätzen, Phrasen und anderen linguistischen Strukturen, ein eher seltener Fall.

Daher haben viele an sich sehr fortschrittliche NLP-Algorithmen (wie etwa das High-End-Parsing) oft wenig bis gar keinen Einfluss. Dafür hat eine selbst einfache Einbezugnahme der räumlichen Anordnung der Textblöcke einen sehr großen Einfluss. Für uns bedeutet das, uns nicht allein auf hochmoderne NLP-Funktionen zu verlassen, sondern diese sinnvoll zu kombinieren, etwa mit einer visuellen Dokumentenanalyse.

Wie wir vorgehen

Vor der blanken Theorie zur belastbaren Anwendung.

Bei ExB als Forscherin oder Forscher zu arbeiten verlangt einerseits, ein sich rasant entwickelndes Grundlagenwissen im Blick zu behalten – und dies andererseits nahezu permanent für industrielle Anwendungsfälle zu verifizieren und weiterzuentwickeln.

Angewandte Forschung als Arbeitsprozess

Konkret bedeutet das: Daten sind zu analysieren, Literatur über die derzeit bekanntesten besten Lösungen zu lesen, die vielversprechendsten Experimente aus der Wissenschaft auszuwählen und zu reproduzieren, sie auf die vorliegenden Daten anzuwenden und sie schließlich gemeinsam mit unseren Softwareentwicklern so zu überarbeiten, dass bestimmte Rechenzeit- und Raumgrenzen einhalten werden.

Das Ergebnis ist eine hochwertige Softwarelösung, mit einem gut dokumentierten Ansatz und Messungen dieses Ansatzes an Dutzenden von verschiedenen Datensätzen, eingebettet in das Produkt von ExB, der Cognitive Workbench.

Saubere Vergleichbarkeit und Transparenz

Jedes Training wird standardmäßig nach dem Five-fold-crossvalidation Verfahren vermessen. Dabei werden vier Fünftel der verfügbaren Daten zum Training verwendet, und ein Fünftel dem Training vorenthalten, damit anschließend verifiziert werden kann, dass das Training auch auf vorher unbekannten Daten gute Ergebnisse liefert. Jedes Training wird insgesamt 6 Mal durchgeführt. 5 Mal für jede der 5 möglichen Einteilungen der Daten, und ein sechstes Mal für das finale Produktivtraining auf allen Daten.

Jedes Training resultiert in einem trainierten Modell. Dieses ist inklusive der nötigen Run-time Komponenten als Paket exportierbar, so dass es auf einem kleinen Server unendlich oft auf neuen Daten verwendet werden kann (z.B. in Form einer REST-Schnittstelle). Das Modell beinhaltet aber auch sämtliche Informationen, die während dem Training angefallen sind. Dazu gehören unter anderem die erzielten Messwerte wie gut das Modell in der Crossfoldvalidation abgeschnitten hat. Dazu gehören auch Angaben darüber, welche Trainingsdaten verwendet wurden, wie groß die waren, wer das Training durchgeführt hat, usw.

Dadurch kann jedes einzelne Training jederzeit auch nachträglich überprüft werden, verschiedene Versionen des gleichen Trainings miteinander verglichen werden, und anhand klarer Kriterien entschieden werden, ob ein Modell in den Produktivbetrieb gehen kann.

ML in a nutshell
Forschungsbeispiel

Die Lösung liegt oft in einer intelligenten Kombination. Beispiel Maschinelles Lernen.

Bereits 2009, und damit lange vor dem Mainstream, starteten wir damit, unbeaufsichtigtes Training an großen Mengen unmarkierter Daten mit überwachtem Training an kleinen, mitunter winzigen markierten Datensätzen zu kombinieren.

The power of unsupervised training

Unbeaufsichtigtes Training mit großen Datenmengen

Das unbeaufsichtigte Training ließen wir gegen einen vollständigen Web-Crawl mit Hunderten von Millionen Sätzen laufen. Daraus ergab sich ein Sprachmodell. Eines, das den allgemeinen Gebrauch von Wörtern, Sätzen usw. der betreffenden Sprache kodiert und zugleich unabhängig davon ist, wofür es später verwendet werden soll. Es sammelte dazu viel sprachliches Wissen, wie etwa Wortähnlichkeiten („Haus“ und „Gebäude“ sind semantisch ähnlich), Syntax der Wörter („Laufen“ und „Aufräumen“ haben eine ähnliche Satzfunktion), Mehrdeutigkeiten etc. Der unbeaufsichtigte Trainingsprozess leitet alle diese Informationen ganz von selbst aus den Daten ab – ähnlich wie ein lernender Mensch das machen würde: Stellen Sie sich vor, Sie sehen viele Sätze mit Kontexten wie „das Haus wurde eingebaut“ oder „das Gebäude wurde eingebaut“. Auch ohne Kenntnisse im allgemeinen Englisch können Sie daraus schließen, dass „Haus“ und „Gebäude“ austauschbar erscheinen.

Unüberwachtes Lernen hat sich in den letzten zehn Jahren stark weiterentwickelt. Anfangs waren es vor allem (aus heutiger Sicht) komplizierte, auf der Zählung gemeinsamer Vorkommen von Wörtern basierende Methoden. Diese unterschieden explizit semantische von syntaktischen unbeaufsichtigten Modellen. Heute handelt es sich in der Regel um ein neuronales Netzwerk, das auf der Grundlage von vollständig kontextualisierten, zeichenbasierten Sprachmodellen auf Zeichenebene arbeitet, die jedem Wort einen Vektor zuweisen.

Vector space(s)

Ein solcher Vektor hat viele Eigenschaften. Zum Beispiel ist der Vektor eines Wortes dem Vektor eines anderen Wortes ähnlich, wenn die Wörter semantisch ähnlich sind. D.h. in einigen Dimensionen werden gleiche oder ähnliche Werte stehen. Handelt es sich dagegen um das gleiche Wort in einem völlig anderen Kontext, ist auch der Vektor anders. Der zeichenbasierte Ansatz ermöglicht es, auch Wörtern, die im unbeaufsichtigten Training nicht erkannt wurden – sogenannten Out-Of-Vocabulary Words – gute Vektoren zuzuordnen. Auf dieselbe Weise können auch Wörter mit OCR-Fehlern vernünftige Vektoren erhalten.

Diese modernen Methoden sind vom Design her einfacher, aber deutlich anspruchsvoller in Bezug auf die erforderliche Rechenleistung. Ab 2019 erfordert das Training eines guten Sprachmodells mindestens einen kleinen Supercomputer mit vier Tesla-GPUs.

Überwachtes Training zur gezielten Qualitätsverbesserung

Überwachtes Training hat die Aufgabe, ein Modell zu finden, das von bestimmten, möglichst kleinen Satz von explizit markierten Trainingsbeispielen lernt, diese Markierungen auf anderen Daten ähnlich anzuwenden. Dazwischen wird häufig noch ein weiterer Validierungsdatensatz verwendet, um die Hyperparameter des überwachten Trainings zu optimieren.

Traditionell wurden für das überwachte Training Algorithmen wie Support Vector Machine (SVM) oder Conditional Random Field (CRF) verwendet. In jüngster Zeit kommen jedoch meist neuronalen Netzwerklösungen mit Komponenten wie Convolutional Neuronal Networks (CNN) oder Long-Short-Term-Memory (LSTM) zum Einsatz, gerne aber auch in Kombination mit den herkömmlichen Verfahren. Die Neuronalen Netzwerke lernen dabei die Features, und das CRF fällt dann die finale Entscheidung, zum Beispiel.

Traditional Machine Learning vs. Deep Learning

ExB hat eine eigene Architektur zur Trennung der (selbstgelernten oder von Hand vorgegeben) Featuregenerierung vom tatsächlichen maschinellen Lernen, so dass der Algorithmus des maschinellen Lernens ohne großen Aufwand ausgetauscht werden kann. Gleichzeitig kann die Featuregenerierung einfach erweitert werden, ohne die maschinelle Lernebene in irgendeiner Weise (negativ) zu beeinflussen.

Bei Wettbewerben immer vorne dabei.

Viele unsere Technologien und Anwendungen sind führend in der Welt. Das belegen nicht zuletzt die vorderen Platzierungen und Auszeichnungen bei internationalen Wettbewerben.

ISBI 2016

Erster Platz bei der „Automatisierten Hautläsionsanalyse und Melanomerkennung“ (ISIC Challenge).

ISBI 2016

Bestes Unternehmen mit dem „Automatisierten Nachweis von Metatasen bei Hämatoxylin und Eosin (H&E) gefärbten Ganzkörperaufnahmen von Lymphknotenabschnitten“ (Camelyon Challenge).

MICCAI 2015

Bestes Unternehmen für die Identifizierung von Krebszellen in Bildern von histologischen Schnitten (GlaS Challenge).

SemEval 2015

Semantische Textähnlichkeit: Zweiter Gesamtrang in Englisch (bestes teilnehmendes Unternehmen), erster Gesamtrang in Spanisch.

MultiLing 2015

Bestes „Multi Document Text Summarisation“ Unternehmen in 38 Sprachen, dritter Gesamtrang.

BioCreative 2015

Zweitbestes Unternehmen im „Medical Text Mining“ für Wirkstoffe, Krankheiten und deren Interaktion.

GermEval 2014

Erster und zweiter Gesamtrang, bester „Named Entity Recogniser“ für Deutsch.

Kontaktieren Sie uns

Wir nehmen uns Zeit für Ihren Fragen. Und zeigen Ihnen gerne eine Produktdemo.

Unsere Branchenlösungen

Die Cognitive Workbench in Versicherungen.
Geschäftspost zuverlässiger verarbeiten.

Bis heute kann bei Versicherungen oft nicht einmal die Hälfte der eingehenden Geschäftspost zuverlässig automatisiert verarbeitet werden. Mit dem Text-Mining der Cognitive Workbench können Sie die Trendwende einleiten. Dank einer signifikant höheren Erkennungsqualität – etwa bei Schadengutachten, Arbeitsunfähigkeitsbescheinigungen, Ärzteschreiben und Kundenbriefen – entlasten Sie Ihre Sachbearbeiter und senken Ihre operativen Kosten.