Stellen sie sich vor, eine Rechnung geht verloren und eine Kopie wurde nie erstellt. Für manche unvorstellbar nach wie vor mit analogen Dokumenten zu arbeiten, doch für viele leider immer noch gelebter Alltag.
Dabei bietet Digitalisierung die Möglichkeit herkömmliche analoge Dokumente, wie beispielsweise die besagte Rechnung, als digitale Kopie zu hinterlegen. Dadurch bekommt nicht nur der Verlust eines Originals eine geringere Bedeutung, sondern es bietet ebenso den Vorteil einer leichteren Zugänglichkeit. Darüber hinaus eröffnen sich durch digitale Dokumente weitere Anwendungsfelder, da es in Zeiten der fortschreitenden Digitalisierung es an immer größerer Bedeutsamkeit gewinnt, möglichst viele Informationen zu gewinnen und Prozesse zu automatisieren. So kann man aus den digital vorliegenden Dokumenten Informationen automatisch extrahieren und diese zur weiteren Verarbeitung brauchbar machen. Dazu werden folgend die Methoden zur Extraktion von Informationen aus Dokumenten thematisiert und deren Anwendungsfelder im Gesamtkontext mit einem Anwendungsbeispiel erklärt.Die zu erklärenden Methoden sind:
- Image Preprocessing
- Texterkennnung
- Objekterkennung
- Named Entity Recognition
Image Preprocessing
Die Bildvorverarbeitung, auch besser bekannt als Image Preprocessing, bezeichnet eine Vielzahl an Techniken die dazu dienen, Bilder zu optimieren oder deren Qualität zu verbessern, um sie in Folgeschritten effektiver analysieren zu können. Der „Qualitätsverbesserung“ kann in diesem Zusammenhang eine unterschiedliche große Bedeutung zugeschrieben werden. Denn bei der Digitalisierung analoger Dokumente z.B. beim Scanvorgang können diverse Problemen auftreten. Im Bezug auf Bilder, könnten diese beispielweise zu dunkel oder verrauscht sein sowie überflüssige Rändern aufweisen. All diese Unzugänglichkeiten können durch geeignete Operationen im Rahmen des Image Processing entfernt bzw bis zu einem gewissen Gard abgeschächt werden, um sie für weitere Analyseschritte vorzubereiten.
Das Ziel der Bildvorverarbeitung besteht darin, die Rohdaten des Bildes in ein Format zu transformieren, das für nachgelagerte Anwendungen wie Objekterkennung, Segmentierung oder Klassifizierung nützlicher ist. Eine Verbesserung der Qualität sowie Genauigkeit der Bilddaten durch die Vorverarbeitung, kann die Leistungsfähigkeit der Anwendungen steigern und zu besseren Ergebnissen führen.
Texterkennung
Die Texterkennung, Optical Character Recognition (OCR), ist eine KI basierte Methode, welche zur Extraktion von Zeichen aus Bildern verwendet wird. OCR ist eine modelbasierte Methodik, welche ein einfaches, aber wichtiges Vorgehen ist, um digitalisierte Dokumente zu analysieren. Die Qualität der extrahierten Texte korreliert mit der Qualität der Bilder, weswegen das Image Preprocessing ein unverzichtbares Tool ist.
Das Verfahren der optischen Zeichenerkennung beinhaltet die Verwendung von Algorithmen, um die Buchstaben, Zahlen und andere Symbole in einem digitalen Bild zu erkennen und zu klassifizieren. Die Algorithmen nutzen Mustererkennungen und maschinelles Lernen, um die Buchstaben und Symbole zu identifizieren und zu klassifizieren.
Die extrahierten Texte liefern jedoch noch keine Informationen darüber, was sie überhaupt darstellen, weswegen weitere Methoden benötigt werden, um diese Relationen herzustellen. Diese Methoden sind zum einen die Objekterkennung und zum anderen die Named Entity Recognition, welche in den nächsten Punkten beschrieben werden.
Objekterkennung
Die Objekterkennung OOR ist ebenfalls eine KI basierte Methode, die jedoch anders als das OCR, Objekte in Bildern oder Videos identifiziert. Für diesen Prozess ist ein aufwendig gelabeltes Modell mit Testdaten nötig, in denen man die Objekte in Testbilder identifiziert und sie markiert. Mit diesen Testbildern und den markierten Objekten wird ein Modell trainiert, was dazu führt, dass die OOR in neuen Bildern diese Objekte erkennt. Diese Merkmale können beispielsweise Formen, Texturen oder Farben sein, die es ermöglichen, Objekte voneinander zu unterscheiden.
Die OOR hat eine große Anzahl an Anwendungsfeldern, wie in der Medizin, autonomen Fahren, Gesichtserkennung und vieles mehr. Sie kann aber auch in der Analyse von digitalisierten Dokumenten von Hilfe sein, wie in Anwendungsbeispiel 1 beschrieben wird.
Named Entity Recognition
In der Verarbeitung natürlicher Sprache ist die Named Entity Recognition (NER) ein Prozess, bei dem ein Satz oder ein Textabschnitt analysiert wird, um Entitäten zu finden, die wie Kategorien funktionieren.
Das Verfahren der Named Entity Recognition beinhaltet die Anwendung von Machine-Learning-Algorithmen, um spezifische Muster im Text zu identifizieren, die auf das Vorhandensein von benannten Entitäten hindeuten. Darüber hinaus können die Algorithmen auch Regeln und Muster verwenden, um die Entitäten zu identifizieren. So kann die NER durch ein trainiertes Modell die benötigten Informationen gewinnen wie z.B. Namen, Organisationen, Standorte usw. Die Modelle können dynamisch trainiert werden, um mehr als nur die zuvor erwähnten Entitäten zu extrahieren. Die NER eignet sie insbesondere für die Analyse von Volltexten, die Subjekt Prädikat und Objekt enthalten, da das NER alle Wörter mit in den Entscheidungsprozess der Entitäten mit einbezieht.
Named Entity Recognition findet in vielen Bereichen Anwendung wie beispielsweise in der Informationsextraktion, der Automatisierung von Kundenbetreuung, der Suche im E-Commerce, der Analyse von sozialen Medien oder der Sentimentanalyse.
Anwendungsbeispiel: Rechnung
Eine Rechnung umfasst viele Informationen, die in verschiedensten Formen auf dem Dokument enthalten sind. So können wichtige Informationen in Sätzen aber auch in Tabellen enthalten sein. Für die weitere Verwendung der Informationen in Folgeschritten gilt es diese zu extrahieren. Dazu werden die bereits beschriebenen Methoden unter Verwendung eines Anwendungsbeispiels in den Gesamtkontext gebracht.
Die folgende Abbildung beinhaltet zwei markierte Beispiele. Beispiel 1 umfasst den Text mit Informationen und Beispiel 2 eine Tabelle mit Rechnungsposten. Wir wollen aus beiden Beispielen Informationen extrahieren, um sie zur weiteren Verwendung zur Verfügung zu stellen.
Für beide Beispiele gilt vorerst der gleiche erste Schritt des Image Preprocessing.. Da es eine Computergenerierte Rechnung ist und die Mängel, welche z.B. durch einen Scan entstehen, nicht gegenwärtig sind, braucht man nur einfachste Image Preprocessing Methoden. Hier würden sich Operationen, wie die Graustufenskalierung gefolgt von Binarisierung anbieten. Diese Verfahren werden dazu verwendet, um die Komplexität des Bildes in ein Schwarz-Weiß-Bild umzuwandeln. Dies führt dazu das Methoden, wie OCR usw., bessere Ergebnisse generieren.
Beispiel 1
Aus dem Beispiel 1, welches eine Anrede und etwas Text enthält, sollen zwei Informationen gewonnen werden. Zum einen an wen die Rechnung gestellt wurde und zum anderen die Rechnungsnummer. Hierfür könnte man auf das bereits vorverarbeitete Bild das OCR anwenden, um alle Textzeichen aus der Rechnung zu extrahieren. Danach wendet man auf den Text, der durch das OCR gewonnen wurde, die Named Entity Recognition mit einem passenden Modell an. Das Modell würde in dem Fall nur die zwei Entitäten Adressat und Rechnungsnummer beinhalten. Dies ist nur ein simples Beispiel und die NER kann viel komplexere Anwendungsfälle bearbeiten.
Beispiel 2
In Rechnungen sind meist alle Rechnungsposten in Tabellen hinterlegt, in Beispiel 2 gilt es diese Informationen zu extrahieren. Auf das bereits vorverarbeitete Bild wird mit einem Modell für Tabellen eine Opitcal Object Recognition, angewandt. Das Modell umfasst eine große Menge an verschieden strukturierten Tabellen, wie z.B. Tabellen mit und ohne Rand. Mit der Optical Object Recognition erhält man die Koordinaten, wo in dem Bild eine oder mehrere Tabellen liegen. In unserem Beispiel haben wir jedoch nur eine Tabelle. Nach dem Erhalt der Koordinaten, kann man wieder das OCR anwenden und die Informationen aus der Tabelle zur weiteren Verwendung bereitstellen.
In diesem Beitrag ging es darum einen Einblick in ein paar Methoden zur Verarbeitung von digitalen Dokumenten aufzuzeigen. Wie diese Synergieren und man mit diesen Informationen gewinnt. Diese Methoden wurden vereinfacht dargestellt und können weit mehr leisten, als in den Beispielen vielleicht ersichtlich wurde.
Autor: William ist bei TIQ Solutions als Data Analyst tätig.