Maschinelle Texterkennung

Veröffentlicht

OCR oder Optical Character Recognition ist eins der vielen Stichworte, die sicher die meisten von uns schon gehört haben. Auch bei scanacs haben wir uns damit beschäftigt, da wir unseren Anwendern den höchstmöglichen Komfort bieten wollen. Nun gibt es am Markt verschiedene Lösungen die man installieren kann und schon geht es los! Doch ganz so einfach ist es nicht. Wir haben uns für Googles Tesseract entschieden, diese aus Datenschutzgründen in die SAP Cloud Platform integriert und über eine API für unsere Anwendung und unsere Partner bereitgestellt.

Eine Texterkennung lebt jedoch auch wesentlich von der Qualität der bereitgestellten Images, und da sind nicht alle Dokumente gleich. Wichtig ist ein Schwarz-Weiß-Image mit einem hohen Kontrast zwischen dem Text und dem weißen Hintergrund. Um dieses zu erzeugen brauchten wir zunächst die Unterstützung unseres Projektpartners Kodak Alaris, wobei die Kollegen in Rochester/New York speziell für die scanacs-Lösung die vorhandene Schnittstelle angepasst haben.
Der von uns genutzte Scanner Kodak S2060W lässt sich daher nun über die eigene WEB-API hervorragend an unsere Applikation anbinden, weshalb beispielsweise das Installieren eines Software-Treibers entfällt.

Der Scanner liefert bei nur einem Scan-Vorgang zwei verschiedene Bilder. Das Schwarz-Weiß-Image, bei welchem die Hintergrundfarben ausgeblendet werden, verwenden wir für die Texterkennung. Das Farbimage wird zur Anzeige im Browser aber auch zur Einbettung der elektronischen Signatur und Langzeitarchivierung verwendet.
Die Validierung, Interpretation und Zuordnung der erkannten Texte und Werte haben wir in der HANA-Datenbank realisiert.
Somit sind wir jetzt in der Lage, den Inhalt von Rezepten in Sekundenschnelle zu erkennen und weiter zu verarbeiten. Natürlich kann die Technik auch für andere Anwendungsfälle verwendet werden.

Sollten Sie hierzu Fragen haben, so stehen wir gern zur Verfügung.

Literatur:
https://github.com/tesseract-ocr/tesseract
https://www.alarisworld.com/de-de/solutions/document-scanners/desktop/s2060w-s2080w-scanners#About
https://cloudplatform.sap.com/index.html