1 Was ist OCR 2 Geschichte 3 Vorgehensweise 4 Software 5 Anwendungsbeispiele 2
OCR (Optical Character Recognition) Texterkennung von einer gedruckten Vorlage 4
5
6
Spart Zeit bei der Dateneingabe Ermöglicht die Sortierung von Daten Erleichtert das Finden von Daten Optimal zur Archivierung 7
1929 Gustav Tauschek (* 29.04.1899 bis 14.02.1945) Vorrichtung zur Steuerung von Maschinen durch strahlende Energie 9
1951 David H. Shepard (* 30.09.1923 bis 24.11.2007) Maschine die Maschinenschrift lesen konnte ( Gismo ) US-Patentnummer 2,663,758 Intelligent Machines Research Corp. 10
1962 Taschenbuch der Nachrichtenverarbeitung 12 verschiedene Verfahren zur automatischen Zeichenerkennung 11
1965 Einsatz von OCR-Maschinen bei der US-Post 1968 OCR-A (ANSI INCITS 17-1981) 1973 OCR-B (ISO 1073-2) 12
Noch heute im Einsatz: die Ziffern der OCR-A auf Schecks und Kreditkarten 13
Ende der 70er Neue Generation von Erkennungssystemen, welche auch ungenormte Schriften erkennen (omnifont) Spitzengerät Allfont 2800 erkennt pro Tag bis zu 6000 Belege im Format A4, liest OCR-A, OCR-B, Schreibmaschinen-, Drucker- und Handblockschriften Mitte der 80er Neue Generation von Lesesystemen: Flachbett-, Einzugs- und Handscanner. 14
Heute Zahlreiche OCR-Lösungen für Heimcomputer Texterkennung von fast allen gängigen Schriften Genauigkeit in den letzten Jahren immer mehr optimiert 15
17
Trennung von Text und Nicht-Text 18
Zeilentrennung 19
Pattern Matching (Mustervergleich) Feature Recognition (Merkmalserkennung) 20
Zeichen als einzelne Zellen erfassen 21
Mustervergleich durch Überlagerung Erfordert Muster für viele Schriftarten Normierungsverfahren und Toleranzwerte erhöhen die Erkennungsrate 22
Untersucht geometrische Merkmale Linien, Winkel, Bögen, Kreise 23
Unabhängig von Schriftart und größe Erkennung ohne Training möglich 24
25
Fehlerkorrektur Auswerten von Kontextinformationen Rechtschreibprüfung ICR (Intelligent Character Recognition) 26
Kann nicht über herkömmliche OCR-Verfahren erkannt werden Unterscheidung Rasterbasierte Handschrift (gescannte Vorlagen) Vektorbasierte Handschrift (PDAs, Tablet-PCs) 27
Lässt sich nicht zuverlässig zerlegen 28
Analyse schon während der Eingabe Reihenfolge, Geschwindigkeit und Richtung 29
Erkennungsgenauigkeit OCR-Normschriften 99,9% Schreibmaschinenschriften 98% Druckschriften (Laserdruck) 98% - 99% Blockhandschrift Ziffern 95% - 98% Blockhandschrift alphanumerisch < 95% Saubere Schreibschrift 80% - 90% 1% Fehlerrate sind bei A4-Seite mit 4000 Zeichen immerhin 40 Fehler 30
OmniPage 16 119 FineReader 9.0 149 ReadIris Pro 11 100 TextBridge Pro 11 50 Tesseract Free 32
33
35
Bücher im Volltext durchsuchen 36
Einführung in die PC-Grundlagen (Addison-Wesley) Management-Technologien (Springer) Multimedia-Technologie (Springer) Dokumenten-Management (Springer) Mustererkennung von Gernot A. Fink (TU Dortmund) Zeichenerkennung (OCR) (Prof. Stucki - Uni Zürich) Scannen und erkennen (c't 04/1990) Wettlesen (c't 25/2007) Lese-Ratten (PCgo! 12/99) AKLS (http://www.selexcom.de) http://www.ocr-systeme.de/ http://www.100besteschriften.de/ 37
Noch Fragen??? 38