1 Was ist OCR 2 Geschichte 3 Vorgehensweise 4 Software 5 Anwendungsbeispiele. René Pienkoß

Līdzīgi dokumenti
Teorija Praktiskās mācības/ prakse Kopā Kursa Praktiskā Montessori pedagoģija darbam ar bērniem vecumā no 3 līdz 6 gadiem MĀCĪBU PLĀNS Kontaktstundas*

A/S Transporta un sakaru institūts (turpmāk tekstā - TSI) NOLIKUMS par ārvalstu akadēmiskā personāla atlasi 2018./2019., /2020. akadēmiskajam ga

RF PRO.pdf

State Revenue Services of the Republic Latvia Talejas iela 1, Riga LV-1978 Latvia Ihr Vor- und Zuname Ihre Straße und Hausnummer Ihre Postleitzahl Ihr

Microsoft PowerPoint - LZA_INFROM_seminar_ _lektauers - Final.pptx

Tirgus dalībnieka nosaukums: "Parex Asset Management" Ieguldījumu pārvaldes akciju sabiedrība Kods: 098 "Valsts fondēto pensiju shēmas līdzekļu pārval

PowerPoint Presentation

Packet Core Network 2018

3D_modeli_atskaite.pages

Microsoft Word - Papildmaterials.doc

suvenīru katalogs

Microsoft PowerPoint - IRASA APHP CONSENSUS UZ no ppt [Read-Only] [Compatibility Mode]

Latvia - EFPIA Disclosure Report 2018

KURSA KODS EkonP981-I; EkonP126-II; EkonP137-III STUDIJU KURSA PROGRAMMAS STRUKTŪRA Kursa nosaukums latviski Uzņēmumu finanšu vadība I, II, III Kursa

SolidCAM Solution Presentation

APSTIPRINĀTS

PowerPoint Presentation

ABLV aktīvais ieguldījumu plāns Stāvoklis uz Pozīcijas nosaukums AKTĪVI Finanšu ieguldījumi Debitoru parādi 0200

RietumuAPI_PSD2_v1_LV

Microsoft Word - CV G.Berzins Rekt ora vēlēšanām.docx

LU 68 Fizikas sekcija DocBook

PowerPoint Presentation

Riski: identificēšana un mērīšana

100802_EU_Bio_Logo_Guidelines_cos.indd

DAUGAVPILS PEDAGOGISKA UNIVERSITATE

KURSA KODS

Akciju sabiedrības PROTEZĒŠANAS UN ORTOPĒDIJAS CENTRS K A T A L O G S iepirkuma 3. daļai Atklātam konkursam Par tiesībām pielāgot un izsniegt gatavos

IEVADS

EKONOMIKAS UN KULTŪRAS AUGSTSKOLA IZKLAIDES UN ATPŪTAS INDUSTRIJAS VADĪBA KVALIFIKĀCIJAS DARBS Koncertu plānošana un organizēšana Latvijas Nacionālajā

Slide 1

(Microsoft Word - Retransl\342cijas%20at\357aujas%20Nr_6%20IZZI%20FAO[1].doc)

Datorzinātņu doktorantūras zinātniskais seminārs Atrašanās vietas inteliģences metodes datu noliktavu mobilai lietotnei 1.k.doktorante: Daiga Plase Da

XC40-cenu lapa

Prezentacja programu PowerPoint

Slide 1

lnb zinojums

APSTIPRINĀTS biedrības Latvijas Transportlīdzekļu apdrošinātāju birojs biedru sapulces gada 9. oktobra sēdē protokols Nr. 5 Ar biedru sapulces 2

06LV0061

Jaunais V60-cenu-lapa

EKSPLUATĀCIJAS ĪPAŠĪBU DEKLARĀCIJA EĪD Nr CPR-M 561-7/11.14-LV 1. Unikālais izstrādājuma tipa identifikācijas numurs: Fix Master Toge skrūve bet

Microsoft Word pielikums_studiju kursu apraksti

Microsoft PowerPoint - VPP_seminārs_ _LAB

Ģeotelpisko datu infrastruktūras nozīme Viedās pilsētas pārvaldībā Ervins Stūrmanis SIA «Mikrokods» Bismart konference «Vieda pilsētvid

PowerPoint Presentation

SEAT Ateca Noliktavas izpārdošana ar ieguvumu līdz 5560 Vairāk info sadaļā AKCIJAS Modeļa kods Dzinējs Jauda kw/zs Transmisija Cena EUR ar PVN REFEREN

21.gadsimta prasmju un iemaņu attīstība Zane Matesoviča, British Council pārstāvniecības Latvijā vadītāja

PM_Izglītības _prasības_v.1.1

Absolventi

B430_E_EP_F_Einzels_13_02_03

C instructions Kit 754 Rapid System 480R Rapid Traverse (North America) 480 Traverse (North America) ISO E 1522 CHEVROLET S

LIEPĀJAS UNIVERSITĀTE LIEPAJA UNIVERSITY IZGLĪTĪBAS ZINĀTĽU INSTITŪTS SOCIOLOĢISKO PĒTĪJUMU CENTRS VADĪBAS UN SOCIĀLO ZINĀTĽU FAKULTĀTE INSTITUTE OF E

RĪGAS TEHNISKĀ UNIVERSITĀTE Datorzinātnes un informācijas tehnoloģijas fakultāte (DITF) Elektronikas un telekomunikāciju fakultāte (ETF) E-studiju teh

Microsoft PowerPoint - Rauhvargers_Stocktaking_RP_2009.ppt [Compatibility Mode]

IMPRESSA Xs95/ Xs90 Īsa lietošanas pamācība

Microsoft PowerPoint - DS.AM.01.ppt

Raksts_Rezeknei09

Transkripts:

1 Was ist OCR 2 Geschichte 3 Vorgehensweise 4 Software 5 Anwendungsbeispiele 2

OCR (Optical Character Recognition) Texterkennung von einer gedruckten Vorlage 4

5

6

Spart Zeit bei der Dateneingabe Ermöglicht die Sortierung von Daten Erleichtert das Finden von Daten Optimal zur Archivierung 7

1929 Gustav Tauschek (* 29.04.1899 bis 14.02.1945) Vorrichtung zur Steuerung von Maschinen durch strahlende Energie 9

1951 David H. Shepard (* 30.09.1923 bis 24.11.2007) Maschine die Maschinenschrift lesen konnte ( Gismo ) US-Patentnummer 2,663,758 Intelligent Machines Research Corp. 10

1962 Taschenbuch der Nachrichtenverarbeitung 12 verschiedene Verfahren zur automatischen Zeichenerkennung 11

1965 Einsatz von OCR-Maschinen bei der US-Post 1968 OCR-A (ANSI INCITS 17-1981) 1973 OCR-B (ISO 1073-2) 12

Noch heute im Einsatz: die Ziffern der OCR-A auf Schecks und Kreditkarten 13

Ende der 70er Neue Generation von Erkennungssystemen, welche auch ungenormte Schriften erkennen (omnifont) Spitzengerät Allfont 2800 erkennt pro Tag bis zu 6000 Belege im Format A4, liest OCR-A, OCR-B, Schreibmaschinen-, Drucker- und Handblockschriften Mitte der 80er Neue Generation von Lesesystemen: Flachbett-, Einzugs- und Handscanner. 14

Heute Zahlreiche OCR-Lösungen für Heimcomputer Texterkennung von fast allen gängigen Schriften Genauigkeit in den letzten Jahren immer mehr optimiert 15

17

Trennung von Text und Nicht-Text 18

Zeilentrennung 19

Pattern Matching (Mustervergleich) Feature Recognition (Merkmalserkennung) 20

Zeichen als einzelne Zellen erfassen 21

Mustervergleich durch Überlagerung Erfordert Muster für viele Schriftarten Normierungsverfahren und Toleranzwerte erhöhen die Erkennungsrate 22

Untersucht geometrische Merkmale Linien, Winkel, Bögen, Kreise 23

Unabhängig von Schriftart und größe Erkennung ohne Training möglich 24

25

Fehlerkorrektur Auswerten von Kontextinformationen Rechtschreibprüfung ICR (Intelligent Character Recognition) 26

Kann nicht über herkömmliche OCR-Verfahren erkannt werden Unterscheidung Rasterbasierte Handschrift (gescannte Vorlagen) Vektorbasierte Handschrift (PDAs, Tablet-PCs) 27

Lässt sich nicht zuverlässig zerlegen 28

Analyse schon während der Eingabe Reihenfolge, Geschwindigkeit und Richtung 29

Erkennungsgenauigkeit OCR-Normschriften 99,9% Schreibmaschinenschriften 98% Druckschriften (Laserdruck) 98% - 99% Blockhandschrift Ziffern 95% - 98% Blockhandschrift alphanumerisch < 95% Saubere Schreibschrift 80% - 90% 1% Fehlerrate sind bei A4-Seite mit 4000 Zeichen immerhin 40 Fehler 30

OmniPage 16 119 FineReader 9.0 149 ReadIris Pro 11 100 TextBridge Pro 11 50 Tesseract Free 32

33

35

Bücher im Volltext durchsuchen 36

Einführung in die PC-Grundlagen (Addison-Wesley) Management-Technologien (Springer) Multimedia-Technologie (Springer) Dokumenten-Management (Springer) Mustererkennung von Gernot A. Fink (TU Dortmund) Zeichenerkennung (OCR) (Prof. Stucki - Uni Zürich) Scannen und erkennen (c't 04/1990) Wettlesen (c't 25/2007) Lese-Ratten (PCgo! 12/99) AKLS (http://www.selexcom.de) http://www.ocr-systeme.de/ http://www.100besteschriften.de/ 37

Noch Fragen??? 38