Zum Forum
Passwort vergessen?
Noch keinen Account?
lexikon
Hauptseite
Zufälliger Artikel
Diskussion
Diskussion : Texterkennung
Links
Forum
Portale
Reisen
Versicherung
Inhaltsverzeichnis
Hauptmenü
Home
Editorial
Bildung
E-Learning
Fremdsprachen
Magazin
Wissen
Wörterbücher
Enzyklopädien
Expertendienste
Wissenswertes
Praktische Ratgeber
--------------------------
Biologie
Chemie
Computer
Film/ Theater
Geografie
Geschichte
Jura
Kunst
Literatur
Mathematik
Medizin
Musik
Philosophie
Physik/ Astronomie
Politik
Psychologie
Religionen
Sport
Umwelt
Wirtschaft
Reisen
Lexikon
Versicherung
Suchen
Schnellsuche
Suchmaschinen
Metasuchmaschinen
Webkataloge
News
Treffpunkt
Chat
Forum
Suche
Schnellsuche
Sitemap
Kontakt
Impressum
Texterkennung
Stichpunkte
Allgemein
bzw
Texterkennung oder auch Optische Zeichenerkennung (Abkürzung OZE
OCR von englisch Optical Character Recognition) ist ein Begriff aus dem IT-Bereich und beschreibt die automatische Texterkennung von einer gedruckten Vorlage
Ursprünglich wurden zur automatischen Texterkennung eigens entworfene Schriftarten entwickelt
die zum Beispiel für das Bedrucken von Scheckformularen verwendet wurden
dass die einzelnen Zeichen von einem OZE-Lesegerät schnell und ohne großen Rechenaufwand unterschieden werden konnten
Diese Schriftarten waren so gestaltet
besonders bei den Ziffern aus
So zeichnet sich die Schriftart OCR-A durch einander besonders unähnliche Zeichen
nicht-proportionalen Schriftart
während OCR-H handgeschriebenen Ziffern und Großbuchstaben nachempfunden wurde
OCR-B ähnelt mehr einer serifenlosen
Die gestiegenen Leistungen moderner Computer und verbesserte Algorithmen erlauben inzwischen auch die Erkennung von "normalen" Druckerschriftarten bis hin zu Handschriften (z
werden technologisch einfacher handhabbare Strichcodes benutzt
wenn jedoch Lesbarkeit durch Menschen nicht vorrangig ist
B. bei der Briefverteilung)
Moderne Texterkennung umfaßt auch die Erkennung verschiedener Schriftarten und -größen und des Seitenlayouts zur möglichst originalgetreuen Wiedergabe einer Vorlage. [Bearbeiten]
Verfahren
die von der Vorlage per Scanner
Digitalfotografie oder Videokamera erzeugt wird
Ausgangspunkt ist eine Bilddatei (Rastergrafik)
Linien) aufgeteilt. Mustererkennung: Die Pixelmuster der Textbereiche werden mit Mustern in einer Datenbank verglichen und Rohdigitalisate erzeugt. Fehlerkorrektur: Die Rohdigitalisate werden mit Wörterbüchern verglichen sowie nach linguistischen und statistischen Verfahren hinsichtlich ihrer wahrscheinlichen Fehlerfreiheit bewertet
Bildunterschriften) und irrelevante Bereiche (Abbildungen
Weißflächen
Die Texterkennung selbst erfolgt dreistufig: Seiten- und Layouterkennung: Die Bilddatei wird in relevante Bereiche (Texte
In Abhängigkeit von dieser Bewertung wird der Text ausgegeben oder ggfs. einer erneuten Layout- oder Mustererkennung mit veränderten Parametern zugeführt
Viele Programme bieten darüber hinaus einen besonderen Modus zur manuellen Fehlerkorrekur durch den Anwender. Abschließend erfolgt eine Codierung in das Ausgabeformat (z
BA
ggfs. auch mit Layout (zB
SCII) als Textdatei
erzielen gute Programme dank leistungsfähiger Algorithmen zu Korrektur eine Fehlerfreiheit von bis zu 99%. [Bearbeiten]
Layout und Schriftart des Originaldokumentes Auflösung und Qualität der Bilddatei Während eine reine Mustererkennung eine Fehlerfreiheit in der Größenordnung von 80% erreicht (jedes fünfte Zeichen wird falsch erkannt)
Kontrast
. als HTML oder PDF). Die Qualität der Texterkennung bestimmen mehrere Faktoren
u.a.: Qualität der Layouterkennung Umfang und Qualität der Muster-Datenbank Umfang und Qualität der Wörterbücher Qualität der Algorithmen zur Fehlerkorrektur Farbigkeit
Anwendungen
Wiedergewinnen von Textinformation aus Bilddateien
um diese mit Hilfe einer Textverarbeitung weiter zu bearbeiten und/oder elektronisch durchsuchbar zu machen Erkennung von relevanten Merkmalen (z
BP
Vertragsnummer
ostleitzahl
Rechungsnummer) zur mechanischen (Poststraße) oder elektronischen (Workflow-Management-System) Einsortierung eines Schriftstücks Erkennung von Merkmalen zur Registrierung und ggfV
erfolgung von Gegenständen (zB
Iriserkennung
Autonummern) Siehe auch: Spracherkennung
ECM-Komponenten en:Optical character recognition es:Reconocimiento óptico de caracteres fr:Reconnaissance optique de caractères hu:Optikai karakterfelismerés it:OCR nl:Optical Character Recognition pl:OCR pt:OCR sv:OCR zh:å…‰å¦å—符识别
Dieser Artikel basiert auf dem Artikel
Texterkennung
aus der freien Enzyklopädie
wikipedia
und steht unter der
GNU Lizenz für freie Dokumentation
. In der wikipedia ist eine
Liste der Autoren
verfügbar.
Douglasien
[ Zurück ]
Inhalt Lexikon:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
1
2
3
4
5
6
7
8
9
Chat
|
Lexikon
|
Reisen
|
Versicherung
|
Forum
|
Kontakt