120 likes | 233 Views
Themenprojekt von Judith Bühler Vorlesung: „Automatisierung der Medienproduktion“ Dozent: Professor Jürgen Walter. Automatische Texterkennung. Problemstellung: Ausgangssituation.
E N D
Themenprojekt von Judith Bühler Vorlesung: „Automatisierung der Medienproduktion“ Dozent: Professor Jürgen Walter Automatische Texterkennung
Problemstellung: Ausgangssituation Annahme: Person X hat einen gedruckten Text auf Papier, möchte ihn aber in digitaler Form auf einem Computer haben, um den Text weiterverarbeiten oder ändern zu können.
Problemstellung: Schritt 1 Schritt 1: Person X scannt den Text. Jetzt liegt dieser zwar digital auf dem Computer vor, jedoch in einem nicht veränderbaren Format (zum Beispiel als Bild-Datei wie tiff, jpg, png oder als PDF) (= in Bild eingebetteter Text)
Problemstellung: Schritt 2 Schritt 2: Damit der Text vom Computer als Textdatei erkannt werden kann, braucht er eine bestimmte Software, die ihm sagt, welches gedruckte Zeichen welcher Taste auf der Tastatur entspricht.
Lösung: Deshalb gibt es die… AUTOMATISCHE TEXTERKENNUNG
Was ist die Automatische Texterkennung? • Automatische Texterkennung = OCR • OCR = Optical CharacterRecognition (optischeZeichenerkennung) • Definition:„[OCR ist ein] Verfahren, mit dem gedruckte Texte in den Computer "eingelesen" (digitalisiert) werden. Die Vorlage gelangt zunächst in bzw. unter ein Lesegerät (Scanner) . Eine spezielle Software identifiziert dann die einzelnen Buchstaben, Zahlen und sonstigen Zeichen.“Quelle: http://www.at-mix.de/ocr.htm, Zugriff: 25.04.14, 17:26 Uhr
Recherche: Programme Mittlerweile gibt es viele Programme für die Automatische Texterkennung, zum Beispiel: • FineReader(von ABBYY) • FormPro (von OCR Systeme) • Acrobat Text Capture in Adobe Acrobat (von Adobe Systems) • OneNote 2010 (von Microsoft) kostenpflichtige Programme
Recherche: Programme • Auch Freeware-Programme sind erhältlich, zum Beispiel: • OCRopus • GOCR • CuneiForm • OcradTesseract • FreeOCR
Fragestellung Welches Programm wandelt Bild- und PDF-Dateien zuverlässig und anwendungsfreundlich in Textdateien um, die weiterverarbeitet werden können? Diese Fragesetellung werde ich durch Tests verschiedener OCR-Programme beantworten
Aufgabenstellung • Vergleichen Sie verschiedene Texterkennungs-Programme anhand ausgewählter Texte, die nicht als Textdateien vorliegen. Führen Sie Tests unter dem Einfluss verschiedener Parameter (verschiedene Schriftarten, -größen und –farben) durch. Geben Sie anhand Ihrer Ergebnisse eine Empfehlung, welches Programm am Besten für das Erkennen eines Texts, der nicht als Textdatei vorliegt, geeignet ist
Hinweis zur Herangehensweise Ich orientiere mich in der äußeren Form und der Struktur meines Projekts im Groben an der Arbeit von Elisabeth Strecker (KMT, 1. Jahrgang). Sie hat sich im Rahmen der Vorlesung „Automatisierung der Medienproduktion“ mit Musikerkennungsprogrammen beschäftigt. Inhaltlich beziehe ich mich allerdings NICHT auf die Arbeit von Elisabeth Strecker, da Gegenstand meiner Untersuchung andere Programme aus einem anderen Bereich sein werden. (Musikerkennung versus Texterkennung)
Hinweis zur Herangehensweise Meine Projekt fertige ich eigenständig an.