1 / 12

Automatische Texterkennung

Themenprojekt von Judith Bühler Vorlesung: „Automatisierung der Medienproduktion“ Dozent: Professor Jürgen Walter. Automatische Texterkennung. Problemstellung: Ausgangssituation.

duena
Download Presentation

Automatische Texterkennung

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Themenprojekt von Judith Bühler Vorlesung: „Automatisierung der Medienproduktion“ Dozent: Professor Jürgen Walter Automatische Texterkennung

  2. Problemstellung: Ausgangssituation Annahme: Person X hat einen gedruckten Text auf Papier, möchte ihn aber in digitaler Form auf einem Computer haben, um den Text weiterverarbeiten oder ändern zu können.

  3. Problemstellung: Schritt 1 Schritt 1: Person X scannt den Text. Jetzt liegt dieser zwar digital auf dem Computer vor, jedoch in einem nicht veränderbaren Format (zum Beispiel als Bild-Datei wie tiff, jpg, png oder als PDF) (= in Bild eingebetteter Text)

  4. Problemstellung: Schritt 2 Schritt 2: Damit der Text vom Computer als Textdatei erkannt werden kann, braucht er eine bestimmte Software, die ihm sagt, welches gedruckte Zeichen welcher Taste auf der Tastatur entspricht.

  5. Lösung: Deshalb gibt es die… AUTOMATISCHE TEXTERKENNUNG

  6. Was ist die Automatische Texterkennung? • Automatische Texterkennung = OCR • OCR = Optical CharacterRecognition (optischeZeichenerkennung) • Definition:„[OCR ist ein] Verfahren, mit dem gedruckte Texte in den Computer "eingelesen" (digitalisiert) werden. Die Vorlage gelangt zunächst in bzw. unter ein Lesegerät (Scanner) . Eine spezielle Software identifiziert dann die einzelnen Buchstaben, Zahlen und sonstigen Zeichen.“Quelle: http://www.at-mix.de/ocr.htm, Zugriff: 25.04.14, 17:26 Uhr

  7. Recherche: Programme Mittlerweile gibt es viele Programme für die Automatische Texterkennung, zum Beispiel: • FineReader(von ABBYY) • FormPro (von OCR Systeme) • Acrobat Text Capture in Adobe Acrobat (von Adobe Systems) • OneNote 2010 (von Microsoft)  kostenpflichtige Programme

  8. Recherche: Programme • Auch Freeware-Programme sind erhältlich, zum Beispiel: • OCRopus • GOCR • CuneiForm • OcradTesseract • FreeOCR

  9. Fragestellung Welches Programm wandelt Bild- und PDF-Dateien zuverlässig und anwendungsfreundlich in Textdateien um, die weiterverarbeitet werden können?  Diese Fragesetellung werde ich durch Tests verschiedener OCR-Programme beantworten

  10. Aufgabenstellung • Vergleichen Sie verschiedene Texterkennungs-Programme anhand ausgewählter Texte, die nicht als Textdateien vorliegen. Führen Sie Tests unter dem Einfluss verschiedener Parameter (verschiedene Schriftarten, -größen und –farben) durch. Geben Sie anhand Ihrer Ergebnisse eine Empfehlung, welches Programm am Besten für das Erkennen eines Texts, der nicht als Textdatei vorliegt, geeignet ist

  11. Hinweis zur Herangehensweise Ich orientiere mich in der äußeren Form und der Struktur meines Projekts im Groben an der Arbeit von Elisabeth Strecker (KMT, 1. Jahrgang). Sie hat sich im Rahmen der Vorlesung „Automatisierung der Medienproduktion“ mit Musikerkennungsprogrammen beschäftigt. Inhaltlich beziehe ich mich allerdings NICHT auf die Arbeit von Elisabeth Strecker, da Gegenstand meiner Untersuchung andere Programme aus einem anderen Bereich sein werden. (Musikerkennung versus Texterkennung)

  12. Hinweis zur Herangehensweise Meine Projekt fertige ich eigenständig an.

More Related