1 / 6

proposé par R. Kachouri , M. Akil Proposition de projet I4, ESIEE, Novembre 2012

Compression de documents scannés par Codage vectoriel Extraction de composantes connexes et reconstitution de documents scannés dans un fichier PDF à l’aide d’un codage vectoriel. proposé par R. Kachouri , M. Akil Proposition de projet I4, ESIEE, Novembre 2012.

kalyca
Download Presentation

proposé par R. Kachouri , M. Akil Proposition de projet I4, ESIEE, Novembre 2012

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Compression de documents scannés par Codage vectorielExtraction de composantes connexes et reconstitution de documents scannés dans un fichier PDF à l’aide d’un codage vectoriel proposé par R. Kachouri, M. Akil Proposition de projet I4, ESIEE, Novembre 2012

  2. Codage vectoriel de documents scannés : Motivation • Contexte du projet : Compression de documents scannés Suite à une dématérialisation de documents, le contexte de ce projet consiste à assurer la compression des documents scannés à l’aide d’un codage vectoriel en s’appuyant sur un dictionnaire de formes représenté comme une police de caractères dans le fichier PDF résultat. • Objectif du projet : Codage vectoriel de documents scannés L’objectif de ce projet est d’augmenter le taux de compression tout en assurant un taux d'erreur de lecture par l'OCR « Tesseract » au pire comparable à celui obtenu en lisant directement les images fournies en entrée à cette méthode. Codage vectoriel

  3. Interface de test pour la méthode de reconnaissance

  4. Compression de documents scannés par Codage vectorielCahier de charge • Objectif du projet : il s’agira de : • étudier les algorithmes préalablement identifiés d’extraction, de description et de reconnaissance de composantes connexes dans un document scanné • prendre en main la librairie HARU utile pour la reconstitution des caractères reconnus dans un fichier PDF (codage vectoriel) • générer une image d’erreur (différence entre l’image originale et le texte reconstitué), utilisée comme masque pour la reconstitution finale du document scanné • développer la chaine de codage vectoriel en C, puis mettre au point une spécification OpenCLde la méthode développée pour effectuer un démonstrateur sur GPU

  5. Carte GPU NVIDIA Tesla c2050

  6. Compression de documents scannés par Codage vectoriel • Compétences requises • étude algorithmique • Maitrise de l’outil Matlab • programmation avec des langages de haut niveau C/C++ • Compétences acquises • Méthode des « centroides hiérarchiques » pour la reconnaissance de caractères • Librairies de traitement d’images (Devil, openCV) • Librairie de codage vectoriel (Lib HARU) • Spécification OpenCL • Implémentation sur GPU

More Related