60 likes | 158 Views
Compression de documents scannés par Codage vectoriel Extraction de composantes connexes et reconstitution de documents scannés dans un fichier PDF à l’aide d’un codage vectoriel. proposé par R. Kachouri , M. Akil Proposition de projet I4, ESIEE, Novembre 2012.
E N D
Compression de documents scannés par Codage vectorielExtraction de composantes connexes et reconstitution de documents scannés dans un fichier PDF à l’aide d’un codage vectoriel proposé par R. Kachouri, M. Akil Proposition de projet I4, ESIEE, Novembre 2012
Codage vectoriel de documents scannés : Motivation • Contexte du projet : Compression de documents scannés Suite à une dématérialisation de documents, le contexte de ce projet consiste à assurer la compression des documents scannés à l’aide d’un codage vectoriel en s’appuyant sur un dictionnaire de formes représenté comme une police de caractères dans le fichier PDF résultat. • Objectif du projet : Codage vectoriel de documents scannés L’objectif de ce projet est d’augmenter le taux de compression tout en assurant un taux d'erreur de lecture par l'OCR « Tesseract » au pire comparable à celui obtenu en lisant directement les images fournies en entrée à cette méthode. Codage vectoriel
Compression de documents scannés par Codage vectorielCahier de charge • Objectif du projet : il s’agira de : • étudier les algorithmes préalablement identifiés d’extraction, de description et de reconnaissance de composantes connexes dans un document scanné • prendre en main la librairie HARU utile pour la reconstitution des caractères reconnus dans un fichier PDF (codage vectoriel) • générer une image d’erreur (différence entre l’image originale et le texte reconstitué), utilisée comme masque pour la reconstitution finale du document scanné • développer la chaine de codage vectoriel en C, puis mettre au point une spécification OpenCLde la méthode développée pour effectuer un démonstrateur sur GPU
Compression de documents scannés par Codage vectoriel • Compétences requises • étude algorithmique • Maitrise de l’outil Matlab • programmation avec des langages de haut niveau C/C++ • Compétences acquises • Méthode des « centroides hiérarchiques » pour la reconnaissance de caractères • Librairies de traitement d’images (Devil, openCV) • Librairie de codage vectoriel (Lib HARU) • Spécification OpenCL • Implémentation sur GPU