580 likes | 709 Views
Lecture Automatique des Documents: Recensement Général de la Population et de l’habitat. Bouazza HASSAR Chef technique du Centre de Lecture Automatique de Documents. Plan. Les étapes du traitement des données 1. Réception des questionnaires 2. préparation des questionnaires 3. Numérisation
E N D
Lecture Automatique des Documents: Recensement Général de la Population et de l’habitat Bouazza HASSAR Chef technique du Centre de Lecture Automatique de Documents
Plan • Les étapes du traitement des données 1. Réception des questionnaires 2. préparation des questionnaires 3. Numérisation 4. Traitement des images et OCR 5. Vidéo codage Normal 6. correction Inter documents 7. contrôle de qualité 8. Vidéo codage formules 9. Export data • Le recensement général de la population et de l’habitat 2004 1. Test 2. Implémentation 3. Production
1- Réception des questionnaires • La première étape est de recevoir les lots des questionnaires , ce qui génère un numéro d’identification unique pour chaque lot. • Chaque lot contient environ 180 questionnaires. • Le numéro du lot reçu ainsi que son contenu est associé à un bordereau de réception. • Un bordereau de lot de traitement avec un code à barre est généré pour chaque lot.
1- Réception des lots L’opérateur prend une boîte d’archive, il saisit dans l’application le transport d’origine, le type de document et le numéro de district. Il ouvre la boîte pour vérifier le contenu et imprime immédiatement un bordereau de lot de traitement avec un code à barre. Ce bordereau est placé sur la pile de documents du lot.
2- préparation des questionnaires • Les questionnaires composés de plusieurs pages sont massicotés. • Les questionnaires composés de papiers A3 ou A4 peuvent être numérisés sans aucune intervention .
Zone de séchage les lots de traitement sont placés dans une salle à atmosphère contrôlée (température et hydrométrie).
Chargement des questionnaires Il y a 3 zones de stockage : Chacune dispose d’une capacité de un jour. Les lots sont placés dans des bannettes.
Chargement des questionnaires Les chariots sont utilisés pour organiser le transport des questionnaires à la numérisation. Chaque chariot contient 30 lots d’environ 180 questionnaires chacun .
3- La numérisation • Les Lots sont identifiés par leur code à barre. • Les questionnaires sont numérisés avec les scanners Kodak ds Digital Science Scanner 3520 : - 40 à 85 pages par minute selon la résolution, l’orientation et la taille des documents. - Résolution 200 ou 300dpi. - Taille des documents acceptée : min: chèque , max: A3. - Capacité du scanner: 250
Outil de tackage: Aligne les lots de questionnaires A3 Les agents de numérisation Les agents de numérisationidentifient les lots par leurs code à barre.
Scanner Kodak Ds Digital Science Scanner 3520, traite 52 questionnaires A3 par minute. Les agents de numérisation vérifient en temps réel la qualité des images scannées..
IHM de la numérisation L’IHM de la numérisation permette de vérifier la qualité des images scannées.
4 –Traitement de l’image • Traitement automatique des images (Pour chaque questionnaire A3, 4 images sont produites) • Reconnaissance des limites de l’ image • Localisation des cellules • Reconnaissance Intelligente des Caractères. • Quelques images sont rejetées. Dans ce cas, Les agents concernés identifient les ancres de l’image et propose cette dernière à l’ICR. Si le problème persiste, l’image est renumérisée.
Questionnaire des ménages et des logements A3 Ancres aux quatre coins du document Numéro de document
Questionnaire de la population et de l’habitat Chaque cellule a des coordonnées uniques par rapport aux ancres du document.
Analyse manuelle L’application reconnaît la localisation des champs en se basant sur les ancres du document. Si l’application échoue dans cette opération, un agent exécute cette tâche via une interface dédiée.
OCR • A2iA FieldReader combine OCR, ICR, IWR pour la reconnaissance des données écrites / imprimées dans des documents structurés. • Entrée: images de formats : tiff G4, bmp, Jpeg or Jpeg 2000 avec 200 DPI comme résolution minimale • Sortie: Données associées à des taux de confiance
Questionnaire de la population et de l’habitat Les contours des cellules ne sont pas autorisés (Pour éliminer les bruits). Lors de la numérisation, le contraste est ajusté de manière à ce que les couleurs aveugles (i.e. bleu claire) des contours disparaissent de l’image.
Les images scannées Les images scannées sont en noir et blanc. Les champs à reconnaître sont complètement blanches sauf l’écriture qui apparaît en noir.
Reconnaissance Optique des Caractères La machine OCR reconnaît les caractères avec un taux de confiance donné. Ensuite, elle applique les tests de cohérences. Les cellules reconnues avec un faible taux de confiance sont présentées pour vérification par un opérateur de vidéo codage.
5. Vidéo codage Normal (VCN) • L’opérateur de VCN, valide/corrige les propositions de l’OCR. • Deux taux de confiance sont utilisés: - 95% pour les cellules non associées aux tests logiques - 85% pour les cellules associées aux tests logiques. • Choisir 95 % comme taux de confiance pour l’ensemble des cellules augmente le nombre des cellules à passer par le VCN et par conséquent la coût de l’opération.
L’image montre 2 OCR propose 8 L’IHM de VCN OCR suggère la valeur 8 alors que la vrai valeur est 2.
L’opérateur de VCN corrige la valeur L’IHM de VCN
VCN • Codification des réponses ouvertes écrites en Arabe. • Questions sur la profession, L’activité économique, les diplômes, la migration. • Les codes sont proposés par les opérateurs (professionnel dans le domaine) à travers une interface dédiée. Il utilisent les information sur les images des questionnaires ainsi que les dictionnaires intégrés. • Les opérateurs ont l’option de visualiser d’autres variables de l’observation en cours de traitement.
Pas de proposition de l’OCR L’ IHM du VCN
L’ IHM du VCN L’opérateur de VCN cherche dans les dictionnaires (activité, diplôme..) en utilisant des mots clés et par la suite il valide la réponse choisie.
6. Contrôle et correction Inter documents (CID) • Se fait pour vérifier la coordination statistique entre l’ensemble des documents d’un même lot.
7. Contrôle Qualité (CQ) • Le CQ permet de produire des données avec des taux d’erreurs minimes contrôlés. • Cette étape suit celle de la reconnaissance optique et du VCN. • La norme Afnor NFX06-022 de October 1991, qui est en accord avec la norme internationale ISO 2859-1-1989, est appliquée. • Pour les cellules remplies, Le seuil de qualité acceptable est 0.52% .
La norme Afnor NFX06-022 de October 1991 Selon la norme Afnor (Niveau de contrôle II): pour les lots de 10001 à 35000 observations, 315 obs. sont triées en modes normal et renforcé.
Mode normal : - Contrôle 315 observations/lot - Rejette le lot si 5 erreurs existent Si un lot est rejeté Si 5 lots successifs sont acceptés Si 10 lots successifs sont acceptés Si 2 de 5 lots successifs sont rejetés Mode réduit: - Contrôle 125 observations/lot - Rejette le lot si 4 erreurs existent Mode renforcé: - Contrôle 315 observations/lot - Rejette le lot si 3 erreurs existent Si 5 lots successifs sont rejetés La production est arrêtée. Le problème est investigué. ContrôleQualité avec la norme Afnor
IHM de Contrôle Qualité (CQ) L’opérateur de CQ vérifie que les valeurs du fichier de données sont identiques à celles des images. Valeur de l’image: 1 Valeur dans le fichier de données: 1
Zone de stockage Les Questionnaires Sont stockés dans le centre de traitement jusqu’à ce qu’ils passent par l’étape du CQ.
8- Vidéo codage de Formule (VCF) Permet aux opérateurs qualifiés de corriger ce genre d’erreurs. L’IHM du Script des formules de cohérence . Les programmeurs expriment les règles de cohérences en utilisant un langage spécifique.
IHM du Vidéo codage de formule Exemple d’une erreur de logique: Alors que le logement est déclaré vide, le type de propriété est déclaré comme propriétaire. L’opérateur corrige cette inconsistance. Erreurs logiques
9- Export Data • La dernière étape du traitement des questionnaires est l’export des données vers des fichiers texte et l’export des images des documents traités. Le tout est gravé sur des DVDs et livré à l’exploitation statistique pour validation.
Le fichier d’Export Data Les données sont exportées vers un fichier texte, elles peuvent être exploitées ultérieurement via CSPro/IMPS… Record type
Surveillance de l’espace disque A ce stade, les images sont supprimées des serveurs afin de libérer l’espace pour les images qui viennent.
IHM des statistiques Ce module offre les statistiques détaillés le long des différentes étapes de la production agrégés par traitement / date...
Traitement du RGPH 2004 du MAROC • Objectif: Capture des données depuis les questionnaires en une courte période de temps. • Le choix des stratégies : • Capture manuelle des données (utilisée dans les recensements précédents) • Reconnaissance optique des caractères (nouvelle technologie utilisée dans les pays développés). • Partenariat avec le secteur privé pour développer une solution spécifique utilisant l’ OCR.
3 Phases • Phase de test – 3 mois • Phase d’implémentation – 2 mois • Phase de production– 18 mois
Phase de test • Afin d’identifier les méthodes d’organisation à adopter et les ressources à mobiliser . • L’objectif secondaire était de comparer les deux scénarios: OCR et saisie manuelle par clavier.
Phase d’implémentation • Création d’un Centre de Lecture Automatique des documents • Installation des équipements matériels et logiciels nécessaires (110 PCs, 5 scanners and 5 serveurs)… • Recours à des ressources humaines adéquates (240 personnes: 50% était employé temporairement).
Zone de Numérisation Scanners OCR Chariots à traiter Chariots traités Stockage des Questionnaires non encore scannés Stockage des questionnaires scannés Réception
L’architecture logique du matériel installé selon 4 grappes et une grappe centrale La production est organisée en 4 différentes grappes. Cette séparation réduit les risques des pannes et ruptures de toutes les grappes.
Ressources humaine, matérielle et logicielle utilisées pour la capture des données des questionnaires du RGPH 2004
Phase de production • 3 périodes: 1- Questionnaires de la population urbaine et rurale traités en 1 mois. 2- (seulement les chiffres) traités en 6 mois. 3- Questionnaires A4 de la population et de l’habitat (chiffres et lettres arabes) traités en 12 mois. • Cette séparation permet la diffusion les résultats obtenus aprés chaque étape.