370 likes | 509 Views
Photo numérique: nommage, description, indexation des fichiers Journée d ’étude du 6 novembre 2013 IconoRéseau MSH de Nantes. IRHT-CNRS - Institut de Recherche et d’Histoire des textes - Service Images - Pôle numérique - Contact : Gilles Kagan- http://www.irht.cnrs.fr/.
E N D
Photo numérique: nommage, description, indexation des fichiersJournée d ’étude du 6 novembre 2013 IconoRéseauMSH de Nantes IRHT-CNRS - Institut de Recherche et d’Histoire des textes - Service Images - Pôle numérique - Contact : Gilles Kagan- http://www.irht.cnrs.fr/
Dans le domaine de la numérisation des documents patrimoniaux et de l’indexation des médias : • - une littérature abondante,- des recommandations techniques (numérisation, formats),- des standards (métadonnées), • - des protocoles (diffusion des ressources électroniques). • Mais l’harmonisation des pratiques reste encore à construire. • Il est donc prudent donc d’établir un mini cahier des charges. Des problématiques communes:
Pour élaborer une méthode de travail. • Pour faire apparaitre clairement des choix techniques. • Pour définir des règles de nommage et des processus techniques. • Pour préciser les phases du traitement en fonction de vos projets. • Pour définir les éléments du contrôle qualité des images: • L’exposition • La résolution • L’étalonnage de l’éclairage • La colorimétrie: • - conformité des couleurs avec le document original • -gestion des couleurs profil ICC de la source • Pour choisir des métadonnées pertinentes. • Pour mettre en place un workflow de traitement intelligent. Pourquoi rédiger un cahier des charges ?
Les formats de fichier • Formats de fichier pour l’archivage (Raw, DNG, Tiff et Tiff HDR) • Formats de fichier pour l’édition (EPS, PSD, Tiff) • Formats de fichier pour la diffusion (JPG-JPG 2000- PNG- Gif - PDF) • Qu’est ce que le format Raw : • Format brut des appareils de prise de vue numérique (matriciel) • Ce n’est pas un format standard. • Compatible avec les métadonnées IPTC Core et Exif. • Conservation de toutes les données en 16 bits par couleurs primaires. Prise de vue numérique des documents
Léger(39 Mo au lieu de 91 Mo en tif ) • Pas de compression des données. • Meilleure gestion du bruit de la couleur. • Maîtrise complète du processus de traitement. • Contrôle total de la température de la couleur. • Plus de précisions dans la restitution des hautes • lumières, des ombres et des couleurs saturées. Avantage du format Raw
Compatible avec de nombreux logiciels de traitements d’image: • Capture One • Photoshop / AdobeBridge /Module camera Raw • Nombreux logiciels gratuits disponibles sur le web. Un format non standardisé mais ouvert
Un format qui convient à l’archivage • Véritable négatif numérique, vous ne pouvez pas modifier un format Raw(notion de brut de scan sans traitement). • Le format Raw est un format brut non documenté, l’image n’est pas encore créée. • Il se compose de deux fichiers encapsulés qui communiquent entre eux • pour former une image visible. • Tous les autres formats peuvent être modifiés : Tiff, JPG, PDF. • Précisions sur le format DNG (Digital négative) • Développé par Adobe ce format est totalement ouvert (licence ouverte), il a pour but de standardiser les innombrables (et incompatibles) formats RAW précédemment utilisés.
Structure du fichier Raw: • un court fichier d’en-tête qui définit l’organisation des bits, • l’identification du fichier et le positionnement des données, • les métadonnées du capteur photographique, • les métadonnées de l’image, • une prévisualisation rapide • les données binaires du capteur. Extension fabricant .3fr Hasselblad .arwSony .crw Canon .dng Kodak .mrw Minolta .nef Nikon .ptx .pefPentax .raf Fuji .IIQ Phase One
Résolution, échantillonnage, quelques conseils.. • Toujours conserver la haute résolution (Tiff et Jpeg) • Choisir une résolution (entrée et sortie en pixels) • Il convient dans un premier temps de distinguer : La résolution de l’image en entrée (scanner/prise de vue) La résolution de l’image à l’écran (moniteur) La résolution de sortie et la linéature (imprimante) • Déterminer l’échantillonnage en fonction du document (bitmap-niveaux de gris-codage RVB) Image codée sur 1 bit/pixel = Image noir et blanc (film au trait, phototcopie) Image codée sur 8 bits/pixel = 256 niveaux de gris (image en demi-teinte)
Echantillonnage, quelques conseils… Taille = 4,24 Mo Image codée sur 8 bits/couleur primaire = image couleurs en RVB 256 x 256 x 256 niveaux de couleurs Taille = 8,47 Mo Image codée sur 16 bits/couleur primaire = image couleurs en RVB 4096 x 4096 x 4096 niveaux de couleurs
Choisir un appareil, quelques conseils La résolution et la qualité d’une image va dépendre de la taille physique du capteur: Canon Power Shoot G 15 Capteur CMOS 12,1 Mpix / format 4/3 Taille du capteur : 22,3 x 14,9 mm. Taille en pixels : 4000 x 3000 pixels Canon 5 d Mark III ou le Canon 6 D Capteur CMOS 22,1 Mpix / 20, 2 Mpix Taille du capteur : 36 x 24 mm. Taille en pixels : 5472 pixels x 3648 pixels Hasselblad H5 D 60 ou IQ 1 80 Capteur très haute résolution de 60 à 80 Mpix Taille du capteur : 53, 7 x 40, 4 mm Taille en pixels : 10328 pixels x 7760 pixels
Quels matériels de prise de vue utiliser ? Privilégier les appareils de prise de vue full frame (capteur matriciel plein format)-Canon 6 D- Canon 5 D Mark III et 1 DX- Nikon D 600 D 800- Nikon D4- Sony Alpha 99 RX 1 Le choix d’une optique n’est pas aléatoire pourquoi ? La qualité (netteté et contraste d’une photographie)résulte avant tout de la qualité optique de votre objectif, du pouvoir de séparation des lentilles (verre ED). EOS_5D_Mark_III Nikon objectif 60mm f/2.8G ED AF-S Micro Nikon D800 Canon EF 24-70mm f/4L IS USM
Tester les appareils à partir d’une mire de contraste Capture réalisée avec un dos Phase One P 30 (matrice de 30 Mpx.)Taille de l’image : 6496 x 4872 pixels Capture réalisée avec un dos phase one power phase FX (TRI CCD linéaire 10 258 photosites en RVB ) Taille de l’image : 9927 pixels x 7793 pixels).
Prise de vue, quelques conseils: En réalisant un point gris sur cette plage, vous pourrez obtenir le codage RVB et contrôler la neutralité du gris. La procédure de contrôle des couleurs est réalisée en photographiant une charte de couleur de type Gretag Macbeth qui est vendue avec les références RVB de chaque couleur qu’elle comporte. Travailler avec une chartre de couleur (référence un carton blanc ou un gris neutre). Faire le choix de la stabilité pour les sujets fixes (travailler avec un pied et ou privilégier les vitesses rapides) Vitesse >125 secondes Profondeur de champ importante f 8-16. Réaliser l’exposition en mode manuel Vérifier l’histogramme pour contrôler l’exposition
Image sous-exposée Bonne exposition Le réglage de l’exposition en numérique est décisif quant à la qualité de votre image. Image surexposée
Le traitement d’un fichier, prudence ! • Un traitement inadéquat peut avoir des répercussions irréversibles sur la qualité des images: • Faire des tests (noter les processus dans Photoshop - historique). • Dupliquer systématiquement le fichier. • Ne jamais travailler à l’œil (pipette infos). • Privilégier les traitements par lots : un script dans Photoshop est le gage d’une homogénéité de votre travail. Utilisation de la pipette pour mesurer les valeurs RVB (image brûlée avec du bruit dans les basses et les hautes lumières)
Quels traitements ? • Une bonne prise de vue ne nécessite pas d’importantes corrections : • au niveau de l’exposition et du contraste, • au niveau des couleurs et de la saturation. • Par contre il faut appliquer des traitements spécifiques et distincts pour l’édition des images destinées aux supports papier ou électronique : • modifier la taille et/ou la résolution de sortie des images, • augmenter la netteté (filtre accentuation), • ajouter des métadonnées, • exporter dans des formats différents.
Comment nommer et classer les images numériques ? Le nommage des fichiers est une vraie difficulté. Il faut surtout avoir à l’esprit quelques règles de base: Garantir l’unicité de la prise de vue au niveau de l’identifiant de votre ressource. Permettre un classement alphanumérique des fichiers en vue de maitriser l’affichage des images et pour retrouver un fichier dans l’arborescence. Ne pas utiliser des caractères spéciaux ou accentués.Le nom d'un fichier est une chaîne de caractères, parfois de taille limitée, dans laquelle certains caractères ont un sens pour le système d'exploitation. Sous Windows il est conseillé de ne pas utiliser les caractères suivants: / \ : * ? "> < I « » . On peut conserver les caractères suivants : ( ) Tiret haut et bas _ -
Des identifiants normalisés et pérennes, (ressources numériques en lignes) : • Ils peuvent être opaques ou signifiants: • ARK : http://gallica.bnf.fr/ark:/12148/bpt6k2029102/f37.notice - utilisé pour Gallica • HANDLE - DOI : http://dx.doi.org/10.1007/s00223-003-0070-0 - utilisé par l’INIST • Pour qu’un identifiant soit pérenne il faut une référence stable qui permette de nommer et de trouver la ressource en ligne (utile pour la bibliographie). • Identifiants ARK BNF Gallica : • ARK (Archival Resource Key) est un système d'identifiants mis en place par la California Digital Library • difficile à mettre en œuvre, • exige une infrastructure et des moyens informatiques très importants, • autorité « nommante » de l’institution qui attribue les identifiants • Une vraie solution car l’identifiant ARK permet de s’adapter à des modèles préexistants : • ISSN, ISBN • cotes • précédent système de nommage
Les formats classiques Le nommage séquentiel : Format classique des appareils de prises de vue numériques AAAAMMJJ_nnn L’utilisation de la date de prise de vue : année, mois, jour, heure, minute, seconde, présente des inconvénients évidents. Sorti de votre ordinateur, cet identifiant ne peut pas être unique à moins de rajouter des suffixes ou des préfixes mais comment les définir ? Et quels sont les critères à retenir ? Le nommage signifiant: Format qui utilise comme critère, un lieu, un auteur, un événement, une provenance, un titre etc. Il n’est pratiquement jamais utilisé par les institutions patrimoniales et il présente des difficultés pour l’affichage et le classement structuré des données. Différentes pratiques dans le classement et le stockage classement manuel et classement chronologique classement thématique classement automatique (applications qui proposent des albums photos, etc.) Inconvénients : aucune maîtrise des arborescences générées
Plan de nommage de l’IRHT : • L'IRHT a adopté dès 2002 le plan de nommage préconisé par le Ministère de la Culture et l’ABES (Réseau du SUDDOC). • Code RCR • Cet identifiant est de type alphanumérique et il est répertorié sur le site du CCfr. • (IDPROD) » (http://www.culture.gouv.fr/mrt/numerisation/fr/gestion_fonds_images/idprodbi.htm) • Ce numéro est formé de plusieurs séquences :Exemple pour la bibliothèque municipale de Chartres • 280856201_MS1038_0001 • les 2 chiffres du département 28 • les 3 chiffres de la commune 085 • un code à deux chiffres indiquant le type de bibliothèque 62 • un numéro à 2 chiffres, séquentiel, allant de 01 à 99 • la cote du manuscrit ou identifiant du phototype MS1038 • une suite numérique si l’objet comporte 0001 • Mais il n’est pas normalisé au niveau international. • Depuis 2012 l’IRHT met en place un système d’identifiant pérenne de type ARK dans le but d’avoir des URL pérennes et stables pour la diffusion des manuscrits à partir de la Bibliothèque Virtuelle des Manuscrits Médiévaux (BVMM).
Qu’est-ce qu’une métadonnée ? Une métadonnée est littéralement une donnée sur une donnée, c’est un ensemble structuré d’informations décrivant une ressource quelconque. Une métadonnée peut être utilisée à des fins diverses: La description et la recherche de ressources La gestion de collections de ressources (digitales) La préservation des ressources Aujourd’hui la plupart des recherches se font à travers le web. L’arrivée du web sémantique et notamment le format RDF ont permis: - L’interopérabilité des données - L’indexation de la ressource par des moteurs de recherches ISIDORE, par les CMS etc. Mais qu’en est-il des images ?
Comment lire et écrire des métadonnées d’une image : Les métadonnées techniques et administratives peuvent, si elles sont correctement définies dans un modèle normalisé, désigner l’appartenance à une collection et fournir des informations sur l’auteur, le contenu, la datation, la provenance, etc. Mais dans le cas des ressources visuelles les métadonnéesinternes n’offrent pas à ce jour un modèle complet, normalisé et surtout exploitable par les technologies web répondant au consortium du W3C. Les métadonnées des images numériques peuvent être de trois types : • Des métadonnées techniques Exif • Les métadonnées IPTC/IIM • Les métadonnées IPTC Core, un modèle basé sur XMP.
Les métadonnées Exif : • Les métadonnées Exif (Exchangeable Image File) sont générées automatiquement par l’appareil de prise de vue.Ce sont des métadonnées internes qui correspondent aux propriétés techniques des fichiers Tiff, Jpeg, Rawsont enregistrées dans l’entête des fichiers. Ce format a été créé en 1995 par la Jeida (Japon ElectronicIndustry Association). • Ces métadonnées sont très utiles car elles permettent de connaitre toutes les propriétés techniques de la prise de vue y compris les données GPS. • Sans ces métadonnées il est impossible d’ouvrir une image dans une application quelle que soit cette dernière.
Les métadonnées IPTC II M et IPTC CORE : Ce sont des métadonnées plus informatives et administratives : L’ IPTC (International Press and Telecommunications Council) est une organisation internationale créée en 1965 pour développer et promouvoir des standards d’échange de données à destination de la presse. En association avec la NAA (Newspaper Association of America), l’IPTC a défini un modèle global de données appelé IPTC II-NAA Information Interchange Model. Dès 1994, ce modèle a servi de base à la société Adobe pour définir dans son logiciel Photoshop les informations associées à une image (champs et informations qui sont présents dans l’en-tête ou headers).
Les métadonnées IPTC II M Les informations IPTC/IIM sont constituées de 33 métadonnées de type interne, c'est-à-dire stockées à l'intérieur des fichiers images Raw, Jpeg, Tiff, Psd. Elles sont codées de façon numérique et certaines applications sont capables , par exemple, de les lire et ou de les importer (filtrer) dans leur système de gestion. Voici quelques exemples parmi ces 33 champs :
Liste de quelques applications compatibles IPTC KalimagesPRO Armadillo ACDSeePro 2 Canto Cumulus Extensis PorFolio FotoWareStation ExifUtilsWin/Mac/Linux ExifTool exiv2 licence GPL IrfanView (avec son plugin IPTC), Win, gratuit XnView Win, Mac, Linux, Unix gratuit PhotoThumb Adobe Bridge / Photoshop / Menu Fichier Information / Firefox / XnView/ Window7.
Les limites des métadonnées IPTC II M Les logiciels ne sont pas tous en mesure d’identifier les balises des métadonnées (vérifier l’interopérabilité des balises avant utilisation). La structure est figée et très orientée pour la photographie de presse et pour la géolocalisation. La longueur des champs et le nombre de caractères sont limités Il n’existe pas de vocabulaire normalisé ou hiérarchique. La nomenclature des champs IPTC illustre bien l'une des difficultés majeures de l’utilisation des métadonnées pour cataloguer et indexer des images : la terminologie adoptée et la sémantique des champs sont adaptées pour la presse, les champs sont souvent inadéquats à d’autres domaines utilisant l’image comme support de recherche ou de travail (secteur de l’industrie, histoire de l’art, astronomie, histoire des sciences, etc.)
Le modèle IPTC CORE ou XMP Depuis 2001 le modèle IPTC/IIM est considéré par l'IPTC comme un "standard obsolète, il a été remplacé par le nouveau schéma de métadonnées IPTC Corebasé sur XMP et que l’on trouve à partir de la version Cs de Photoshop. Beaucoup plus ouvert ce modèle utilise des balises XML et une version simplifiée du format RDF (Ressource Description Framework). L’interopérabilité s’en est trouvée accrue notamment par la création de quatrechamps avec des balises au format du Dublin Core(Espace de nom XML <DC>) <x:xmpmetaxmlns:x="adobe:ns:meta/" x:xmptk="Adobe XMP Core 5.3-c011 66.145661, 2012/02/06-14:56:27 "> <rdf:RDFxmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"><rdf:Descriptionrdf:about=""xmlns:dc="http://purl.org/dc/elements/1.1/"> <dc:creator><rdf:Seq><rdf:li>IRHT-CNRS et ENSBA de Paris</rdf:li><dc:description> <rdf:li>Bible d'Admont (fragment)</rdf:li> <dc:title> <rdf:lixml:lang="x-default">751062305_PC_22788</rdf:li><dc:rights><rdf:lixml:lang="x-default">Clichés : IRHT-CNRS_ENSBA de Paris</rdf:li>
Pourquoi choisir Dublin Core? L'intérêt du Dublin Coreest de proposer une structure de métadonnées stable et appuyée sur un consensus terminologique et sémantique minimal. Mais par contre dans le cas d’une indexation fine d’une ressource visuelle, le Dublin Core s’avère insuffisant, il est nécessaire de le compléter et d’introduire plus de finesse et de sémantique dans la structuration de l’information. Enfin l’utilisation des métadonnées IPTC Core XMP pose un problème majeur car peu d’applications proposent un export XML ou Csv de l’ensemble de ces informations en vue par exemple de structurer un nouveau document ou d’alimenter une base. Conclusion, ce modèle peut convenir à la localisation et à la préservation d’une ressource en ligne ou en « file système » pour classer, cataloguer, retrouver des fichiers.
Exemple d’un processus : les campagnes de l’IRHT • Préparation d’une campagne de reproduction (base medium/extraction de la liste des cotes à reproduire) • La prise de vue et le traitement des images : (trois applications/Phocus/Capture One/Photoshop CS et AdobeBridge) • Examen et préparation du document (ouverture de la reliure, contrôle des folios/pages) • Réglage du cadrage et de la mise au point • Réglage de l’éclairage (étalonnage de la lumière continue et ou flash électronique) • Contrôle de l’exposition (grey-scale) et histogramme • Contrôle des couleurs (charte de couleurs Macbeth et ou IT8) Pipette infos en mode RVB • Contrôle et ajustement balance des blancs (température de couleurs) • 5500 k° lumière du jour • 3400 k° lumière continue artificielle. • Enregistrement des fichiers et création des dossiers avec l’arborescence suivante : Ville/établissement/répertoire Raw/Tif/JPG/BVMM/code RCR + cote du manuscrit.
Contrôle des vues dans AdobeBridge/affichage à 100%/ Création d’un modèle de métadonnées pour toutes les vues du document. Export DNG/Tif/JPG Sauvegarde des répertoires sur un disque externe E sata (1/2T°) Copie des répertoires JPG sur serveur/IRHT Mise à jour de la table stockage dans Medium: /fait/nb de vue/date de prise de vue/type de reproduction etc. Traitement des répertoires par manuscrits HD pour alimenter la BVMM Traitement par lot des vues à partir de Photoshop CS (scripts) : le script comprend la création de cinq niveaux de consultation : Vignette : 200 x 150 pixels Imagette : 450 x 330 pixels Image plein écran : 800 x 600 pixels Zoom niveau 1 : 1600 x 1200 pixels Zoom niveau 2 : 5440 x 4200 pixels et enfin la taille réelle du document. IRHT-CNRS - Institut de Recherche et d’Histoire des textes - Service Images - Pôle numérique - Contact : Gilles Kagan- http://www.irht.cnrs.fr/