1 / 92

Visione Artificiale per applicazioni multimodali

Visione Artificiale per applicazioni multimodali. 27 – Novembre– 2006 Ing. C. Spampinato. Overview. Image Processing Occhio umano Discretizzazione Immagini binarie Enhancement Spazi di Colori Strumenti Applicazioni multimodali. La Percezione Visiva. Produce informazioni su:

Download Presentation

Visione Artificiale per applicazioni multimodali

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Visione Artificiale per applicazioni multimodali 27 – Novembre– 2006 Ing. C. Spampinato

  2. Overview • Image Processing • Occhio umano • Discretizzazione • Immagini binarie • Enhancement • Spazi di Colori • Strumenti • Applicazioni multimodali

  3. La Percezione Visiva • Produce informazioni su: • Ciò che esiste nel mondo circostante • Dove gli oggetti sono localizzati • Come tali oggetti cambiano nel tempo • Grazie a tale informazione, un sistema biologico o automatico può conoscere il mondo esterno ed interagire con esso

  4. Occhio Umano • La cornea è un tessuto spesso e trasparente che ricopre la superficie anteriore dell'occhio e serve a far convergere la luce in esso incidente sul cristallino.   • La sclera, in continuazione della cornea,è una membrana opaca che ricopre il bulbo oculare nella sua parte interna.   • La coroide contiene un insieme di vasi sanguigni che portano la maggior parte del nutrimento all'occhio • La retina contenente i recettori fotosensibili

  5. Occhio Umano • Ai suoi estremi anteriori la coroide si divide in due parti: • il corpo ciliare • l’iride • Il cristallino (o lente) ha la funzione: • schermare dalle onde nello schermo dell’infrarosso e dell’ultravioletto che possono danneggiare l’occhio • mettere a fuoco l’immagine sulla retina

  6. Occhio Umano • La retina costituisce la membrana più interna dell'occhio e misura circa 5cm x 5cm, ed è l'elemento base su cui si fonda la visione; • Il nervo ottico è il collegamento tra lo strumento di acquisizione visiva (l'occhio) e l'elaboratore delle immagini (il cervello),che le interpreta, le processa, le archivia, ecc

  7. Computer Vision • La CV rappresenta la scienza che riproduce su calcolatori elettronici il percorso cognitivo compiuto dall’uomo nell’intepretazione della realtà. • La CV è preposta allo studio di tecniche e tecnologie per analisi di immagini finalizzate ad acquisire informazioni sul mondo esterno. • Le tecniche studiate devono supplire diversi livelli cognitivi caratteristici della visione animale, da quello più basso (acquisizione dell’immagine) a quelli più elevato (interpretazione della scena)

  8. Computer Vision DIVERSI LIVELLI DI ANALISI La visione artificiale si articola su tre livelli di astrazione: • LOW LEVEL: Produce una nuova immagine • MIDDLE LEVEL: Estrae informazioni di tipo strutturale • HIGH LEVEL: Produce un’interpretazione della scena

  9. Low Level • Operazioni preliminari: • Image Denoising • Regolazione del contrasto • Image sharpening Fine: evidenziare o ridurre alcune caratteristiche Risultato: immagine a partire da quella di ingresso

  10. Middle Level • Estrazione delle informazioni strutturali dell’immagine di ingresso (ex: edges,contours) • Numero degli oggetti presenti nell’immagine • Relazione spaziale fra gli oggetti in essa presenti Fine: estrazione delle informazioni Risultato: descrizione della struttura dell’immagine e della forma degli oggetti in essa trovati

  11. High Level • La visione ad alto livello opera sulle informazioni provenienti dalla visione a medio livello per comporre un modello “semantico” della scena. • Il modello semantico comprende un’interpretazione della scena: ad esempio gli oggetti sono classificati o riconosciuti. • Segmentation (partizionare img in regioni o oggetti) • Pattern recognition (classificazione di tali oggetti) • In genere fa un largo uso di “conoscenza a priori” • Produce una descrizione semantica della scena

  12. Discipline Correlate • Image Processing: Riguarda le proprietà delle immagini e le trasformazioni a cui possono essere sottoposte (filtraggi, compressione, registrazione 3-D, ecc.) • Pattern Recognition: Riconoscimento e classificazione di oggetti, che possono essere non solo visuali (es. voice recognition). 

  13. Immagine Digitale • L'immagine è una funzione bidimensionale F(x,y) della intensità luminosa il cui valore o ampiezza ad una determinata coordinata spaziale (x,y) determina l'intensità (cioè la luminosità) dell'immagine in quel punto. • L’immagine è intrinsecamente bidimensionale mentre la scena che riprende è 3D. • F(x,y) non è necessariamente uno scalare: se ad esempio l'immagine è a colori, F(x,y) è una funzione vettoriale: F(x,y) = [f1(x,y) , f2(x,y) , f3(x,y)]

  14. Immagine Digitale • Le immagini che normalmente percepiamo sono date essenzialmente dalla luce riflessa dagli oggetti, dunque la F(x,y) risulta costituita da due componenti principali: • La quantità di luce diretta incidente sulla scena vista: Componente di illuminazione i(x,y) • La quantità di luce riflessa dagli oggetti presenti nella scena: Componente di riflessione r(x,y) F(x,y) = i(x,y) * r(x,y)

  15. Risoluzione • Risoluzione spaziale • Risoluzione spettrale • Risoluzione radiometrica • Risoluzione temporale

  16. Risoluzione Spaziale • Numero di pixel per unità di area Diminuendo la risoluzione spaziale otteniamo il tipico effetto "quadrettato" causato dall'aliasing

  17. Risoluzione Spaziale

  18. Risoluzione Spettrale • Diminuendo la banda passante l'immagine diviene più "sfocata"

  19. Risoluzione Radiometrica • Ecco cosa accade se si riduce la profondità di colore :

  20. Tipi di immagine • Un’immagine in toni di grigio è rappresentata dal computer come una matrice di interi da 1 byte o 2 byte; • Un’immagine in bianco e nero è un’immagine i cui punti possono assumere solo i due valori 0 e 1 (img binaria)

  21. Spazi di Colore • L’uso del colore nell'immagine è motivato da due fattori principali : • Il colore è un potente descrittore che spesso semplifica l’identificazione dell'oggetto e della scena. • Gli uomini possono discernere migliaia di ombre di colore e di intensità, in confronto a solo 20-30 ombre di grigio.

  22. Spazi di Colore • I colori che gli uomini e alcuni animali percepiscono in un oggetto sono determinati dalla natura della luce riflessa dall’oggetto stesso. • Se la luce è acromatica (colore privo di luce), il suo solo attributo è l’intensità. • La luce cromatica invece si estende lungo la gamma elettromagnetica pprossimativamente dai 400 ai 700 nm.

  23. Spazi di Colore • Tre principali elementi sono usati per descrivere una fonte di luce cromatica: • Radiance: è l’energia totale che fluisce dalla fonte di luce, ed è misurata in watt (W). • Luminance, misurata in lumens (lm), dà una misura dell’ammontare di energia che un osservatore percepisce da una fonte di luce. • Brightness: è un descrittore soggettivo; incarna la nozione acromatica di intensità. • Approssimativamente il 65% di coni dell’occhio umano è sensibile alla luce rossa, il 33% alla verde, e solo il 2% è sensibile all’azzurro (ma i coni blu sono i più sensibili).

  24. Spazi di Colore • I colori primari possono essere addizionati per produrre colori secondari di luce : il magenta (blu + rosso), il ciano (blu + verde), e il giallo (verde + rosso). • Mescolando i tre primari, o un secondario col suo colore primario opposto, nelle intensità giuste si produce luce bianca.

  25. Spazi di Colore • C’è una differenza tra i colori primari di luce e i colori primari di pigmenti (o coloranti). • Nei pigmenti un colore primario è definito come il colore che sottrae o assorbe un colore primario di luce e riflette o emette gli altri due.

  26. Spazi di Colore • Le caratteristiche che generalmente sono usate per distinguere un colore da un altro sono: • Luminosità; • Tonalità, che è un attributo associato con la lunghezza d'onda dominante in un insieme di onde luminose. • La tonalità rappresenta il colore dominante percepito. Così, quando noi chiamiamo un oggetto rosso, arancione, o giallo, noi stiamo specificando la sua tonalità. • Saturazione assegna la relativa purezza o la quantità di luce bianca mescolata con un colore. I colori puri dello spettro sono pienamente saturi.

  27. Spazi di Colore • L’ ammontare di rosso, verde, e blu sono necessari per creare un qualsiasi colore sono chiamati tristimulus. • Un colore è specificato dal suo coefficiente tricromatico:

  28. Spazi di Colore : Diagramma di Cromaticità

  29. Modelli di colore I modelli più comunemente usati in pratica sono : • RGB (rosso, verde, blu), • CMY (ciano, magenta, giallo) e il CMYK che sono modelli di colore per stampare; • HSI (tonalità, saturazione, intensità) modello che corrisponde da vicino al modo in cui gli uomini descrivono e interpretano il colore.

  30. RGB • Il sottospazio di colore di interesse è il cubo nel quale i valori di RGB sono tre angoli; ciano, magenta, e giallo sono gli altri tre angoli; il nero è all’ origine; e il bianco è l’angolo opposto all’origine. In questo modello, la scala di grigio (punti di uguali valori RGB) si estende dal nero al bianco .

  31. CMY(K) • Molte apparecchiature che depositano pigmenti colorati su carta, come stampanti a colori e fotocopiatrici richiedono dati in input CMY o effettuano una conversione da RGB a CMY internamente.

  32. Modello HSI • Hue : descrive la purezza del colore; • Saturation : grado di presenza del bianco; • Intensity : livello di grigio per rappresentare la brillantezza;

  33. Modello HSI

  34. Color Processing Matlab X = imread(’nome_file.jpg’); Red_Channel = X(:,:,1); Green_Channel = X(:,:,2); Blue_Channel = X(:,:,3); Gray_Image = rgb2gray(X) Hsi_Image = rgb2hsv(X) Hue_Channel = Hsi_Image(:,:,1); Saturation_Channel = Hsi_Image(:,:,1); Intensity_Channel = Hsi_Image(:,:,1);

  35. Proprietà Topologiche Immagini Binarie • Proprietà riferite ad una immagine (o di parte di essa) che non variano in seguito a certe trasformazioni ( traslazione, rotazione, cambiamento di scala ed elongazione) lungo un qualsiasi asse dell'immagine: • Intorno e adiacenza • Path • Connettività; • Connected Components; • Foreground,Background e Holes; • Bordo, Interno;

  36. Intorno e adiacenza • Dato un pixel p di coordinate (x,y), i quattro vicini (in orizzontale e verticale) hanno coordinate: (x+1, y), (x-1. y), (x, y+1), (x, y-1) e costituiscono l’insieme N4(p) dei di p (Pixel con ul lato in comune). • I quattro vicini diagonali di p hanno coordinate (x+1, y +1), (x+1, y-1), (x-1, y+1), (x-1,y-1) e formano l’insieme ND(p). • L’insieme degli 8-vicinidi p è dato da:

  37. Intorno e adiacenza

  38. Path • Un path da un pixel [i0,j0], al pixel [in,jn] è una sequenza di pixel [i0,j0] , [i1,j1] , ... , [in-1,jn-1] , [in,jn] tale che il pixel  [ik,jk] sia un vicino di [ik+1,jk+1] per ogni K[0,n-1].

  39. Connected Component • Un connected component di una immagine è un insieme di pixel in cui ogni elemento è connesso con tutti gli altri • Appare allora chiaro che, ad esempio, un path è un connected component. • Talvolta è detto “oggetto”

  40. Connected Component • L’insieme S di tutti i pixel di valore non nullo di un’immagine è detto foreground • L’ insieme dei connected components appartenenti ad S (complementare di S) che abbiano punti sul bordo dell'immagine è detto background • L’ insieme di tutti i punti rimanenti (cioè che non sono né di background né di foreground) vengono detti holes

  41. Connected Component

  42. Convex Hull • Definiamo Convex Hull di un oggetto la più piccola regione che contiene quell'oggetto e i cui punti sono unibili con segmenti contenuti nella regione stessa

  43. Proprietà geometriche Area (size) A = numero di pixel di un oggetto; • Perimetro P = numero di pixel del contorno; • Posizione  = in genere corrisponde alle coordinate del centro di massa dell'oggetto, calcolate assegnando ad ogni pixel, come peso, il suo valore: • B(i,j) : peso (cioè valore) del punto di coordinate (i,j) • A : Area dell'oggetto.

  44. Proprietà geometriche • Orientazione = angolo dell'asse principale dell'oggetto rispetto ad un asse di riferimento (tipicamente l'asse orizzontale); è calcolata come l'asse per il quale la somma delle distanze quadratiche perpendicolari rispetto a tutti i punti dell'oggetto è minima: • ri,j : distanza perpendicolare della retta dal punto (i,j) • B[i,j] : valore del pixel nel punto (i,j).

  45. Proprietà geometriche • Compattezza = numero di pixel del contorno; è misurata dalla disuguaglianza isoperimetrica: • Più una figura è compatta, minore è il valore del rapporto.La figura che risulta più compatta è il cerchio

  46. Enhancement • L’ image enhancement consiste nell’elaborazione di un’immagine con il fine di migliorarne determinate caratteristiche, ridurne altre, eliminare o ridurre il rumore… • Si mira ad evidenziare alcune caratteristiche che sono utili per passi successivi di processing • Oppure si mira a migliorare l’aspetto visivo dell’immagine

  47. Enhancement • I metodi da utilizzare per il miglioramento delle immagini vanno scelti in base al tipo di immagine ed al tipo di elaborazione. • Tali metodi si dividono in due categorie: • Metodi nel dominio dello spazio (si basano su una diretta manipolazione dei pixel); • Metodi nel dominio della frequenza(si basano su operazioni effettuate sulla trasformata di Fourier); • Non c’è una teoria generale sull’enhancement dell’immagine, in quanto la valutazione visiva della qualità dell’immagine è un processo altamente soggettivo. Biondi

  48. Enhancement on spatial domain • Il termine dominio spaziale è legato al fatto che l’elaborazione si basa direttamente sulla manipolazione dei pixel. • Le principali operazioni che si possono eseguire nel dominio dello spazio sono: • Intesity o Gray Level transformation • Spatial filtering Biondi

  49. Background • I processi nel dominio dello spazio saranno denotati dall’espressione: g(x, y) = T[f(x, y)] dove: - f(x, y) è l’immagine di input - g(x, y) è l’immagine processata - T è un operatore su f, definito sull’intorno di (x, y)

  50. Background • L’approccio principale nella definizione di una vicinanza circa un punto (x, y) è usare una sottoparte quadrata o rettangolare dell’immagine centrata in (x, y), come mostra la figura • L’operatore T è applicato ad ogni punto (x,y) per ottenere l’uscita g in quel punto

More Related