740 likes | 990 Views
Visione Artificiale. La visione del robot può essere definita come il processo di estrazione, caratterizzazione e interpretazione delle informazioni provenienti dalle immagini di un mondo tridimensionale . La percezione è il processo che fornisce un’immagine visiva.
E N D
Visione Artificiale La visione del robot può essere definita come il processo di estrazione, caratterizzazione e interpretazione delle informazioni provenienti dalle immagini di un mondo tridimensionale. • La percezione è il processo che fornisce un’immagine visiva. • La preelaborazione si occupa di tecniche come la riduzione del rumore e il miglioramento dei particolari. • La segmentazione è il processo che divide le immagini in oggetti di interesse. • La descrizione tratta il calcolo delle caratteristiche (per esempio dimensioni, forme) utilizzabili per differenziare un tipo di oggetto da un altro. • Il riconoscimento è il processo che identifica questi oggetti. • L’interpretazione conferisce un significato agli oggetti riconosciuti.
Acquisizione delle immagini (Percezione) • Telecamere TUBO VIDICON
Sensori CCD • Sensori lineari. Il componente di base di un CCD lineare consiste in una riga di elementi sensibili di silicio, detti fotoelementi. I fotoni dell’immagine attraversano una struttura di Gate di silicio policristallino trasparente e vengono assorbiti dal cristallo di silicio, creando così coppie lacune – elettroni. I fotoelettroni risultanti sono raccolti nei fotoelementi e l’entità delle carica raccolta da ogni fotoelemento è proporzionale all’intensità luminosa in quel punto. • Sensori di area. I sensori di area sono simili ai sensori lineari, con la differenza che i fotoelementi sono disposti in forma matriciale e che esiste un registro di trasferimento tra le colonne dei fotoelementi
Standard video • CCIR 625 righe per quadro - 25 quadri al secondo (Europa, Australia) • RS170 525 righe per quadro - 30 quadri al secondo (USA, Giappone)
Immagine digitale Digitalizzazione delle coordinate spaziali (x, y)= campionamento di immagine Digitalizzazione in ampiezza = quantizzazione dell’intensità o dei livelli di grigio
Esempi : Campionamento di immagini 128 x 128 256 x 256 32 x 32 64 x 64
Esempi : Livelli di grigio 16 32 4 8
Geometria dell’immagine Traslazione
Rotazione Rk(-) = RkT() con k = x, y, z
Indeterminazione del punto Supponiamo che un dato punto dell’immagine abbia coordinate (x0, y0, 0), dove lo 0 nella posizione di z sta ad indicare che ci stiamo muovendo nel piano z = 0. Il punto d’immagine di coordinate (x0, y0) corrisponde all’insieme dei punti 3D allineati che giacciono sulla retta che passa per i punti (x0, y0, 0) e (0, 0,).
Soluzione La ricostruzione di un punto 3D dall’immagine bidimensionale richiede la conoscenza di almeno una delle coordinate del punto nel sistema di riferimento.
Modello della telecamera • Questa equazione (e la sua inversa) caratterizza la formazione di un’immagine attraverso la proiezione di punti 3D sul piano della telecamera • Questo modello si basa sulla considerazione che il sistema di coordinate della telecamera e quello di riferimento coincidano • Nella realtà tali SDR possono essere distinti
Modello della telecamera (1) Spostamento w0 del centro dell’origine della telecamera; (2) panoramica dell’asse x, (3) inclinazione dell’asse z; (4) spostamento r del piano dell’immagine rispetto al centro del giunto, dove è appoggiata la telecamera e sul quale può ruotare.
(1) spostamento del centro dell’origine della telecamera; (2) panoramica dell’asse x, (3) inclinazione dell’asse z; (4) spostamento del piano dell’immagine rispetto al centro del giunto, dove è appoggiata la telecamera e sul quale può ruotare.
Trasformazione di prospettiva ch = PCRGwh
Calibrazione della telecamera ch = Awh A = PCRG
dove si è tralasciato lo sviluppo di ch3 in quanto è relativo a z. • Il procedimento di calibrazione consiste nei seguenti passi: • Ottenere m 6 punti di riferimento in coordinate note (Xi, Yi, Zi) con i = 1, 2, 3, …, m (vi sono due equazioni che comprendono le coordinate di due punti, cosicché sono necessari almeno sei punti). • Ricavare la rappresentazione di quei punti con la telecamera, in una data posizione, per ottenere i corrispondenti punti immagine (xi, yi), i = 1, 2, 3, …, m. • Usare questi risultati ricavati, nel sistema sopra, per trovare i coefficienti incogniti.
PreelaborazioneRelazioni di base tra i pixel Vicini di un pixel Vicini orizzontali e verticali N4(p). vicini diagonali ND(p) Vicini orizzontali verticali e diagonali N8(p).
Connettività Dato un insieme di valori V di intensità di pixel, vogliamo creare delle sequenze connesse (di pixel vicini) con intensità appartenente a V • 4 - connettività. Due pixel p e q di valore appartenente a V sono 4 - connessi se q è nell'insieme N4(p). • 8 - connettività. Due pixel p e q di valore appartenete a V sono 8 - connessi se q è nell'insieme N8(p). • m - connettività (connettività mista). Due pixel p e q con valore appartenente a V sono m - connessi se: (a) q è in N4(p), oppure (b) q è in ND(p) e l'insieme N4(p)N4(q) è vuoto.
Misure di distanza • Dati i pixel p, q e z di coordinate (x, y), (s, t) e (u, v), diciamo che D è una funzione della distanza o metrica se: • D(p, q) 0 (D(p, q) = 0 se e solo se p = q). • D(p ,q) = D(q, p) • D(p, z) D(p, q) + D( q, z) • La distanza euclidea tra due pixel è definita come:
La distanza tra gli isolati tra p e q è definita dalla regola: La distanza della scacchiera tra p e q è definita dalla regola:
Preelaborazione nel dominio spaziale g(x, y) = h[f(x, y)] f l’immagine in ingresso, g è l’immagine risultante (preelaborata) e h è un operatore su f, definito in un intorno di (x,y)
Metodi nel dominio della frequenza Trasformata bidimensionale di Fourier
Filtraggio Media degli intorni Filtraggio mediano (evita di sfumare i margini e altri particolari netti) Media di più immagini g(x, y) = f(x, y) + n(x, y) Filtraggio binario
Esempi di filtraggio Immagine originale Immagine alterata Filtraggio mediano 5x5 Media degli intorni 5x5
Filtraggio Binario • Riempie piccoli (un pixel) buchi in aree per il resto scure • Riempie piccole tacche in segmenti rettilinei • Elimina gli 1 (scuro) isolati • Elimina piccole protuberanze lungo segmenti rettilinei • Ripristina i punti mancanti degli angoli
Equalizzazione dell’istogramma r = intensità dei pixel in un'immagine 0 r 1 s = T(r) • T(r) è una funzione a un solo valore, monotona crescente nell'intervallo 0 T(r) 1 • 0 T(r) 1 per 0 r 1
Funzione densità di probabilità Immagine scura Immagine chiara s = T(r) Dopo una trasformazione
Equalizzazione dell’istogramma 0 r 1 Scegliamo funzione di distribuzione cumulativa di pr(r) • Questo risultato è indipendente dalla funzione di trasformazione inversa T-1 • La PDF risultante è piatta, indipendentemente dalla PDF di partenza • Tale risultato è spesso ideale in quanto bilancia la distribuzione delle intensità
Immagini digitali 0 rk 1 e j = 0, 1, 2, …, L - 1 • L è il numero dei livelli (colori) discreti d'intensità • pr(rk) è una stima della probabilità dell'intensità rk • nk è il numero delle volte che questa intensità appare nell'immagine • n è il numero complessivo dei pixel dell'immagine
Un diagramma di pr(rk) in funzione di rk è solitamente chiamato istogramma e la tecnica usata per ottenere un istogramma uniforme è conosciuta con il nome di equalizzazione o linearizzazione dell'istogramma. 0 rk 1 e k = 0, 1, 2, …, L - 1
Miglioramento locale fattore di guadagno locale m(x, y) e (x, y) rappresentano la media dell’intensità e la deviazione standard calcolate in un intorno con centro in (x, y), M è la media totale di f(x, y) e k è una costante nell’intervallo indicato. È importante mettere in evidenza che A, m e sono quantità variabili che dipendono da un intorno predefinito di (x, y).
Immagini binarie Operatore di Laplace
Sogliatura Soglia singola Soglie multiple
Segmentazione La segmentazione è il processo che suddivide una scena in oggetti d’interesse. • discontinuità : ricerca dei contorni • similitudine : sogliatura e accrescimento delle regioni