300 likes | 375 Views
Trademarking retrieval. Jana Maláčová. Obsah. Co je to trademark a trademarking retrieval Motivace pro trademarking retrieval Obecné systémy Metody pro reprezentaci tvarů Projekt Davida Liu Systémy využívající genetické algoritmy Použitá literatura. Co je to trademark.
E N D
Trademarking retrieval Jana Maláčová
Obsah • Co je to trademark a trademarking retrieval • Motivace pro trademarking retrieval • Obecné systémy • Metody pro reprezentaci tvarů • Projekt Davida Liu • Systémy využívající genetické algoritmy • Použitá literatura
Co je to trademark • Trademark, neboli obchodní známka je označení, kterým firma nebo jedinec identifikují samy sebe, své výrobky nebo služby. Pomocí trademarku je zákazníci odlišují od jiných firem • Dnes je počet trademarků v řádu miliónů a stále tento počet stoupá • U nás má ochranné známky na starost …
Motivace • Trademarky hrají důležitou roli v poskytování unikátní identity v oblasti marketingu • Nových trademarků neustále přibývá • Systémy pro klasifikaci trademarků být schopné zajistit, že existující trademarky jsou navzájem odlišné, musí se vyhnout kolizím • Systémy musí být dostatečně rychlé
Obecné systémy • Oddělení systémů pro vyhledávání trademarků a obyčejných obrázků • Různé druhy indexace a jejich výhody a nevýhody • Indexace trademarků • Ruční • Automatická • Indexace • Textová • Visuální • Dnešní trademark retrieval systémy
Projekt Davida Liu – popis systému • Databáze trademarků obsahuje naskenované trademarky • Dotaz může být buď naskenovaný obrázek nebo nakreslený • Systém je založen na porovnávání vzoru (dotazu) se všemi trademarky v databázi
Fáze přípravy dotazu - filtrování • Filtrování šumu • Při naskenování se dostává do obrázku šum. V obrázku se vyskytují tečky nebo prázdné díry, které by v obrázku neměli být. Ty jsou označeny za vady • Na vstupu je více obrázků a z těchto se pak do další fáze zkombinuje jediný, ve kterém je již šum odstraněn
Fáze přípravy dotazu - extrakce • Extrakce kostry versus extrakce obrysu • Vyfiltrovaný obrázek je rozdělen do několika regionů • Každý region je buď převeden na kostru nebo obrys, rozhoduje se podle charakteru daného regionu • Rozhodování, zda zvolit kostru nebo obrys • Podíváme se na každý pixel kostry a sledujeme, vzdálenost tohoto pixelu od nejbližšího pixelu obrysu. Pokud je tato vzdálenost „malá“ a navíc pro každý pixel kostry je vzdálenost k nejbližšímu obrysovému pixelu přibližně stejná, pak volíme reprezentaci kostrou. V opačném případě volíme obrys
Fáze přípravy dotazu – extrakce charakteristických znaků a výpočet podobnosti • Charakteristické vlastnosti trademarku jsou získávány z každého tahu ze tří základních charakteristik každého tahu: střed daného tahu, konvexnost tahu a celková délka tahu. • Ostatní charakteristiky jsou odvozeny z těchto základních. Tyto charakteristiky jsou pak použity systémem pro odhadování tvarů, který vypočítává podobnost daného tahu ke třem základním tvarům: přímka, kružnice, polygon • Tyto podobnosti jsou pak základními charakteristikami pro každý obrázek • Z se počítá podobnost mezi jednotlivými obrázky
Extrakce charakteristických znaků - příklad • Podobnost kruhu (a) 0.8536 (b) 0.6806 (c) 0.273 • Podobnost polygonu (a) 0.9772 (b) 0.5390 (c) 0
Extrakce charakteristických znaků - příklad • Podobnost přímce • (a) 0.9953 (b) 0.4958 (c) 0
Výpočet podobnosti mezi dotazem a trademarkem z DB • Vzorec pro výpočet podobnosti dvou tahů, kde SQi je i-tý tah z dotazu, SDj je j-tý tah z trademarku z DB, p je jeden ze základních tvarů, cp(s) je podobnost k tomuto základnímu tvaru, fp,k(s) je k-tá vlastnost tvaru p tahu s, a G(f1 ,f2) je podobnost mezi vlastnostmi 1 a 2 • Vzorec pro výpočet podobnosti dvou obrázků, kde SQi je i-tý tah z dotazu, SDj je j-tý tah z trademarku z DB
Druhy trademark retrieval systémů • QBIC(query by image content) – slouží jako databázový filter obrázků, který umožňuje dotazy založené na obsahu obrázku jako podíl barev obrázku, rozložení barev a struktur, systém musí být dobře natrénovaný, aby dobře pracoval • STAR(systém for trademark archival and retrieval) systém pracující na základě charakteristik R, G a B barevných komponent, invariantních momentů a Fourierových deskriptorech extrahovaných z manuálně vybraných objektů • Obecně si vybíráme některé vlastnosti obrázků pro jejich reprezentaci a na jejichž základě rozhodujeme o jejich vzájemné podobnosti
Systémy využívající genetické algoritmy • Existuje mnoho vizuálně význačných charakteristických znaků pro každý obrázek (např. obrys, kruhovitost, …). Každá z těchto charakteristik má vliv na to, jak obrázek vypadá, každá má ale také jinou váhu v celkovém vzhledu. Snahou tohoto systému je najít vizuálně významné charakteristiky a přiřadit jim patřičnou váhu, která odpovídá vizuální důležitosti tohoto znaku. Pak je obrázek chápán jako soubor těchto význačných znaků s jejich váhou.
Systémy využívající genetické algoritmy – popis systému • Definujeme si DB trademarků jako množinu obrázků {Ii}, pro každý obrázek definujeme zobrazení f:IxV->Rd, kde V je množina charakteristických znaků, R je d-dimenzionální vektor reálných hodnot charakteristik • DB pak trénujeme na trénovací množině, což je množina párů Tp=(IT,IS), kde IT je cílový obrázek dotazu a IS je uživatelem definovaný nejlepší obrázek. Takových trénovacích párů máme n. • Mějme funkci DT (Ii,Ij), • která počítá podobnost mezi obrázky Ii a Ij , kde Dfi je Euklidovská vzdálenost mezi vektory charakteristických znaků obrázku i a j • TC(w) je definován jako počet korektních hitů daných funkcí DT pracující s množinou vah w
Systémy využívající genetické algoritmy – popis systému • Abychom mohli spočítat ideální rozložení vah pro dané charakteristické znaky obrázku, použijeme genetické algoritmy • Jako chromozom si vezmeme vektror vah ci = (w1, …, wn) • Populace P je dána množinou vektorů ci, kde každý ci je chromozom představující vektor vah • Pomocí genetického algoritmu se z populace vybere vektor ideálních vah pro charakteristické vlastnosi • Počáteční generace byla vygenerována náhodně
Systémy využívající genetické algoritmy – výsledky • Pomocí genetického algoritmu bylo vybráno pět charakteristických znaků obrázku, kterým byly přiděleny váhy. Tyto vlastnosti jsou: Fourierovy deskriptory, aproximované hranice, sedm invariantních momentů, mimostřednost, kruhovitost a Eulerovo číslo • Tento výběr zároveň umožňuje, že může mít trademark i více komponent • Ke každému obrázku v DB jsou pak uloženy extrahované hodnoty těchto charakteristických znaků • Při zadání dotazu , jsou první z dotazu extrahovány charakteristické znaky a pak je počítána ke každému obrázku počítána DT funkce. Výsledky jsou pak seřazeny podle podobnosti.
Trocha z reálného života • Systém založený na kombinovaném vyhledávání • Pracuje nad reálnou databází o velikosti 63718 trademarků z US Patent and Trademark office • Ke každému obrázku je asociováno několik textových položek (obsahuje kód obrázku (označuje kategorii obrázku), zboží a služby asociované s obrázkem, sériové číslo trademarku, krátký popisný text, registrační číslo obrázku, datum registrace, vlastníka, …) • Obrázky v DB jsou normalizované, převedeny na černobílé a jejich velikost je redukována na jednotnou velikost v celé DB • Každý obrázek je rozdělen na 4 stejné části a každá z nich je reprezentována příslušnými histogramy
Vyhledávání • Vyhledávání: nejdříve se vyhledává podle některé nebo všech textových položek • Výsledkem vyhledávání je množina obrázků • Uživatel si vybere některé ze zobrazených a dále může kombinovat vyhledávání podle textu a obsahu obrázku • Pokud se provádí vyhledávání pouze na základě obrázku, porovnává se histogram zadaného obrázku se všemi histogramy obrázků v DB
Použitá literatura • www.google.com • http://www.cs.cuhk.hk/~king/PUB/chan99a.pdf • http://amp.ece.cmu.edu/projects/TrademarkRetrieval/