1 / 30

Trademarking retrieval

Trademarking retrieval. Jana Maláčová. Obsah. Co je to trademark a trademarking retrieval Motivace pro trademarking retrieval Obecné systémy Metody pro reprezentaci tvarů Projekt Davida Liu Systémy využívající genetické algoritmy Použitá literatura. Co je to trademark.

reyna
Download Presentation

Trademarking retrieval

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Trademarking retrieval Jana Maláčová

  2. Obsah • Co je to trademark a trademarking retrieval • Motivace pro trademarking retrieval • Obecné systémy • Metody pro reprezentaci tvarů • Projekt Davida Liu • Systémy využívající genetické algoritmy • Použitá literatura

  3. Co je to trademark • Trademark, neboli obchodní známka je označení, kterým firma nebo jedinec identifikují samy sebe, své výrobky nebo služby. Pomocí trademarku je zákazníci odlišují od jiných firem • Dnes je počet trademarků v řádu miliónů a stále tento počet stoupá • U nás má ochranné známky na starost …

  4. Motivace • Trademarky hrají důležitou roli v poskytování unikátní identity v oblasti marketingu • Nových trademarků neustále přibývá • Systémy pro klasifikaci trademarků být schopné zajistit, že existující trademarky jsou navzájem odlišné, musí se vyhnout kolizím • Systémy musí být dostatečně rychlé

  5. Obecné systémy • Oddělení systémů pro vyhledávání trademarků a obyčejných obrázků • Různé druhy indexace a jejich výhody a nevýhody • Indexace trademarků • Ruční • Automatická • Indexace • Textová • Visuální • Dnešní trademark retrieval systémy

  6. Projekt Davida Liu – popis systému • Databáze trademarků obsahuje naskenované trademarky • Dotaz může být buď naskenovaný obrázek nebo nakreslený • Systém je založen na porovnávání vzoru (dotazu) se všemi trademarky v databázi

  7. Projekt Davida Liu – popis systému

  8. Fáze přípravy dotazu - filtrování • Filtrování šumu • Při naskenování se dostává do obrázku šum. V obrázku se vyskytují tečky nebo prázdné díry, které by v obrázku neměli být. Ty jsou označeny za vady • Na vstupu je více obrázků a z těchto se pak do další fáze zkombinuje jediný, ve kterém je již šum odstraněn

  9. Příklady odstraňování šumu

  10. Fáze přípravy dotazu - extrakce • Extrakce kostry versus extrakce obrysu • Vyfiltrovaný obrázek je rozdělen do několika regionů • Každý region je buď převeden na kostru nebo obrys, rozhoduje se podle charakteru daného regionu • Rozhodování, zda zvolit kostru nebo obrys • Podíváme se na každý pixel kostry a sledujeme, vzdálenost tohoto pixelu od nejbližšího pixelu obrysu. Pokud je tato vzdálenost „malá“ a navíc pro každý pixel kostry je vzdálenost k nejbližšímu obrysovému pixelu přibližně stejná, pak volíme reprezentaci kostrou. V opačném případě volíme obrys

  11. Fáze přípravy dotazu – extrakce - příklad

  12. Fáze přípravy dotazu – extrakce charakteristických znaků a výpočet podobnosti • Charakteristické vlastnosti trademarku jsou získávány z každého tahu ze tří základních charakteristik každého tahu: střed daného tahu, konvexnost tahu a celková délka tahu. • Ostatní charakteristiky jsou odvozeny z těchto základních. Tyto charakteristiky jsou pak použity systémem pro odhadování tvarů, který vypočítává podobnost daného tahu ke třem základním tvarům: přímka, kružnice, polygon • Tyto podobnosti jsou pak základními charakteristikami pro každý obrázek • Z se počítá podobnost mezi jednotlivými obrázky

  13. Extrakce charakteristických znaků - příklad • Podobnost kruhu (a) 0.8536 (b) 0.6806 (c) 0.273 • Podobnost polygonu (a) 0.9772 (b) 0.5390 (c) 0

  14. Extrakce charakteristických znaků - příklad • Podobnost přímce • (a) 0.9953 (b) 0.4958 (c) 0

  15. Výpočet podobnosti mezi dotazem a trademarkem z DB • Vzorec pro výpočet podobnosti dvou tahů, kde SQi je i-tý tah z dotazu, SDj je j-tý tah z trademarku z DB, p je jeden ze základních tvarů, cp(s) je podobnost k tomuto základnímu tvaru, fp,k(s) je k-tá vlastnost tvaru p tahu s, a G(f1 ,f2) je podobnost mezi vlastnostmi 1 a 2 • Vzorec pro výpočet podobnosti dvou obrázků, kde SQi je i-tý tah z dotazu, SDj je j-tý tah z trademarku z DB

  16. Příklad

  17. Srovnání použití různých reprezentací tvarů

  18. Druhy trademark retrieval systémů • QBIC(query by image content) – slouží jako databázový filter obrázků, který umožňuje dotazy založené na obsahu obrázku jako podíl barev obrázku, rozložení barev a struktur, systém musí být dobře natrénovaný, aby dobře pracoval • STAR(systém for trademark archival and retrieval) systém pracující na základě charakteristik R, G a B barevných komponent, invariantních momentů a Fourierových deskriptorech extrahovaných z manuálně vybraných objektů • Obecně si vybíráme některé vlastnosti obrázků pro jejich reprezentaci a na jejichž základě rozhodujeme o jejich vzájemné podobnosti

  19. Systémy využívající genetické algoritmy • Existuje mnoho vizuálně význačných charakteristických znaků pro každý obrázek (např. obrys, kruhovitost, …). Každá z těchto charakteristik má vliv na to, jak obrázek vypadá, každá má ale také jinou váhu v celkovém vzhledu. Snahou tohoto systému je najít vizuálně významné charakteristiky a přiřadit jim patřičnou váhu, která odpovídá vizuální důležitosti tohoto znaku. Pak je obrázek chápán jako soubor těchto význačných znaků s jejich váhou.

  20. Systémy využívající genetické algoritmy – popis systému • Definujeme si DB trademarků jako množinu obrázků {Ii}, pro každý obrázek definujeme zobrazení f:IxV->Rd, kde V je množina charakteristických znaků, R je d-dimenzionální vektor reálných hodnot charakteristik • DB pak trénujeme na trénovací množině, což je množina párů Tp=(IT,IS), kde IT je cílový obrázek dotazu a IS je uživatelem definovaný nejlepší obrázek. Takových trénovacích párů máme n. • Mějme funkci DT (Ii,Ij), • která počítá podobnost mezi obrázky Ii a Ij , kde Dfi je Euklidovská vzdálenost mezi vektory charakteristických znaků obrázku i a j • TC(w) je definován jako počet korektních hitů daných funkcí DT pracující s množinou vah w

  21. Systémy využívající genetické algoritmy – popis systému • Abychom mohli spočítat ideální rozložení vah pro dané charakteristické znaky obrázku, použijeme genetické algoritmy • Jako chromozom si vezmeme vektror vah ci = (w1, …, wn) • Populace P je dána množinou vektorů ci, kde každý ci je chromozom představující vektor vah • Pomocí genetického algoritmu se z populace vybere vektor ideálních vah pro charakteristické vlastnosi • Počáteční generace byla vygenerována náhodně

  22. Systémy využívající genetické algoritmy – výsledky • Pomocí genetického algoritmu bylo vybráno pět charakteristických znaků obrázku, kterým byly přiděleny váhy. Tyto vlastnosti jsou: Fourierovy deskriptory, aproximované hranice, sedm invariantních momentů, mimostřednost, kruhovitost a Eulerovo číslo • Tento výběr zároveň umožňuje, že může mít trademark i více komponent • Ke každému obrázku v DB jsou pak uloženy extrahované hodnoty těchto charakteristických znaků • Při zadání dotazu , jsou první z dotazu extrahovány charakteristické znaky a pak je počítána ke každému obrázku počítána DT funkce. Výsledky jsou pak seřazeny podle podobnosti.

  23. Systémy využívající genetické algoritmy – popis systému

  24. Systémy využívající genetické algoritmy – příklad výsledků

  25. Systémy využívající genetické algoritmy – příklad výsledků

  26. Trocha z reálného života • Systém založený na kombinovaném vyhledávání • Pracuje nad reálnou databází o velikosti 63718 trademarků z US Patent and Trademark office • Ke každému obrázku je asociováno několik textových položek (obsahuje kód obrázku (označuje kategorii obrázku), zboží a služby asociované s obrázkem, sériové číslo trademarku, krátký popisný text, registrační číslo obrázku, datum registrace, vlastníka, …) • Obrázky v DB jsou normalizované, převedeny na černobílé a jejich velikost je redukována na jednotnou velikost v celé DB • Každý obrázek je rozdělen na 4 stejné části a každá z nich je reprezentována příslušnými histogramy

  27. Vyhledávání • Vyhledávání: nejdříve se vyhledává podle některé nebo všech textových položek • Výsledkem vyhledávání je množina obrázků • Uživatel si vybere některé ze zobrazených a dále může kombinovat vyhledávání podle textu a obsahu obrázku • Pokud se provádí vyhledávání pouze na základě obrázku, porovnává se histogram zadaného obrázku se všemi histogramy obrázků v DB

  28. Příklad

  29. Příklad

  30. Použitá literatura • www.google.com • http://www.cs.cuhk.hk/~king/PUB/chan99a.pdf • http://amp.ece.cmu.edu/projects/TrademarkRetrieval/

More Related