Automatická s umarizace text ů

Automatická sumarizace textů

Motivace Počet uživatelů Internetu2,2 miliardy -prosinec2011, nárůst z 360 milionů v r. 2000. Počet webových stránek 7,51 miliardy(web pages)-březen 2012, Počet webových míst 550milionů(web sites)-prosinec 2011. 2

Text & Web Mining(informationretrieval) Web contentmining (analýza obsahu) Vyhledávání textů (dokumentů) Filtrace textů Klasifikace textů Shlukování textů Sumarizace textů Web structuremining (analýza topologie, využití linked data) Web usagemining (analýza logů, využití údajů o přístupech)

Obsah • Úvod • Taxonomie sumarizačních metod • Klasické a pokročilé sumarizační metody • Vlastní výsledky • Naše metoda použití LSA pro sumarizaci • Vícedokumentová sumarizace • Aktualizační sumarizace • Další řešené sumarizační úlohy 4

Typy souhrnů a sumarizačních metod • Podle formy výsledku: • Extrakty • Abstrakty • Podle úrovně zpracování: • Povrchní (používají povrchní vlastnosti, např. termy významné pozičně, frekvenčně, doménově, z dotazu). • Hlubší (používají syntaktické či tezaurové relace, rétorickou strukturu apod.) • Podle účelu: • Indikativní (mají umožnit rozhodnutí, zda dokument stojí za to číst, délka do 10% originálu, součást vyhledávačů). • Informativní (20-30% originálu, nahrazují čtení plného textu zběžným seznámením s tématem). • Hodnotící (kritiky, recenze, posudky – nejsou automaticky generované). • . . .

Klasické sumarizační metody - Heuristické Inverse documentfrequency (důležité termy se ale nesmí vyskytovat ve většině dokumentů) term frequency (důležité termy se vyskytují v dokumentu častěji) Luhn: The Automatic Creation of Literature Abstracts. In IBM Journal of Researchand Development. 1958 významný term t : tf(t) * idf(t) > threshold • Najdi významné termy (klíčová slova). • Vypočti váhy větna základě v nich obsažených klíčových slov. • Požadovaný počet vět s největšími váhami představují výsledek sumarizace.

Klasické sumarizační metody - Heuristické Edmundson : New Methods in Automatic Extraction. In Journal of the ACM, 1969 Důležité informace: • Vyskytují se ve specifických pozicích (začátek, konec), • Vyskytují se ve specifických odstavcích textu (název, úvod, závěr), • Jsou indikovány zdůrazňujícími slovy (hlavní, důležitý, výsledek, cíl, …), • Jsou indikovány klíčovými slovy. Kombinace vlastností 1-4 určuje důležitost (váhu) věty s. Weigh(s) = a*Title(s)+b*Cue(s)+c*Keyword(s)+d*Position(s)

Klasické sumarizační metody - Statistické Bayesův klasifikátor (?zařadit větu s do souhrnu S: ano/ne) P(F1,F2,…,Fn|sS) P(sS) P(sS|F1,F2,…,Fn) = P(F1,…,Fn) za předpokladu nezávislosti příznaků Fi (Kupiec at all 1995) j=1…n P(Fj|sS) P(sS ) P(sS|F1,F2,…,Fn)≈ j=1…n P(Fj) P(sS|F1,F2,…,Fn) pravděpodobnost, že věta s je v souhrnu S při daných příznacích . P(sS) pravděpodobnost, že věta s je v souhrnu S nepodmíněně P(Fj|sS)pravděpodobnost hodnoty příznaku Fjve větě souhrnu P(Fj)pravděpodobnost hodnoty příznaku Fjnepodmíněně

Klasické sumarizační metody – Statistické (příklad) Máme 1000 trénovacích vět a manuální 20% extrakt. Ze statistik příznaků zjistíme: Příznak F1výskyt v10%(100 s.)P(F1)=0.1 P(notF1)=0.9 -“-F2-“- 10%(100 s.)P(F2)=0.1 P(notF2)=0.9 -“- F3-“-20%(200 s )P(F3)=0.2 P(notF3)=0.8 P(F1|sS)=0.4 (tj 80 z 200) P(F2|sS)=0.25 (tj. 50 z 200) P(F3|sS)=0.5 (tj.100 z 200) P(F1|sS)=0.025 (tj. 20 z 800) P(F2|sS)=0.0625 (tj. 50 z 800) P(F3|sS)=0.125 (tj.100 z 800) P(notF1|sS)=0.6 (tj. 120 z 200) P(notF2|sS)=0.75 (tj. 150 z 200) P(notF3|sS)=0.5 (tj. 100 z 200) P(notF1|sS)=0.975 (tj. 780 z 800) P(notF2|sS)=0.9375(tj. 750 z 800) P(notF3|sS)=0.875(tj.700 z 800) P(sS) je konstantak, tzn pro 20% extract je0.2, lze ji pominout

Klasické sumarizační metody – Statistické (příklad) Mějme 4 věty textu s1,s2,s3,s4. Pro sumarizaci spočteme P(sS|F1,F2,F3) Bude-li v s1: F1=yes, F2=yes, F3=yes  P(s1S|F1=yes,F2=yes,F3=yes) =k*.4*.25*.5/.1/.1/.2== k* 25 P(s1S|F1=yes,F2=yes,F3=yes)=(1-k)* .025*.0625*.125/.1/.1/.2 = (1-k)*0.0976562 Bude-li v s2: F1=no, F2=no, F3=no  P(s2S|F1=no,F2=no,F3=no)= k* .6*.75*.5/.9/.9/.8 = =k*0.34687 P(s2S|F1=no,F2=no,F3=no) = (1-k)* .975*.9375*.875 /.9/.9/.8 = (1-k)* 1.123

Klasické sumarizační metody – Statistické (příklad) Bude-li v s3: F1=yes, F2=no, F3=no  P(s3S|F1=yes,F2=no,F3=no) = k* .4*.75*.5 /.1/.9/.8= k* 2.08 Bude-li v s4: F1=yes, F2=yes, F3=no  P(s4S|F1=yes,F2=yes,F3=no) = k* .4*.25*.5 /.1/.1/.8= k* 6.25 Do souhrnu bychom zařazovali věty s největší podmíněnou pravděpodobností . Tzn v pořadí: s1, pro25% souhrn50% souhrn s4,75% souhrn s3, s2

Pokročilé sumarizační metody - grafové • Vychází z metody hodnocení důležitosti web stránek • Důležitástránka - vede k nímnohoodkazů, • - odkazujínanívysoceohodnocenéstránky Nechť PR(u) je hodnocení (rank)webovéstránky u, Fu je množinastránek, na kteréstránkauodkazuje a Bu je množinastránek, kteréodkazují na u, Nu = Fu je početodkazů z u c je konstantapoužívaná pro normalizaci, zajištujícíkonstantnísoučetohodnocenívšechstránek

Pokročilé sumarizační metody - grafové PageRank G = (V, E) je orientovaný graf V je množina vrcholů Vi , i = 1..N E je podmnožinouVxV Počítá PageRank skóre (významnost) uzlů: d je faktor tlumení In(Vi) je množinou vrcholů, ze kterých vede větev do Vi Out(Vi) je množina vrcholů do nichž vede větev z Vi

Pokročilé sumarizační metody - grafové • Vrcholy grafu reprezentují věty textu, • Větve reprezentují vazby mezi větami • Jsou neorientované • Jsou ohodnocené mírou svázanosti vět wij • Spočítá se PR skóre vět: • Věty s nejvyšším PR jsou vybrány do souhrnu.

Pokročilé sumarizační metody - grafové K ohodnocení větví mírou podobnosti vět používají: buď • Počet společných (příbuzných) slov ve větách, nebo • Kosinové podobnosti vět X a Y v prostoru slov V prostoru slov lze každou větu (nebo i celý dokument) reprezentovat vektorem a jejich podobnost měřit cosinem.

věta1věta2 věta3dfiidfi=log(počet_vět/dfi) term tf1.věta tf2.věta tf3.věta cosmonaut0 0 1 1 0,47 Armstrong 0 1 1 2 0,17 voyage 1 1 0 2 0,17 cosmonaut 0,47 věta3 Armstrong 0,17 0,17 věta2 věta1 voyage

Latentní sémantická analýza • LSA • dovoluje analyzovat vztahy mezi termy a částmi textů pomocí algebraické metody singulární dekompozice (SVD), • na základě kontextunalezne skryté dimenze sémantické reprezentace termů, vět a dokumentů, • umožňuje redukovat data jejich zobrazením v prostoru vhodnějších dimenzí, • LSA je použitelné pro vyhledávání, klasifikaci, shlukování i sumarizaci dokumentů. Princip SVD rozkladu probereme nejprve pro sumarizaci jednoho dokumentu.

Latentní sémantická analýza • Vytvoříme matici A termů proti větám A = [A1, A2, …, An], sloupcové vektory A1, A2, …, An reprezentují váhy termů v jednotlivých větách, • SVD rozkládá matici A na tři matice

Latentní sémantická analýza • LSA najde nejlepší k-rozměrnou aproximaci matice A, kde k<n Slovo1Slovo2Slovo3 . . . Slovo n koncept1 koncept2 . . . koncept k • Vytvoří nové dimenze reprezentující témata (koncepty) dokumentu kombinací původních dimenzí. • Redukovaná matice U mapuje termy do k nejvýznamnějších témat. • Redukovaná matice VT mapuje věty do k nejvýznamnějších témat. Udává významnost vět v tématech. • Důležitost tématu je určena odpovídající singulární hodnotou, platí: σ1>σ2>…>σn >0a klesá s jejím kvadrátem. • Lze inkrementálně spočítat jen k nejdůležitějších dimenzí.

Latentní sémantická analýza a sumarizace • Gong&Liu postup: Pro j=1,2,…, délka souhrnu provádí • Přihledání j-té věty souhrnu vybere j-tý pravý singulární vektor z VT , tj. [vj1, vj2, …, vjk]T. • Do souhrnu dá větu i s největší indexovou hodnotou vji . • Nevýhodou je považování všech témat za stejně důležitá Náš nápad: • Rozdílnost důležitosti témat indikuje matice Σ. • Vylepšit souhrn zařazením vět, jejichž vektorová reprezentace v maticisoučinu Σ a VT má největší délku vektoru dr . Důležité téma pak může být zastoupeno více větami

Latentní sémantická analýza Hlavní publikace: • TwoUsesofAnaphoraResolution in Summarization. InformationProcessing & Management , Elsevier Ltd, Vol.43, Issue 6, November 2007, pp. 1669-1680, ISSN 0306-4573 (13 citací). • Text Summarization and SingularValueDecomposition. ADVIS 2005, Lecture Notes in Comp.Sc.2457 pp.245-254, Springer-Verlag 2004, ISSN 0302-9743 (7 citací) • UsingLatentSemanticAnalysis in Text Summarization and Summaryevaluation, Proc. of 7th International Conference ISIM 04, pp. 93-100, ISBN 80-85988-99-2 (13 citací). Použití LSA pro hodnocení kvality souhrnů publikováno v: • EvaluationMeasuresfor Text Summarization. In Computing and Informatics, volume 28, number 2, pages 251-275, SlovakAcademyofSciences, ISSN 1335-9150, 2009. • Text Summarization: AnOldChallenge and New Approaches. In FoundationsofComputationalIntelligence Vol.6, pages 127- 149, Data MiningBookSeries, Springer, ISSN 1860-949X, 2009

Vícedokumentová sumarizace • Vytváří souhrn z kolekce dokumentů C = {D1, D2, … , Dd}, obvykle pojednávajících o stejném tématu. • Pracujeme se všemi větami i termy dokumentů. Nový problém: • Dokumenty obsahují velmi podobné věty s redundantní informací. Postup řešení: • Ohodnotíme věty LSA skórem vhodnosti (lze i jinou metodou), • Před jejím zařazením do souhrnu ověříme, zda již neobsahuje podobnou větu. Např. nepřesahuje práh kosinové podobnosti v prostoru témat Publikace: Web TopicSummarization, Proceedingsofthe 12th International Conference on ElectronicPublishing, ISBN 978-0-7727-6315-0, pp 322-334, Toronto, Canada2008.

Aktualizační sumarizace • Uživatel má předchozí znalosti z kolekce dokumentů Cold • Uživatel chce být seznámen s dokumenty z kolekce Cnew. • Nechce informace z Cnew, které již byly obsaženy v Cold . Náš postup: • Z Colda Cnew vytvoříme matice Anew a Aold , na kterých provedeme separátně SVD . • Získáme redukované matice Unew a Uold . Jejich sloupce představují k témat množin dokumentů vyjádřené v lineárních kombinacích termů. • Pro každé „nové“ téma t, (t je index sloupce matice Unew), vyhledáme nejpodobnější staré téma (sloupec matice Uold).

Aktualizační sumarizace • Kosinová podobnost těchto vektorů udává míru redundance red(t)nového tématut. Kde k je počet témat v redukovaném prostorusloupců Uold • Novost tématu t počítáme vztahem 1 – red(t) , • Zohledníme důležitost jednotlivých témat t v aktualizačním skóre: us(t)= σ(t)*(1- red(t)) • Z vypočtených skóre sestavíme diagonální matici US, • Vynásobením US .VnewTdostaneme matici F, která v sobě agreguje novost i důležitost nových témat ve větách.

Aktualizační sumarizace • První dáme do souhrnu větu, která má nejdelší vektor fbest v matici F, • Odečteme informaci z fbest od ostatních sloupců matice F, tj. přepočteme F dle vzorce: • Proces zařazování do souhrnu probíhá iteračně, až do získání potřebné délky souhrnu. Výsledky: náš LSAsumarizátorv TAC soutěži: r.2008 9.místo z 58, r.2009 2.místo z 52 Update SummarizationBased on Novel TopicDistribution. Proceedingsofthe ACM Symposium on DocumentEngineering, Munich, Germany, 2009. Update SummarizationBased on LatentSemanticAnalysis.Proceedingsof 12th International Conference, TSD 2009, LNAI 5729, Springer-VerlagBerlin Heidelberg New York, ISSN 0302-9743, 2009.

Další aktuální sumarizační úlohy • Multijazyková sumarizace Účast na přípravě a vyhodnocení TAC 2011 10 témat po 10 článcích v 7 jazycích. • Komparativní sumarizace – cílem je souhrnně informovat o rozdílech v jednotlivých dokumentech, (odlišnosti hlavních témat – probíhá výzkum formou PhD). • Cílená sumarizace – ke vstupním datům je přidána informace o uživatelově zájmu (dotazem/tématem). Do výsledku přednostně zařazuje věty, jejichž téma odpovídá přidávané informaci. • Sumarizace mínění – zpracovává dokumenty obsahující mínění o entitě a vytváří průměrný názor.

Další probíhající a přípravované úlohy z oblasti extrakce informací z textů • Získávání znalostí pro personalisty integrováním informací z webových zdrojů (F solutions, s.r.o. Praha a TextKernel NL). • Porovnávání náplně výukových kurzů na amerických univerzitách a jejich řazení na základě požadavku klienta (Owen Software USA ). • Pre-seed projekt: Získávání informací z textů. Stránky výzkumné skupiny: http://www.textmining.zcu.cz/

Děkuji za pozornost

Hodnocení kvality sumarizátorů • Přímé metody • Porovnání lingvistické kvality (ručně) • Gramatická správnost • Neredundantnost • Struktura, souvislost, srozumitelnost • Porovnání obsahu textu s ideálním souhrnem • Ko-selekční přístupy • Podobnostní míry • Nepřímé metody • Kategorizace dokumentů • Vyhledávání informací • Zodpovídání dotazů

Hodnocení kvality sumarizátorů – přímé metody

Hodnocení kvality sumarizátorů – přímé metody Podobnostní míry - Také základ v IR ale použitelné k porovnání jak s ideálním standardem tak s originálem • Kosinová podobnost v prostoru slov s využitím tf-idf vah. • Kosinová podobnost v latentním prostoru témat. Po SVD hledá • Podobnost hlavního tématu = kosinus uhlu mezi jejich prvými levými singulárními vektory souhrnu i originálu jsou normalizované • Podobnost n hlavních témat. Pro souhrn i originál po SVD spočteme a Pro každý řádkový vektor matice BS (resp BO) spočteme jeho délku dkS (dkO). Ta odpovídá důležitosti k-ho termuv latentním prostoru. Z délek dkS, dkO vytvoříme vektory dSdO. Kosinus jejich úhlu je mírou kvality souhrnu.

Hodnocení kvality sumarizátorů – přímé metody • ROUGE (Recall-OrientedUnderstudyforGistingEvaluation) automatická, založena na podobnosti n-gramů výpočet skóre RSS - referenční souhrny od anotátorů je počet n-gramů v referenčnímsouhrnu je maximálnípočet n-gramů, které sespolečněvyskytujíjak v hodnoceném, taki v referenčnímsouhrnu • Pyramids Semi-automatická metoda založená na tzv. sumarizačních jednotkách SCU. SCU (věty nebo fráze) to jsou části souhrnů tvořených anotátory SCU které jsou v více souhrnech se přiřadí vyšší váha, vzniká SCU pyramida V hodnoceném souhrnu se hledají shody s SCU a sčítají se jejich váhy.

Hodnocení kvality sumarizátorů – nepřímé metody Kriteriem je uplatnění souhrnu ve zvolené úloze • Kvalita vyhledávání na souhrnech versus na plných textech • Vyhledávači se zadá stejný dotaz jak nad kolekcí souhrnů S tak kolekcí plnotextovou D. Pak seřadí výsledky podle jejich relevance. • K porovnání pořadí lze použít např. Kendall’s tau nebo Spearman’s rank correlation. Také lze využít údaj o relevanci z vyhledávače a spočítat korelaci relevance Kde xi je relevance dokumentu Diϵ D k dotazu Q, yi je relevance souhrnného dokumentu Siϵ S k dotazu Q. a je průměrná relevance dokumentů z D (resp. z S) k dotazu Q. • Kvalita kategorizace podle souhrnů namísto plných textů Mírou kvality je přesnost a úplnost či F-skóre zatřídění souhrnů do tříd proti známému správnému zatřídění původních textů

Latentní sémantická analýza - poznámky Pokud dokument obsahuje m termů a n vět je matice A o rozměrum × n U = [uij] je m × n sloupcově ortonormální matice, jejíž sloupce se nazývají levé singulární vektory Σ = diag(σ1, σ2, …,σn) je n × n diagonální matice, jejíž diagonální prvky jsou nezáporné singulární hodnoty seřazené sestupně V = [vij] je n × n ortonormální matice, jejíž sloupce se nazývají pravé singulární vektory Rozměr matic je redukován na k dimenzí, kde k < n, takže U je redukována na m×k,Σ na k×k a VT k×n Pozn. • ortonormální matice má všechny sloupcové vektory délky 1 a navzájem kolmé. • Σ 2 je matice vlastních hodnot matice AA T a také A TA. Sloupce U jsou vlastními vektory AA T a sloupce V jsou vlastními vektory A TA .

Latentní sémantická analýza Matice A: term v1v2v3v4v5v6 cosmonaut 1 0 1 0 0 0 Armstrong 0 1 1 0 0 0 voyage 1 1 0 0 1 0 moon 1 0 0 1 1 0 track 0 0 0 1 1 1 track v4 v6 Latentníprostorredukovaný na 2 dimenze: dim2 moon v5 dim1 v3 v1 cosmonaut Armstrong voyage v2

Latentní sémantická analýza a sumarizace Další možnosti modifikacevýběru vět do souhrnu s použitím LSA: • Pracovat jen se singul. čísly, která jsou větší než zvolený zlomek σ1 • Zařadit počty vět na základě procentního podílu singulárního čísla k součtu singulárních čísel. • Kombinacegrafové a LSA sumarizační metody: • Zkonstruuj matici A (slova proti větám) • Proveď SVD faktorizaci matice A • Redukuj rozměr matic U,Σ,V na U’Σ’V’ • Rekonstruuj odpovídající matici A’=U’Σ’V’T. Její sloupce představují sémanticky reprezentované věty • Z takto reprezentovaných vět vytvoř graf, který zachycuje strukturu textu obdobně jako graf vytvořený z vět vyjádřených na bázi frekvence termů. • Na graf aplikujranking algoritmus • Do výsledku zařaď věty odpovídající nejvýše ohodnoceným uzlům

Automatická s umarizace text ů

Automatická s umarizace text ů

Presentation Transcript

Text Structure ( Text Organization)

Text

Text

Text

Text text text.

Text

Text

text

Text

Geologic Time Scale s ee Page 39, text

Text

Text Text Text Character limit = 994 characters

Text

PowerPoint 2007: Text s odrážkami

Text Text Text Text Text Text Text Text Text Text Text Text Text Text

Your text Your text Your text Your text

Text

Title Text Title Text Title Text Title Text Title Text Title Text Title Text Title Text

Informational Text – Text Features

Text to text links

Text-to-Text Generation

Text