230 likes | 344 Views
Semantic Similarity in a Taxonomy . -Hvordan man måler semantisk lighed vha. taksonomi. Hvad er taksonomi?. 1. taxonomy -- (a classification of organisms into groups based on similarities of structure or origin etc)
E N D
Semantic Similarity in a Taxonomy -Hvordan man måler semantisk lighed vha. taksonomi
Hvad er taksonomi? • 1. taxonomy -- (a classification of organisms into groups based on similarities of structure or origin etc) • 2. taxonomy -- ((biology) study of the general principles of scientific classification) • 3. taxonomy -- (practice of classifying plants and animals according to their presumed natural relationships) Wordnet 1.7
Hvad er lighed? • Lighed ikke lig relationer • Relationen mellem en bil og benzin er større end mellem en bil og en cykel. • Ligheden mellem en bil og en cykel er større end mellem en bil og benzin
Traditionel måde at måle semantisk lighed i en taksonomi • At måle afstanden mellem knudepunkterne på det som sammenlignes • Dvs. en motorbåd har mere lighed med vand end luft…. • Problem: Distancerne i en taksonomi er ikke uniforme. Hvad afhænger en distance af? • Distancen ml. sikkerhedsventil og ventil syntes mindre end ml. symaskine og maskine • Kort distance: ’rabbit ears’ og tv-antenne • Stor distance: ’Phytoplankton’ og organisme
Resniks strategi • Vil basere lighed på ’Information Content’ • Vil undgå distance problemet • Vil kombinere sine metoder med sandsynlighedsudregning baseret på empiri • Vil vise hvordan man kan bruge udregningen af semantisk lighed til at fjerne flertydighed i naturlige sprog
Information Content • Lighed kunne bestemmes af den grad til hvilken koncepterne deler information • Lighed kunne bestemmes af det koncept som er dem begge overordnet. Eks. ’Nickel’ og ’Dime’ er underordnet ’Coin’, Mens ’Nickel’ og ’Credit Card’ begge er underordnet ’Medium of Exchange’
Hvordan målesInformation Content • Ved at associere sandsynlighed med koncepter i taksonomien • Alle koncepter i taksonomien tildeles en værdi baseret på den sandsynlighed der er for at støde på konceptet i taksonomien • Værdien kan ligge mellem 0 og 1, hvor 1 betyder at konceptet ikke er underordnet andre koncepter. Men også at dets informationsindhold er lig 0. • Stiger informationsværdien vil sandsynlighedsværdien falde. Desto mere abstrakt konceptet er, desto lavere er dets informationsindhold. • Desto mere information to koncepter deler, desto større er deres lighed. Dvs. ligheden af to begreber bestemmes af deres fælles overordnede begreb. F.eks. det begreb som har mest til fælles med ’Nickel’ og ’Dime’ er ’Coin’
38 personer fik 30 ord i par som de skulle vurdere ud fra skalaen 0-4 => Korrelation 0.97 Resnik gentog forsøget og fik korrelation 0.96 Empiri
Lighed målt vha. computer • ’Information Content’ (wsim) • Distance ml. begreber (wsimedge) • Koncepters sandsynlighed (wsimp(c))
Problemer ved ’Information Content’ • Kontra-intuitive resultater • Skyldes mangel på algoritme som finder ords mening • Løsning: medtag relevans i udregningen (baseret på tekst materiale).
Hvad kan vi bruge det til? • Opløse flertydighed i naturlige sprog • Ordbogs problemer
Flertydighed(sammensatte navneord) • Bank and (warehouse guard) vs. (bank and warehouse) guard • (Policeman and park) guard vs. (policeman) and (park guard)
Strategier vedr. flertydighed • Antal: several businesses and university groups • Mening: ’a television and radio personality’ har større lighed end ’a psychologist and sex researcher’ • Modifikation: ’corn and peaunut butter’ = ’Corn butter and peaunut butter’ vs. ’corn and peaunut crops’ = ’Corn crops and peaunut crops’
Komplekse flertydigheder • freshman ((business and marketing) major) • (food (handling and storage)) procedures • ((mail fraud) and bribery) charges
Paradigmer • Selection – skal vælge hvilke af WordNets ord hvis mening bør inkluderes • Filtering – skal vælge hvilke af WordNets ord hvis mening ikke bør inkluderes
Resultater • Precision – de meningsbetydninger som er inkluderet • Recall – de meningsbetydninger som burde være inkluderet
Konklusion • Selv ekspert har svært ved at matche den indfødtes resultater. Dette fortæller lidt om opgavens sværhed. • Algoritmen håndterer ’filtering precision’ bedre end ekspert • Algoritmen er bedst egnet til ’sense filtering’ fremfor ’sense selction’ • ’Information Content’ godt byd på opløsning af flertydighed • Metoderne bør nok bruges semi-automatisk under menneskelig supervision
Kilder • Philip Resnik: Semantic Similarity in a Taxonomy: An Information-Based Measure and its Application to Problems of Ambiguity in Natural Language, http://new-isl.ruc.dk/~troels/KIS/resnik99a.pdf • Ordbøger • WordNet - http://www.cogsci.princeton.edu/~wn/ • Wordsmyth English Dictionary-Thesaurus http://www.wordsmyth.net/ ), an on-line educational dictionary aliated with the ARTFLtext database project (http://humanities.uchicago.edu/ARTFL)