Semantic Sorting for Foreign-Language Documents

Explore methods for sorting foreign documents based on perceived comprehensibility compared to the reader's native language, enhancing search personalization and recommendation algorithms.



Presentation Transcript

  1. M.VlachosIBM Research – Zurich, Switzerland How Difficult is a Foreign-Language Document?

  2. Our Goal • Provide: • semantic ‘sorting’ operator • for foreign documents(with respect to the reader native language) • based on their perceived comprehensibility > Difficult Easy < Documents/Books on a topic

  3. why is it useful ? (1/2) E-Bookstores: Recommendations based on user’s language level

  4. why is it useful ? (1/2) E-Bookstores: Recommendations based on user’s language level < > Difficult Easy

  5. why is it useful ? (2/2) Web search/personalization: A lot of content overlap on the internet. Provide only a subset to the user, based on both: • Relevance • Document difficulty/comprehensibility Which documents should I read that better correspond to my understanding of the German language?

  6. Background - Readability • Manuals / Army Documents

  7. Background - Readability • Zipf’s Law “Zipf's law states that given some corpus of natural language utterances, the frequency of any word is inversely proportional to its rank in the frequency table.”

  8. 100 0 Microsoft Word 90-100 11 year old 60-70 13-15 year old 0-30 University student Background - Readability • Flesch Reading Ease

  9. Readability 65 Readability 52

  10. what makes the new problem challenging/interesting?

  11. Cognates • Many words in different languages exhibit visual and semantic affinity • Derived words • ‘Loan’ words “Ein Experte kam um die Maschine zu reparieren” “An expert came to repair the machine.”

  12. Compound Words

  13. Compound Words • German, Dutch, Swedish, etc are compound languages. • Complex words can be built from simpler ones • Intuition: Even if a word cannot be found in a Dictionary (or has low frequency), if it consists of easy building blocks then it is also easy to understand

  14. how to find word frequency? • Very large text corpora (eg project gutenberg) • Better: Use web search engines! Popularity of a word:

  15. Putting it all together • An easy text contains: • Simple syntactical structure (e.g. no deeply connected sentences) • Easy words: • frequently encountered – (eg. web frequency) • similar to my native language – cognates (finanzkrise = finance crisis) • Combine these measures to deduce overall difficulty

  16. Estimating Cognativity

  17. Common Letter Transformations: j -> y (ja -> yes) k -> c (Architekt -> architect) z -> c (sozial -> social) Estimating Cognativity Compute how easy it is to transform one word into another…

  18. Assembling everything

  19. some experiments

  20. Results – User Study easy Ich habe mit dreissig Jahren angefangen, Deutsch zu lernen. Das war ziemlich spät; ich glaube, wenn man jünger ist, ist es viel leichter, eine Fremdsprache zu lernen. Aber ich wollte es trotzdem versuchen. Mich interessierte die Deutsche Kultur, und einige Mitarbeiter der Firma hatten die Aussicht, einmal in Deutschland zu arbeiten. Also lernte ich Deutsch. medium über mangelnde Beschäftigung während der Weihnachtsfeiertage konnte sich die städtische Berufsfeuerwehr dieses Jahr wahrhaftig night beklagen. Mehr als dreihundert Einsätze im gesamten Münchner Stadtgebiet hielten Oberbranddirektor Wanninger und seine Mitarbeiter rund um die Uhr in Atem. In den meisten Fällen konnten sie das Feuer schnell unter Kontrolle bringen. Zwei Einfamilienhäuser und mehrere Etagenwohnungen brannten jedoch vollständig aus. difficult Das sogenannte Vorgesicht ist ein bis zum Schauen oder mindestens deutlichem Hören gesteigertes Ahnungsvermögen und hier in Westfalen so gewöhnlich, dass man überall doch tatsächlich damit Behaftete trifft und im Grunde fast kein Eingeborener sich gänzlich davon freimachen dürfte.Seine Gabe überkommt ihn zu jeder Tageszeit, am häufigsten jedoch in Mondnächten, wo er plötzlich erwacht und von fieberhafter Unruhe ins Freie oder ans Fenster getrieben wird. Er hört das Geschrei der Verunglückten und an Tür oder Fensterläden das Anklopfen desjenigen, der ihn oder seinen Nachfolger zur Hilfe rufen wird.

  21. Comparing Readability vs Our Method

  22. Comprehensibility consistently outperforms readability measures • 300 Essays from: CourseInfo.com • University Level • A-level (pre-college preparation) • GCSE (high-school)

  23. LingoRANK • A web tool for keyword-based news retrieval in German language • Semantic ranking of document based on comprehensibility

  24. In summary • Dynamic Corpus for Term Frequency • Use search engines • Difficulty Depends on the Users’s Native Language • Cognate Identification • Word Decompounding • Building blocks simple to understand? -> Compound word is simple • Finanzminister (= Finance Minister) Finanzminister • We can mesh relevance and comprehensibility using a skyline ordering approach “Customizing Search Results for Non-Native Speakers” (2012)T. Lappas, M. Vlachos: International Conference on Information and Knowledge Management (CIKM)

