1 / 51

Szövegbányászat és dokumentum kezelés

Szövegbányászat és dokumentum kezelés. Előadó : Kecskeméti Gábor , Ph.D. Elérhetőség : A/1 336. szoba Gyakorlat : Szerda 8-10, A/1 204 labor Előadás : Szerda 10-12, A/5 202 vegyipari gépek tsz . Konzultáció : Szerda 12-14, A/1 336 Elérhetőség : kecskemeti@iit.uni-miskolc.hu

arich
Download Presentation

Szövegbányászat és dokumentum kezelés

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Szövegbányászatésdokumentumkezelés Előadó: KecskemétiGábor, Ph.D. Elérhetőség: A/1 336. szoba Gyakorlat: Szerda 8-10, A/1 204 labor Előadás: Szerda 10-12, A/5 202 vegyiparigépektsz. Konzultáció: Szerda 12-14, A/1 336 Elérhetőség: kecskemeti@iit.uni-miskolc.hu Weboldal: http://www.iit.uni-miskolc.hu/iitweb/opencms/users/kecskemetig

  2. Ütemterv • Szövegbányászat alapjai és feladatköre. Dokumentum modellek, IR műveletek áttekintése • Invertált indexek. Indexek hatékonysági kérdései. Közelítő keresési módszerek, szerkesztési távolság • Dokumentum vektor modell, dokumentumok előfeldolgozása. PCA redukció • Dokumentumok osztályozása és klaszterezése • Dokumentum kivonatolási módszerek, tezaurusz karbantartása. • Oracle Text és az SQLServer Fulltext működése, használata • Szabadszöveges keresése web környezetben, kereső motorok, page rank. • Dokumentumok a szerkesztői munkákban, DocBook, PDF, XSLT-FO • DITA modell, Open DITA Toolkit • Formális nyelvek áttekintése, osztályozásuk, szerepük. • Természetes nyelvek , szótövező algoritmusok, nyelvtan • Természetes nyelvi lekérdező felületek működési modellje. • NLI kezelés aktuális kérdései, kitekintés a fejlődési alternatívákra

  3. Követelményrendszer • Évköziszámonkérés: • gyakorlatifeladatokonkisfeladatok • Aláírásfeltétele: • 5 gyakorlatióránfeladottfeladatmegoldásaésmegvédése • Vizsga: • CSAK szóbeli, létszámtólfüggőenegyénivagyközösvizsgázás

  4. Adminisztratív! • A 2012. 02. 15.-ei és a 2012. 02. 22.-ei előadásésgyakorlatelmarad! • Ezekhezhasonlóanrendszeresenmaradhatnak el előadások • ilyenkormindigelőrefogokszólni • A pótlásárakésőbbkerülsor a mostanióránmeghatározottnapokésidőpontokegyikén • Jelöljön meg mindenki 1-2 munkanapotésazonbelülegyidőintervallumotamelymegfelelszámára • Ezekközül a legtöbbeteknekelfogadhatóra (rendelkezésreállóteremfüggvényében) fogomallokálniazelmaradtórákpótlását • Pl: szerda 16-18

  5. Nyersszöveg 1. Gyakorlatifeladat Web CSV • HTML tartalomkiszűrése: • Body elemenbelülitartalomkigyűjtése • a html jelölésekmegszüntetése: • <p> sz1 <a href=“”> sz2 </a> sz3 • sz1 sz2 sz3 • Statisztika: összesbetűkszáma, betűkszámosságánakmegállapításakülön-külön • CSV: betű, számosság CR • GUI: a képernyőrekerüljönkiírásraazösszesbetűszázalékoselőfordulásigyakoriságaazadottURLen (esetleghisztogramformában) URL bekérés letöltés Szűrés Statisztika Opcionálisanimplementálandó GUI %-oskijelzés

  6. előadás

  7. Text Mining Definition • Many definitions in the literature “The non trivial extraction of implicit, previously unknown, and potentially useful information from (large amount of) textual data”. • An exploration and analysis of textual (natural-language) data by automatic and semi automatic means to discover new knowledge.

  8. Text Mining Definition • What is “previously unknown”information ? • Strict definition • Information that not even the writer knows. • e.g., Discovering a new method for a hair growth that is described as a side effect for a different procedure • Lenient definition • Rediscover the information that the author encoded in the text • e.g., Automatically extracting a product’s name from a web-page.

  9. What Is Text Mining? “The objective of Text Mining is to exploit information contained in textual documents in various ways, including …discovery of patterns and trends in data, associations among entities, predictive rules, etc.” (Grobelnik et al., 2001) “Another way to view text data mining is as a process of exploratory data analysis that leads to heretofore unknown information, or to answers for questions for which the answer is not currently known.” (Hearst, 1999)

  10. Motivation for Text Mining • Approximately 90% of the world’s data is held in unstructured formats (source: Oracle Corporation) • Information intensive business processes demand that we transcend from simple document retrieval to “knowledge” discovery. Structured Numerical or Coded Information 10% Unstructured or Semi-structured Information 90%

  11. Text Mining Applications • Marketing: Discover distinct groups of potential buyers according to a user text based profile • e.g. amazon • Industry: Identifying groups of competitors web pages • e.g., competing products and their prices • Job seeking: Identify parameters in searching for jobs • e.g., www.flipdog.com

  12. Rövidtörténetiáttekintés • 1958 (Luhn): lényegesszavakkiemelése a szövegből • 1961 (Doyle): a szavakgyakoriságalapúelemzése • 1980: információkinyerés (IE) explicit megjelenése • 1988 (Swanson): szövegbányászatmegjelenése • 1995: módszerekkiszélesedése • 2000: iparialkalmazásokelterjedése, előkészítésimódszerekfinomodása • 2005: szemantikaalapúmegközelítéserősödése • 2010: hatékonyságjavulás

  13. Text Mining • How does it relate to data mining in general? • How does it relate to computational linguistics? • How does it relate to information retrieval?

  14. Text Mining Tasks • Exploratory Data Analysis • Using text to form hypotheses about diseases (Swanson and Smalheiser, 1997). • Information Extraction • (Semi)automatically create (domain specific) knowledge bases, and then use standard data-mining techniques. • Bootstrapping methods (Riloff and Jones, 1999). • Text Classification • Useful intermediary step for information extraction • Bootstrapping method using EM (Nigam et al., 2000).

  15. A szövegbányászat

  16. Challenges in Text Mining • Data collection is “free text” • Data is not well-organized • Semi-structured or unstructured • Natural language text contains ambiguities on many levels • Lexical, syntactic, semantic, and pragmatic • Learning techniques for processing text typically need annotated training examples • Consider bootstrapping techniques

  17. Challenges in Data Exploration • How can valid inference links be found without succumbing to combinatorial explosion of possibilities? • Need better models of lexical relationships and semantic constraints (very hard) • How should the information be presented to the human experts to facilitate their exploration?

  18. Text Mining Methods • Information Retrieval • Indexing and retrieval of textual documents • Information Extraction • Extraction of partial knowledge in the text • Web Mining • Indexing and retrieval of textual documents and extraction of partial knowledge using the web • Clustering • Generating collections of similar text documents

  19. Dokumentumokábrázolása • Cél a tartalmielemzés • A formátum is hordozhattartalmielemeket • Dokumentumfelépítésiszintjei: • karakter(kódolás,..) • unigram, bigram, n-gram • szó • szóalak, alapszó, ragozás • kifejezés • szóvagyszólánc • fogalom • áttételes, absztrakt • Azalapszintstatisztikaialapú, a felső ontológiaalapu

  20. Dokumentummodellek

  21. A dokumentumfeldolgozástipikusműveletei • fogalmakcsatoltelőfordulásainakmegkeresése • fogalmakelőfordulásigyakoriságai • fogalmakrelevanciái • Mintakeresés • kapottszabályokmegjelenítése • trend elemezés • Véleményelemzés • Kivonatolás • eltéréskiemelés • hasonlóságmérése • fogalmaktársítása • szótárkészítés

  22. Find: • A set (ranked) of documents that are relevant to the query Document Document Ranked Documents Document Information Retrieval Documents source • Given: • A source of textual documents • A user query (text based) IR System Query E.g. Spam / Text

  23. Intelligent Information Retrieval • meaning of words • Synonyms “buy” / “purchase” • Ambiguity “bat” (baseball vs. mammal) • order of words in the query • hot dog stand in the amusement park • hot amusement stand in the dog park • user dependency for the data • direct feedback • indirect feedback • authorityof the source • IBM is more likely to be an authorized source then my second far cousin

  24. Information Extraction (IE) • Extract domain-specific information from natural language text • Need a dictionary of extraction patterns (e.g., “traveled to <x>” or “presidents of <x>”) • Constructed by hand • Automatically learned from hand-annotated training data • Need a semantic lexicon (dictionary of words with semantic category labels) • Typically constructed by hand

  25. What is Information Extraction? • Given: • A source of textual documents • A well defined limited query (text based) • Find: • Sentences with relevant information • Extract the relevant information and ignore non-relevant information (important!) • Link related information and output in a predetermined format

  26. Challenges in IE • Automatic learning methods are typically supervised (i.e., need labeled examples) • But annotating training data is a time-consuming and expensive task. • Can we develop better unsupervised algorithm? • Can we make better use of a small set of labeled example?

  27. Information Extraction: Example • Salvadoran President-elect Alfredo Cristiania condemned the terrorist killing of Attorney General Roberto Garcia Alvarado and accused the Farabundo Marti Natinal Liberation Front (FMLN) of the crime. … Garcia Alvarado, 56, was killed when a bomb placed by urban guerillas on his vehicle exploded as it came to a halt at an intersection in downtown San Salvador. … According to the police and Garcia Alvarado’s driver, who escaped unscathed, the attorney general was traveling with two bodyguards. One of them was injured. • Incident Date:19 Apr 89 • Incident Type:Bombing • Perpetrator Individual ID:“urban guerillas” • Human Target Name:“Roberto Garcia Alvarado” • ...

  28. What is Information Extraction? Documents source Query 1 (E.g. job title) Query 2 (E.g. salary) Extraction System Combine Query Results Relevant Info 1 Ranked Documents Relevant Info 2 Relevant Info 3

  29. Why Mine the Web? • Enormous wealth of textual information on the Web. • Book/CD/Video stores (e.g., Amazon) • Restaurant information (e.g., Zagats) • Car prices (e.g., Carpoint) • Lots of data on user access patterns • Web logs contain sequence of URLs accessed by users • Possible to retrieve “previously unknown” information • People who ski also frequently break their leg. • Restaurants that serve sea food in California are likely to be outside San-Francisco

  30. Web 1. Doc1 2. Doc2 3. Doc3 . . Mining the Web Documents source Spider IR / IE System Query Ranked Documents

  31. Challenge: Develop new Web mining algorithms to . . . • Exploit hyper-links and access patterns. • Be adaptable to its documents source Unique Features of the Web • The Web is a huge collection of documents where many contain: • Hyper-link information • Access and usage information • The Web is very dynamic • Web pages are constantly being generated (removed)

  32. Intelligent Web Search • Combine the intelligent IR tools • meaning of words • orderof words in the query • user dependency for the data • authorityof the source • With the unique web features • retrieve Hyper-link information • utilize Hyper-link as input

  33. Find: • Several clusters of documents that are relevant to each other Doc Doc Doc Doc Doc Doc Doc Doc Doc Doc What is Clustering ? Documents source • Given: • A source of textual documents • Similarity measure • e.g., how many words are common in these documents Similarity measure Clustering System

  34. Text characteristics: Outline • Large textual data base • High dimensionality • Several input modes • Dependency • Ambiguity • Noisy data • Not well structured text

  35. Text characteristics • Large textual data base • Efficiency consideration • over 2,000,000,000 web pages • almost all publications are also in electronic form • High dimensionality (Sparse input) • Consider each word/phrase as a dimension • Several input modes • e.g., Web mining: information about user is generated by semantics, browse pattern and outside knowledgebase.

  36. Text characteristics • Dependency • relevant information is a complex conjunction of words/phrases • e.g., Document categorization. Pronoun disambiguation. • Ambiguity • Word ambiguity • Pronouns (he, she …) • “buy”, “purchase” • Semantic ambiguity • The king saw the rabbit with his glasses.

  37. Text characteristics • Noisy data • Example: Spelling mistakes • Not well structured text • Chat rooms • “r u available ?” • “Hey whazzzzzz up” • Speech

  38. Szövegfeldolgozórendszerekarchitektúrája • Modulok: • Előfeldolgozó • Konvertálás, Tisztítás, Redukálás • Alapműveletek • Klaszterezés, Osztályozás, Mintakeresés • Megjelenítés • GUI, 3D, lényegkiemelés • Visszacsatolás • Módszerértékelése, paraméterkorrekció, iteráció • Adatstruktúrák: • dokumentumforráskészlet • transzformáltdokumentumok • Indexek • Szótárak • metaadatok (nyelv,..,)

  39. Szövegfeldolgozórendszerekarchitektúrája Séma adatbázisok dokumentum Dokumentumokbegyűjtése Dokumentumokelőfeldolgozása Dokumentumokarchiválása e-mail szöveg Dokumentumoklekérdezése Iteratívdialóguskezelés Feldolgozóalapalgoritmusok Külső adatbázisok felhasználó

  40. Feldolgozásieljárások • A szövegfeldolgozásieljárásokcélja: hatékonyinformációlekérdezés, keresés • Különböző szintű lekérdezések: • Keressükazondokumentumokat, amelybenszerepel a labdaszó, de nemszerepel a gólszó • Keressükazondokumentumokat, amelybenszerepel a labdaszóvalamelyalakja • Keressükazondokumentumokat, amelybenegyüttszerepel a labdaés a gyártásszó • Keressükazondokumentumokat, amely a focirólszól • Keressükazondokumentumokat, amelyekhasznosaklehetnek a futbalistáknak

  41. Szövegbányászatáttekintés

  42. Text mining process

  43. Text mining process • Text preprocessing • Syntactic/Semantic text analysis • Features Generation • Bag of words • Features Selection • Simple counting • Statistics • Text/Data Mining • Classification- Supervised learning • Clustering- Unsupervised learning • Analyzing results

  44. Syntactic / Semantic text analysis • Part Of Speech (pos) tagging • Find the corresponding pos for each word e.g., John (noun) gave (verb) the (det) ball (noun) • ~98% accurate. • Word sense disambiguation • Context based or proximity based • Very accurate • Parsing • Generates a parse tree (graph) for each sentence • Each sentence is a stand alone graph

  45. Text Mining: Classification definition • Given: a collection of labeled records (training set) • Each record contains a set of features (attributes), and the true class (label) • Find: a model for the class as a function of the values of the features • Goal: previously unseen records should be assigned a class as accurately as possible • A test set is used to determine the accuracy of the model. Usually, the given data set is divided into training and test sets, with training set used to build the model and test set used to validate it

  46. Text classification (TC) • Tag a document as belonging to one of a set of pre-defined classes • “This does not lead to discovery of new information…” (Hearst, 1999). • Many practical uses • Group documents into different domains (useful for domain specific information extraction) • Learn reading interests of users • Automatically sort e-mail • On-line New Event Detection

  47. Challenges in TC • Like IE, also need lots of labeled examples as training data • After a user has labeled 1000 UseNet news articles, the system was only right ~50% of the time at selecting articles interesting to the user. • What other sources of information can reduce the need for labeled examples?

  48. Similarity Measures: • Euclidean Distance if attributes are continuous • Other Problem-specific Measures • e.g., how many words are common in these documents Text Mining: Clustering definition • Given: a set of documents and a similarity measure among documents • Find: clusters such that: • Documents in one cluster are more similar to one another • Documents in separate clusters are less similar to one another • Goal: • Finding a correct set of documents

  49. Supervised vs. Unsupervised Learning • Supervised learning (classification) • Supervision: The training data (observations, measurements, etc.) are accompanied by labels indicating the class of the observations • New data is classified based on the training set • Unsupervised learning (clustering) • The class labels of training data is unknown • Given a set of measurements, observations, etc. with the aim of establishing the existence of classes or clusters in the data

  50. Evaluation:What Is Good Classification? • Correct classification: The known label of test sample is identical with the class result from the classification model • Accuracy ratio: the percentage of test set samples that are correctly classified by the model • A distance measure between classes can be used • e.g., classifying “football” document as a “basketball” document is not as bad as classifying it as “crime”.

More Related