530 likes | 657 Views
Szövegbányászat és dokumentum kezelés. Előadó : Kecskeméti Gábor , Ph.D. Elérhetőség : A/1 336. szoba Gyakorlat : Szerda 8-10, A/1 204 labor Előadás : Szerda 10-12, A/5 202 vegyipari gépek tsz . Konzultáció : Szerda 12-14, A/1 336 Elérhetőség : kecskemeti@iit.uni-miskolc.hu
E N D
Szövegbányászatésdokumentumkezelés Előadó: KecskemétiGábor, Ph.D. Elérhetőség: A/1 336. szoba Gyakorlat: Szerda 8-10, A/1 204 labor Előadás: Szerda 10-12, A/5 202 vegyiparigépektsz. Konzultáció: Szerda 12-14, A/1 336 Elérhetőség: kecskemeti@iit.uni-miskolc.hu Weboldal: http://www.iit.uni-miskolc.hu/iitweb/opencms/users/kecskemetig
Ütemterv • Szövegbányászat alapjai és feladatköre. Dokumentum modellek, IR műveletek áttekintése • Invertált indexek. Indexek hatékonysági kérdései. Közelítő keresési módszerek, szerkesztési távolság • Dokumentum vektor modell, dokumentumok előfeldolgozása. PCA redukció • Dokumentumok osztályozása és klaszterezése • Dokumentum kivonatolási módszerek, tezaurusz karbantartása. • Oracle Text és az SQLServer Fulltext működése, használata • Szabadszöveges keresése web környezetben, kereső motorok, page rank. • Dokumentumok a szerkesztői munkákban, DocBook, PDF, XSLT-FO • DITA modell, Open DITA Toolkit • Formális nyelvek áttekintése, osztályozásuk, szerepük. • Természetes nyelvek , szótövező algoritmusok, nyelvtan • Természetes nyelvi lekérdező felületek működési modellje. • NLI kezelés aktuális kérdései, kitekintés a fejlődési alternatívákra
Követelményrendszer • Évköziszámonkérés: • gyakorlatifeladatokonkisfeladatok • Aláírásfeltétele: • 5 gyakorlatióránfeladottfeladatmegoldásaésmegvédése • Vizsga: • CSAK szóbeli, létszámtólfüggőenegyénivagyközösvizsgázás
Adminisztratív! • A 2012. 02. 15.-ei és a 2012. 02. 22.-ei előadásésgyakorlatelmarad! • Ezekhezhasonlóanrendszeresenmaradhatnak el előadások • ilyenkormindigelőrefogokszólni • A pótlásárakésőbbkerülsor a mostanióránmeghatározottnapokésidőpontokegyikén • Jelöljön meg mindenki 1-2 munkanapotésazonbelülegyidőintervallumotamelymegfelelszámára • Ezekközül a legtöbbeteknekelfogadhatóra (rendelkezésreállóteremfüggvényében) fogomallokálniazelmaradtórákpótlását • Pl: szerda 16-18
Nyersszöveg 1. Gyakorlatifeladat Web CSV • HTML tartalomkiszűrése: • Body elemenbelülitartalomkigyűjtése • a html jelölésekmegszüntetése: • <p> sz1 <a href=“”> sz2 </a> sz3 • sz1 sz2 sz3 • Statisztika: összesbetűkszáma, betűkszámosságánakmegállapításakülön-külön • CSV: betű, számosság CR • GUI: a képernyőrekerüljönkiírásraazösszesbetűszázalékoselőfordulásigyakoriságaazadottURLen (esetleghisztogramformában) URL bekérés letöltés Szűrés Statisztika Opcionálisanimplementálandó GUI %-oskijelzés
Text Mining Definition • Many definitions in the literature “The non trivial extraction of implicit, previously unknown, and potentially useful information from (large amount of) textual data”. • An exploration and analysis of textual (natural-language) data by automatic and semi automatic means to discover new knowledge.
Text Mining Definition • What is “previously unknown”information ? • Strict definition • Information that not even the writer knows. • e.g., Discovering a new method for a hair growth that is described as a side effect for a different procedure • Lenient definition • Rediscover the information that the author encoded in the text • e.g., Automatically extracting a product’s name from a web-page.
What Is Text Mining? “The objective of Text Mining is to exploit information contained in textual documents in various ways, including …discovery of patterns and trends in data, associations among entities, predictive rules, etc.” (Grobelnik et al., 2001) “Another way to view text data mining is as a process of exploratory data analysis that leads to heretofore unknown information, or to answers for questions for which the answer is not currently known.” (Hearst, 1999)
Motivation for Text Mining • Approximately 90% of the world’s data is held in unstructured formats (source: Oracle Corporation) • Information intensive business processes demand that we transcend from simple document retrieval to “knowledge” discovery. Structured Numerical or Coded Information 10% Unstructured or Semi-structured Information 90%
Text Mining Applications • Marketing: Discover distinct groups of potential buyers according to a user text based profile • e.g. amazon • Industry: Identifying groups of competitors web pages • e.g., competing products and their prices • Job seeking: Identify parameters in searching for jobs • e.g., www.flipdog.com
Rövidtörténetiáttekintés • 1958 (Luhn): lényegesszavakkiemelése a szövegből • 1961 (Doyle): a szavakgyakoriságalapúelemzése • 1980: információkinyerés (IE) explicit megjelenése • 1988 (Swanson): szövegbányászatmegjelenése • 1995: módszerekkiszélesedése • 2000: iparialkalmazásokelterjedése, előkészítésimódszerekfinomodása • 2005: szemantikaalapúmegközelítéserősödése • 2010: hatékonyságjavulás
Text Mining • How does it relate to data mining in general? • How does it relate to computational linguistics? • How does it relate to information retrieval?
Text Mining Tasks • Exploratory Data Analysis • Using text to form hypotheses about diseases (Swanson and Smalheiser, 1997). • Information Extraction • (Semi)automatically create (domain specific) knowledge bases, and then use standard data-mining techniques. • Bootstrapping methods (Riloff and Jones, 1999). • Text Classification • Useful intermediary step for information extraction • Bootstrapping method using EM (Nigam et al., 2000).
Challenges in Text Mining • Data collection is “free text” • Data is not well-organized • Semi-structured or unstructured • Natural language text contains ambiguities on many levels • Lexical, syntactic, semantic, and pragmatic • Learning techniques for processing text typically need annotated training examples • Consider bootstrapping techniques
Challenges in Data Exploration • How can valid inference links be found without succumbing to combinatorial explosion of possibilities? • Need better models of lexical relationships and semantic constraints (very hard) • How should the information be presented to the human experts to facilitate their exploration?
Text Mining Methods • Information Retrieval • Indexing and retrieval of textual documents • Information Extraction • Extraction of partial knowledge in the text • Web Mining • Indexing and retrieval of textual documents and extraction of partial knowledge using the web • Clustering • Generating collections of similar text documents
Dokumentumokábrázolása • Cél a tartalmielemzés • A formátum is hordozhattartalmielemeket • Dokumentumfelépítésiszintjei: • karakter(kódolás,..) • unigram, bigram, n-gram • szó • szóalak, alapszó, ragozás • kifejezés • szóvagyszólánc • fogalom • áttételes, absztrakt • Azalapszintstatisztikaialapú, a felső ontológiaalapu
A dokumentumfeldolgozástipikusműveletei • fogalmakcsatoltelőfordulásainakmegkeresése • fogalmakelőfordulásigyakoriságai • fogalmakrelevanciái • Mintakeresés • kapottszabályokmegjelenítése • trend elemezés • Véleményelemzés • Kivonatolás • eltéréskiemelés • hasonlóságmérése • fogalmaktársítása • szótárkészítés
Find: • A set (ranked) of documents that are relevant to the query Document Document Ranked Documents Document Information Retrieval Documents source • Given: • A source of textual documents • A user query (text based) IR System Query E.g. Spam / Text
Intelligent Information Retrieval • meaning of words • Synonyms “buy” / “purchase” • Ambiguity “bat” (baseball vs. mammal) • order of words in the query • hot dog stand in the amusement park • hot amusement stand in the dog park • user dependency for the data • direct feedback • indirect feedback • authorityof the source • IBM is more likely to be an authorized source then my second far cousin
Information Extraction (IE) • Extract domain-specific information from natural language text • Need a dictionary of extraction patterns (e.g., “traveled to <x>” or “presidents of <x>”) • Constructed by hand • Automatically learned from hand-annotated training data • Need a semantic lexicon (dictionary of words with semantic category labels) • Typically constructed by hand
What is Information Extraction? • Given: • A source of textual documents • A well defined limited query (text based) • Find: • Sentences with relevant information • Extract the relevant information and ignore non-relevant information (important!) • Link related information and output in a predetermined format
Challenges in IE • Automatic learning methods are typically supervised (i.e., need labeled examples) • But annotating training data is a time-consuming and expensive task. • Can we develop better unsupervised algorithm? • Can we make better use of a small set of labeled example?
Information Extraction: Example • Salvadoran President-elect Alfredo Cristiania condemned the terrorist killing of Attorney General Roberto Garcia Alvarado and accused the Farabundo Marti Natinal Liberation Front (FMLN) of the crime. … Garcia Alvarado, 56, was killed when a bomb placed by urban guerillas on his vehicle exploded as it came to a halt at an intersection in downtown San Salvador. … According to the police and Garcia Alvarado’s driver, who escaped unscathed, the attorney general was traveling with two bodyguards. One of them was injured. • Incident Date:19 Apr 89 • Incident Type:Bombing • Perpetrator Individual ID:“urban guerillas” • Human Target Name:“Roberto Garcia Alvarado” • ...
What is Information Extraction? Documents source Query 1 (E.g. job title) Query 2 (E.g. salary) Extraction System Combine Query Results Relevant Info 1 Ranked Documents Relevant Info 2 Relevant Info 3
Why Mine the Web? • Enormous wealth of textual information on the Web. • Book/CD/Video stores (e.g., Amazon) • Restaurant information (e.g., Zagats) • Car prices (e.g., Carpoint) • Lots of data on user access patterns • Web logs contain sequence of URLs accessed by users • Possible to retrieve “previously unknown” information • People who ski also frequently break their leg. • Restaurants that serve sea food in California are likely to be outside San-Francisco
Web 1. Doc1 2. Doc2 3. Doc3 . . Mining the Web Documents source Spider IR / IE System Query Ranked Documents
Challenge: Develop new Web mining algorithms to . . . • Exploit hyper-links and access patterns. • Be adaptable to its documents source Unique Features of the Web • The Web is a huge collection of documents where many contain: • Hyper-link information • Access and usage information • The Web is very dynamic • Web pages are constantly being generated (removed)
Intelligent Web Search • Combine the intelligent IR tools • meaning of words • orderof words in the query • user dependency for the data • authorityof the source • With the unique web features • retrieve Hyper-link information • utilize Hyper-link as input
Find: • Several clusters of documents that are relevant to each other Doc Doc Doc Doc Doc Doc Doc Doc Doc Doc What is Clustering ? Documents source • Given: • A source of textual documents • Similarity measure • e.g., how many words are common in these documents Similarity measure Clustering System
Text characteristics: Outline • Large textual data base • High dimensionality • Several input modes • Dependency • Ambiguity • Noisy data • Not well structured text
Text characteristics • Large textual data base • Efficiency consideration • over 2,000,000,000 web pages • almost all publications are also in electronic form • High dimensionality (Sparse input) • Consider each word/phrase as a dimension • Several input modes • e.g., Web mining: information about user is generated by semantics, browse pattern and outside knowledgebase.
Text characteristics • Dependency • relevant information is a complex conjunction of words/phrases • e.g., Document categorization. Pronoun disambiguation. • Ambiguity • Word ambiguity • Pronouns (he, she …) • “buy”, “purchase” • Semantic ambiguity • The king saw the rabbit with his glasses.
Text characteristics • Noisy data • Example: Spelling mistakes • Not well structured text • Chat rooms • “r u available ?” • “Hey whazzzzzz up” • Speech
Szövegfeldolgozórendszerekarchitektúrája • Modulok: • Előfeldolgozó • Konvertálás, Tisztítás, Redukálás • Alapműveletek • Klaszterezés, Osztályozás, Mintakeresés • Megjelenítés • GUI, 3D, lényegkiemelés • Visszacsatolás • Módszerértékelése, paraméterkorrekció, iteráció • Adatstruktúrák: • dokumentumforráskészlet • transzformáltdokumentumok • Indexek • Szótárak • metaadatok (nyelv,..,)
Szövegfeldolgozórendszerekarchitektúrája Séma adatbázisok dokumentum Dokumentumokbegyűjtése Dokumentumokelőfeldolgozása Dokumentumokarchiválása e-mail szöveg Dokumentumoklekérdezése Iteratívdialóguskezelés Feldolgozóalapalgoritmusok Külső adatbázisok felhasználó
Feldolgozásieljárások • A szövegfeldolgozásieljárásokcélja: hatékonyinformációlekérdezés, keresés • Különböző szintű lekérdezések: • Keressükazondokumentumokat, amelybenszerepel a labdaszó, de nemszerepel a gólszó • Keressükazondokumentumokat, amelybenszerepel a labdaszóvalamelyalakja • Keressükazondokumentumokat, amelybenegyüttszerepel a labdaés a gyártásszó • Keressükazondokumentumokat, amely a focirólszól • Keressükazondokumentumokat, amelyekhasznosaklehetnek a futbalistáknak
Text mining process • Text preprocessing • Syntactic/Semantic text analysis • Features Generation • Bag of words • Features Selection • Simple counting • Statistics • Text/Data Mining • Classification- Supervised learning • Clustering- Unsupervised learning • Analyzing results
Syntactic / Semantic text analysis • Part Of Speech (pos) tagging • Find the corresponding pos for each word e.g., John (noun) gave (verb) the (det) ball (noun) • ~98% accurate. • Word sense disambiguation • Context based or proximity based • Very accurate • Parsing • Generates a parse tree (graph) for each sentence • Each sentence is a stand alone graph
Text Mining: Classification definition • Given: a collection of labeled records (training set) • Each record contains a set of features (attributes), and the true class (label) • Find: a model for the class as a function of the values of the features • Goal: previously unseen records should be assigned a class as accurately as possible • A test set is used to determine the accuracy of the model. Usually, the given data set is divided into training and test sets, with training set used to build the model and test set used to validate it
Text classification (TC) • Tag a document as belonging to one of a set of pre-defined classes • “This does not lead to discovery of new information…” (Hearst, 1999). • Many practical uses • Group documents into different domains (useful for domain specific information extraction) • Learn reading interests of users • Automatically sort e-mail • On-line New Event Detection
Challenges in TC • Like IE, also need lots of labeled examples as training data • After a user has labeled 1000 UseNet news articles, the system was only right ~50% of the time at selecting articles interesting to the user. • What other sources of information can reduce the need for labeled examples?
Similarity Measures: • Euclidean Distance if attributes are continuous • Other Problem-specific Measures • e.g., how many words are common in these documents Text Mining: Clustering definition • Given: a set of documents and a similarity measure among documents • Find: clusters such that: • Documents in one cluster are more similar to one another • Documents in separate clusters are less similar to one another • Goal: • Finding a correct set of documents
Supervised vs. Unsupervised Learning • Supervised learning (classification) • Supervision: The training data (observations, measurements, etc.) are accompanied by labels indicating the class of the observations • New data is classified based on the training set • Unsupervised learning (clustering) • The class labels of training data is unknown • Given a set of measurements, observations, etc. with the aim of establishing the existence of classes or clusters in the data
Evaluation:What Is Good Classification? • Correct classification: The known label of test sample is identical with the class result from the classification model • Accuracy ratio: the percentage of test set samples that are correctly classified by the model • A distance measure between classes can be used • e.g., classifying “football” document as a “basketball” document is not as bad as classifying it as “crime”.