210 likes | 391 Views
Text Mining Класификација. Изработил: Ментор: Коста Михајлов Доц. Д-р Слободан Калајџиски. Вовед. - Што претставува еден ТК процес?
E N D
Text MiningКласификација Изработил: Ментор: Коста Михајлов Доц. Д-р Слободан Калајџиски
Вовед • - Што претставува еден ТК процес? • Ако е дадено множество на текстуални документи и множестно на категории, процесот на пронаоѓање на точната категорија за секој документ претставува ТК • „knowledge engineering“ • знаењето за категориите е директно дефинирано во системот • „machine learning(ML)“ • еден генерален индуктивен процес гради класификатор со тоа што учи од множество на претходно класифицирани документи
Примена на класификација на текст a.Индексирање на текст со користење на контролиран лексикон b.Сортирање на документи и филтрирање на текст - точно една категорија - мал број на категории - online c.Хиерархиско класифицирање на Веб страници - Ограничен број на документи по категорија
ДЕФИНИЦИЈА НА ПРОБЛЕМОТ F : D × C → {0, 1} a.Еднозначна наспроти Повеќезначна класификација b.Документ-Ориенирана наспроти Категориски-Ориентирана класификација c.Тврда наспроти Мека класификација • статус вредност на класификацијата (CSV-categorization status value) праг за припадност на еден документ во некоја категорија? - Фиксен праг, Пропорционално доделување ...
РЕПРЕЗЕНТАЦИЈА НА ДОКУМЕНТИ • вектори на својства(feature vectors) • bag-of-words • бинарно доделување на тежина • TF-IDF a.ИзбирањенаСвојства b.Редуцирањенадимензијатасопомошнаизвлекувањенасвојства - групирање на зборовите кои имаат исто значење - латентно семантичко индексирање
Пристап на конструирање на знаење CONSTRUE систем If DNF(Дисјунктно нормална форма)formula then category else !category If ((wheat & farm) or (wheat & commodity) or (bushels & export) or (wheat & tonnes) or (wheat & winter & ¬soft)) then Wheat else ¬Wheat - Најдобри перформанси пријавени досега - Над 90 % точност???
ПРИСТАП НА МАШИНСКО УЧЕЊЕ ВО ТC • надгледувано учење Одлука по прашањата: • Одредување на категории на класификација • Обезбедување тренинг множество за секоја од категориите • Треба да се одредат својствата кои ги репрезентираат документите • треба да се одлучи кој алгоритам ќе се користи за класификација
a.Веројатносни класификатори • Наивни баесови класификатори • Се засноваат на функцијата на статус вредност како веројатност • Маргиналната веројатност е константна вредност .
b.Логистичка регресија • Возможно е условната веројатност да се пресмета директно • Каде e вредноста за членство во некоја категорија(се користи наместо за поедноставна нотација), е репрезентацијата на документот во просторот на својства, се вектор на параметри на моделот, и е функција на врска:
c.Класификаторисодрванаодлучувањеc.Класификаторисодрванаодлучување • d.Класификатори со правилана одлучување • RIPPER(repeated incremental pruning to produce error reduction) (Cohen, 1995a;1995b; Cohen & Singer 1996).
e.Методи на регресија • Матрица на зависност помеѓу својствата и категориите • Метод на најмали квадрати • D е матрица на репрезентација на тренинг документите, • О е матрица на вистинските доделувања на категории, • и Норма на Фробиенус(Weisstein)
f.RocchioМетоди • Rochioкласификаторот извршува класификација со тоа што го пресметува растојанието од даден документ до прототипите дефинирани за категориите • Rochioметодот е многу лесен за имплементација, и е едноставен за пресметување. • Неговите перформанси сепак не се задоволителни и многу ретко се користи. • Како евалуатор за други алгоритми • Во комитети од класификатори
g.Невронскимрежи • Влез: елементите од векторот на својства на документот • Излез: CSV вредностите во однос на категориите • Backpropagationтренинг • Доколку се случи грешка (не се класифицира правилно некој документ), грешката се проследува надолу низ мрежата при што се рекалибрираат тежините на врските со цел да се минимизира грешката. • Перцептрон (само влезни и излезни јазли) еквивалентен на линеарен класификатор
h.Класификаториводенипопример • lazy learners • едноставно зачувување на репрезентациите на тренинг документите заедно со нивните категории • kNN (к-најблизок сосед • дали најсличните k документи со испитуваниот документ припаѓаат на категоријата c • Одредување на k: к=2; валидациско множество
i.Машинисоносечкивектори • хипер-рамнина во просторот на својства • Маргина :растојанието помеѓу најблиската позната позитивна инстанца, и најблиската позната негативна инстанца • Својства: • мал број на тренинг примероци • независно од големината на просторот на својства
j.Комитети од Класификатори: Bagging and Boosting • Тим од експерти , со комбинирање на своето знаење можат да продуцираат подобри резултати отколу еден експерт сам. • Bagging • индивидуалните класификатори се тренираат паралелно на исто тренинг множество • тежинска линеарна комбинација или едностнавно гласање? • Boosting • класификаторите се тренираат секвенцијално • AdaBoost
Користење на нелабелирани податоци • Максимизација на очекување(ЕМ) • Да понуди можност за доделување на оцена за припадност и преку класифицираните и преку некласифицираните документи • Алгоритам: • моделот се тренира со класифицираните документи • итерирај додека не се дојде до конвергенција кон локалниот максимум • Е-чекор: нелабелираните документи се класифицираат по добиениот модел од почетниот чекор • М-чекор: моделот се тренира и со класифицираните документи и со некласифицираните • Котренинг • Два или повеќе погледи за ист документ • Резултат: • До 60% редуцирање на тренинг множеството без губиток на перформанси
Евалуација на класификаторите a.Мерки за Перформанси Recall- процент на точно класифицирани документи за дадена категоријаво однос на сите документи кои биле касифицирани. Precission- Бројот на документи кои биле класифицирани во дадена категорија поделен со бројот на документи кои требало да бидат класифицирани во истата. b.Колекции за тестирање Нужни услови: • идентична колекција • исти мерки за перформанси • исти претходни методи c.Споредба помеѓу класификаторите • Најдобри Перформанси: SVM, AdaBoost, kNNи методи на регресија • Најлоши перформанси: Rochioи Naïve Bayes • Варијабилни перформанси: Невронски мрежи и дрва на одлучување
Користена Литература • Liu, H., Li, J., & Wong, L. (н.д.). A Comparative Study on Feature Selection and Classification Methods. Laboratories for Information Technology, 21 Heng Mui Keng Terr, 119613 Singapore . • Moore, A. (2003). Informatin Gain. Carnegie Mellon University . • Rule of thumb. (н.д.). Преземено 2 2, 2009 од Wikipedia: http://en.wikipedia.org/wiki/Rule_of_thumb • Suppoert Vector Machine. (н.д.). Преземено February 6, 2009 од Wikipedia: http://en.wikipedia.org/wiki/Support_vector_machine • Tf-idf weighting. (н.д.). Преземено February 8, 2008 од http://nlp.stanford.edu/IR-book/html/htmledition/tf-idf-weighting-1.html • W.Cohen, W. (н.д.). Text Classification: Advanced Tutorial. Преземено February 5, 2009, од VideoLectures.net: http://videolectures.net/mlas06_cohen_tc/ • Weisstein, E. W. (н.д.). Chi-Squared Distribution. Преземено January 25, 2009, одWolframMathWorld: http://mathworld.wolfram.com/Chi-SquaredDistribution.html • Wikipedia. (1997). BackPropagation. Преземено од http://en.wikipedia.org: http://en.wikipedia.org/wiki/BackPropagation • Ye, N. (2003). HandBook of Data Mining. Mahwah, New Jersey London: Lawrence Erlbaum Associates. • Feldman, R., & Sagner, J. Classification, Algorithm Analisys. In R. Feldman, & J. Sagner, Text Mining Handbook. Cambridge. • Е.Maron, М. (1960). Probabilistic Indexing and Information Retrieval. Journal of ACM .