1 / 157

DATA MINING

DATA MINING. Лекционен курс, Магистърска програма, Катедра “Компютърни системи”, ФМИ, 2006 година. Съдържание:. І. Въведение ІІ. Data Warehouse и OLAP- технологията за Data Mining ІІІ. Преобразуване на данните ІV. Data Mining примитиви, езици и системи

umika
Download Presentation

DATA MINING

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. DATA MINING Лекционен курс, Магистърска програма, Катедра “Компютърни системи”, ФМИ, 2006 година

  2. Съдържание: І. Въведение ІІ.Data Warehouse и OLAP-технологията за Data Mining ІІІ. Преобразуване на данните ІV. Data Mining примитиви, езици и системи V. Описание на понятията, характеризиране и сравняване VІ. Mining- правила за свързване в големи БД VІІ. Класификация и прогнозиране

  3. VІІІ. Клъстерен анализ • ІХ. Приложения и тенденции в развитието на Data Mining системите

  4. І.Въведение • Увод • Data Mining • Data Mining и типа на данните • Функционалност на Data Mining • Patterns • Класификация на Data Mining системите • Предимства на Data Mining.

  5. 1. Увод • Огромно е количеството информация, която трябва да се обработва от съвременните DB системи • Необходими са механизми за бърза и интелигентна обработка на информацията • Data Mining са следващия етап от развитието на DB технологиите.

  6. Data Collection и Data Creation (1960) Data Management Systems (1970-1980) Advanced DB Системи (средата на 80-те) WEB-базирани DB Системи (90-те) Data Warehousing и Data Mining (края на 80-те) Нова генерация интегрирани информационни системи (2000)

  7. Data Collection и Data Creation: • Развитие в началото на 60-те години • На базата на елементарна файлова система • Database Management Systems: • през 70-те и началото на 80-те • Развитие на йерархични и мрежови DB с-ми • Релационни бази от данни • Създаване на инструменти за моделиране на БД • Индексация и техники за организация на БД (бинарни дървета, хеширане и др.) • Създаване на SQL за обработка на заявки • Създаване на потребителски интерфейс- форми, рапорти, отчети • Появява се OLTP (On-line transaction Protocol)

  8. Advanced DB системи • От средата на 80-те • Допълнителни DB модели- разширен-релационен, обектно-релационен, обектно-ориентиран, дедуктивен и др. • Приложно-ориентиран модел- за обработка на мултимедия, дейности, знания. • WEB-базирани DB системи • От 90-те години • XML-базирани DB • WEBmining. • Data Warehousing и Data Mining • Data Warehousing и OLAP-технологията • Data Mining и обработката на знания • Нова генерация интегрирани информационни системи – от края на 2000г.

  9. 2. Data Mining • Целта е извличане на знания от огромно количество информация • В този смисъл се използват и понятията: • knowledge mining from DB, • knowledge extraction, • data/pattern analysis, • data archaeology и др. • Knowledge Discovery in Databases. (KDD) понякога се използва като синоним.

  10. Data Mining e стъпка в процеса на откриване на знания • Стъпка 1: Data cleaning -изчистване от шумове; • Стъпка 2: Data Integration-комбиниране на данни от различни източници; • Стъпка 3: Data selection -според целта; • Стъпка 4: Data transformation - в подходяща форма; • Стъпка 5: Data Mining – извличане и обработка, чрез интелигентни методи; • Стъпка 6: Pattern evaluation- поставяне на знанията в шаблони, позволяващи измерване и обработка; • Стъпка 7: Knowledge presentation – представяне на знанията.

  11. Архитектурата на типична Data Mining система се състои от: • Database, Data Warehouse или друго информационно хранилище. • Database server или Data Warehouse Server.

  12. Pattern Evaluation GUI Data Mining Engine Knowledge Base DB или Data Warehouse Server Data cleaning, Data Integration Filtering Data Warehouse DB

  13. Knowledge Base – област от знания, които могат да включват йерархии от понятия, необходими за организация на атрибутите и техните стойности в различни абстрактни нива. Те са необходими за специфициране на мета-данните, описващи данни от различни хетерогенни източници. • Data Mining Engine – това е основата на модела. Представлява съвкупност от функционални модели, решаващи задачите за определяне, характеризиране, асоцииране, класификация, клъстерен анализ и др.

  14. Pattern evaluation module – осъществява интерактивност на модела като се фокусира върху търсенето на най-подходящи шаблони. Така се постига по-високо ниво на формализация на семантиката. • GUI (Graphical User Interface) – позволява на потребителя да комуникира със системата, чрез заявки, задачи, търсене и обработка на знанията. Позволява разглеждането на data-структурите и визуализацията им в шаблони и други подходящи форми.

  15. Data mining интегрират технологии от различни дисциплини като: • DB-технологии; • Статистика; • Машинни науки; • Разпознаване на шаблони; • Мрежи; • Визуализация на данни; • Търсене на информация • Data анализ и др.

  16. 3. Data Mining и типа на обработваните данни Data Mining може да обработва информация от различни информационни хранилища: • Релационни бази от данни; • Data Warehouses; • Транзакционни бази от данни • Допълнителни Database системи • Файлове • WWW и др.

  17. 3.1. Релационни бази от данни • Database Management System (DMS) съдържа колекция от взаимносвързани данни и множество от софтуерни програми за управление на достъпа до данните – дефиниране на структурите, съхранение на данните, конкурентност, поделяне, предоставяне на достъпа до тях и др.Осигурява консистентност и сигурност на данните.

  18. Релационните бази от данни са колекция от таблици, всеки запис в които, притежава уникална идентификация.Таблиците притежават множество атрибути (fields) и записи(records).Релационната база от данни може да се разглежда като множество елементи (таблици) и връзките между тях. (entity relationships) • SQL-език за получаване на справки и заявки, които позволяват да се извлече част от информацията в БД, отговаряща на определени синтактически критерии. Езикът включва и агрегиращи функции като sum, avg,count, max, min и др.

  19. 3.2. Data Warehouses • Хранилище на колекции информация от различни източници. Те са резултат от процесите на изчистване, трансформация, интеграция, зареждане и периодично обновяване на данните. • В много случаи данните са дефинирани върху многоразмерна DB структура, като всяка размерност кореспондира с един или няколко източника на данни. • Физическата структура може да се разглежда като на релационни бази от данни, съхранени в многоразмерен Data-куб.

  20. DB1 DB2 DBn User User Query and Analisys Tools Clean Transform Integrate Load Data Ware-house

  21. Пример: • Фирма с 2 клона в 2 държави осигурява 4 услуги, обслужва 3 заявки и обработва оборота за 3 месеца. клонове заявки месеци Държа-ви услуги услуги

  22. Забележка: За описание на тази структура е подходящ On-line Analytical Processing (OLAP), който позволява представянето на данните на различни нива на абстракция. OLAP включва driven-down и roll-up операциите, осигуряващи различни нива на обобщаване.

  23. 3.3. Transactional Databases • Представляват файлове, всеки запис в които описва определена транзакция. • Всяка транзакция има уникален trans-ID и списък от елементи. • Може да включват и други таблици, асоциирани към основната, поддържащи допълнителна информация за елементите.

  24. 3.4. Advanced DB системи и Advanced DB приложения • Съвременните DB приложения трябва да обработват не само релационни, а и множество от други данни- чертежи, карти, мултимедия, WWW и др. • Изискват обработка на различни структури (обектни, неструктурирани, мултимедия и т.н.) • Тези изисквания се удовлетворяват чрез: обектно-ориентираните, обектно-релационните, пространствените, текст и мултимедийните, хетерогенните и наследени, WWWDB системи.

  25. 3.4.1. Обектно-ориентирани DB системи • Базират се на обектно-ориентираното програмиране. Основен елемент е обекта. • Обектът е свързан с: • Множество от стойности, които го описват(атрибутите в релац. модел) • Множество съобщения, чрез които обекта кореспондира с другите обекти (relationships); • Множество методи, осигуряващи изпълнението и обработката на съобщенията. В отговор методът връща стойност. • Обектите, поделящи общо множество от характеристики се групират в класове, които пък се групират в йерархии.

  26. 3.4.2. Обектно-релационни DB системи • Създадени са на базата на релационния модел • Елементите могат да бъдат обекти. • Този обект става все по-популярен при създаването на бизнес-системи. • Притежава допълнителни възможности за създаване на йерархични системи.

  27. 3.4.3. Пространствени DB системи • Използват се за обработка на графична информация. • Графичната информация може да се представи в: -Растерен формат (като схема от пиксели) или -Векторен формат (чрез скалиране) • Този тип данни може да се опише и чрез многоразмерен куб чрез OLAP на Data Warehouse.

  28. 3.4.4. Temporal DB и Time- SeriesDB системи • Това са релационни бази от данни, включващи атрибути, свързани с отчитане на времето, които имат различна семантика. • Time-series DB съхраняват последователността от стойности, които се променят динамично във времето.

  29. 3.4.5. Текстови и мултимедийни DB системи • Text DB- служат за текстово описание на обектите под формата на дълги изречения, параграфи, спецификации, грешки, рапорти за бъгове, предупредителни съобщения, бележки и други документи. • Те могат да бъдат структурирани по различен начин като e-mail messages, библиотеки, WWW-страници и т.н. • Data Mining използва тези типове БД за работа с Domain- ориентирани класификационни системи.

  30. Multimedia DB – служи за обработка на видео, графична и аудио-информация. • Видео и аудио-информацията са continuous media и тяхната обработка е много важна част от Data Mining. • Подходящите програмни средства дават възможност за описание на тези типове данни като многоразмерен мултимедиен куб, извличане на множество свойства от тези данни, както и използването на шаблони за сходство.

  31. 3.4.6. Хетерогеннии наследени DB системи • Heterogeneous DB- обектите на една БД могат да са различни от обектите в друга, но между тях могат да се осъществят взаимовръзки, като се изгражда хетерогенна БД. • LegalityDB – Много предприятия разполагат с добри системи за обработка на данни. Този вид БД свързват множество хетерогенни DB, като се свързват чрез интра или интер-компютърни мрежи. Напр. общата БД на училищата, като във всяко от тях се обработва различен тип БД.

  32. 3.4.7. WWWDB системи • Данните са свързани интерактивно; • Обработката се осъществява чрез различни механизми на търсене, както и чрез използване на шаблони. • Използват се при обработката на разнообразни WEB- услуги в мрежата.

  33. 4. Функционалност на Data Mining • Задачите, които Data Mining решава могат да се класифицират като: • Descriptive- описващи основните характеристики на данните в БД; • Predictive – преобразуващи и представящи интерфейса на данните, според текущите изисквания. • Понякога потребителите предварително знаят какви шаблони да използват за представяне на данните, а понякога търсят подходящия вид в процеса на работа. Затова се нуждаем от такава DB система, която да предоставя различни видове шаблони според нуждите и изискванията.

  34. Основните Data Mining функционалности: • Concept/Class Description – Characterization и Discrimination • Association Analysis • Classification и Prediction • Cluster Analysis • Outlier Analysis • Evolution Analysis

  35. 4.1. Concept/Class description: Characterization и Discrimination Данните могат да са свързани с класове или понятия. • Data Characterization – обобщаване на основните характеристики или свойства на целевия клас данни. Данните обикновено са резултат от потребителска заявка. Може да се използва OLAP roll-up операцията върху многоразмерен data-куб. Резултатът от обобщаването може да се представи в различна форма- диаграма, графика, многоразмерен куб, крива и т.н.

  36. Data Discrimination – сравняване на основните свойства на обектите от целевия клас с тези на обектите от един или няколко контрастиращи класове. • Целевия и контрастиращия класове се определят от потребителя и съответните data –обекти чрез заявка към БД. • Като резултат получаваме информация за сходството на обектите.

  37. 4.2. Association Analysis (свързващ анализ) • Изследва правилата за свързване. • Използва се най-често в електронната търговия (електронна количка) • Правилата за свързване са от вида: Х=> У: A1^A2^…^Am->B1^B2^…^Bn, където Ai, Bj са стойностите на двойките свързани атрибути. • Правилата се интерпретират като: Ако са изпълнени условията в Х, то се изпълняват и условията в У, където Х и У са обекти от две БД. • Пример: Ако age (X,”>18”) ^ money (X, “>20$”) => buys (X, “CD player”)

  38. 4.3. Classification и Prediction • Това е процес на търсене на модели за описание на понятията и класовете. • В този процес се вземат предвид съществуващи вече класификации. Прави се анализ на множеството известни до момента представяния. • Моделът може да се представи чрез различни форми като класификационни (if …then) правила, дърво на решения, математически формули или неутрални мрежи.

  39. 4.4. Cluster Analysis (Клъстерен анализ) • Базира се на принципа на максимизиране на сходството вътре в класовете и минимизиране на сходството извън тях. • Клъстерирането изисква обектите в клъстера да имат високо ниво на сходство, но да не си приличат с обектите от друг клъстер. • Всеки клъстер може да се разглежда като клас от обекти • Клъстерирането се използва и за формирането на таксономии.

  40. 4.5. Outlier Analysis • БД могат да съдържат обекти, които не поддържат основното поведение или модел на данните. Те се наричат Outliers и се определят от Data Mining системите като шумове. • Понякога, обаче, тези данни може да са по-интересни от останалите. Анализът на Outlier данните е свързан с Outlier Mining. • Откриват се чрез статистически тестове или чрез отдалечено измерване.

  41. 4.6. Evolution Analysis( Еволюционен анализ) • Описва поведенческите промени на обектите в периода на тяхното развитие. • Включва: characterization, discrimination, association, classification и клъстериране на променящите се във времето данни, като разглежда свойствата на обектите и възможностите за тяхното сравняване според сходствата им.

  42. 5. Patterns • Data Mining системите имат възможности да генерират хиляди, дори милиони шаблони или правила, но дали всички те са полезни и интересни за потребителите!? • Ще казваме, че един шаблон е интересен (полезен), ако е лесно разбираем за хората, валиден според тестването на данните, използваем и неизвестен до момента. • Тези шаблони представят знания.

  43. Има различни измервания, определящи степента на полезност на шаблона. Те се базират на статистиката и на анализа на съществуващите. Всяка мярка е свързана с определен от потребителя минимален праг(напр. 50%). • Обективни мерки са: • Support (X=>Y) = P(XUY) • Confidence (X=>Y) = P(X|Y) • Субективните мерки са свързани с мнението и опита на потребителите. Тук разглеждаме критерии като актуалност и потребителски очаквания.

  44. 6. Класификация на Data Mining системите • Data Mining е интердисциплинарна област, свързваща множество теории и технологии. Статистика DB технологии DataMining Визуализация Информатиката Обучение Други науки

  45. Според вида на БД • Според модела на данните - релационни, транзакционални, обектно-ориентирани, обектно-релационни и т.н. • Според специфичността на типовете – пространствени, променящи се във времето, текстови, мултимедийни, WWW mining системи и т.н.

  46. Според вида на представените знания • Според нивото на абстракция: - primitive- level knowledge; - multiple – level knowledge. • Според функционалностите- категоризация, дискриминация, характеризиране, асоциация, класификация, клъстериране, outliers, еволюционен анализ.

  47. Според вида на използваните технологии • Според степента на взаимодействието с потребителя – авторски системи, съвместно-проучвателни системи, системи, управлявани чрез заявки. • Според методите за анализ на данните – DB-ориентирани, Data Warehouse- ориентирани технологии, статистики, технологии за визуализация, за разпознаване на шаблони и т.н.

  48. Според приложенията • За бизнес и финанси • Телекомуникации, съобщения • Електронна търговия • Електронна поща и т.н.

  49. Основни резултати в Data Mining • Свързани с взаимодействието с потребителите: - В БД има различни видове знания, интересни за различни потребители. - Осъществява се взаимодействие на знанията на различни нива на абстракция. Вниманието се фокусира върху търсенето на подходящи шаблони. - Работа с domain-knowledge.

  50. - Data Mining Query Language (както SQL) увеличава възможностите за обработка на БД. - Различните техники за визуализация на резултатите на Data Mining, свързани с човешкото разбиране за работа с БД като таблици, дървета, криви, кръстословици и т.н. - Разработката на шаблони, според изискванията на потребителите.

More Related