1.61k likes | 1.87k Views
DATA MINING. Лекционен курс, Магистърска програма, Катедра “Компютърни системи”, ФМИ, 2006 година. Съдържание:. І. Въведение ІІ. Data Warehouse и OLAP- технологията за Data Mining ІІІ. Преобразуване на данните ІV. Data Mining примитиви, езици и системи
E N D
DATA MINING Лекционен курс, Магистърска програма, Катедра “Компютърни системи”, ФМИ, 2006 година
Съдържание: І. Въведение ІІ.Data Warehouse и OLAP-технологията за Data Mining ІІІ. Преобразуване на данните ІV. Data Mining примитиви, езици и системи V. Описание на понятията, характеризиране и сравняване VІ. Mining- правила за свързване в големи БД VІІ. Класификация и прогнозиране
VІІІ. Клъстерен анализ • ІХ. Приложения и тенденции в развитието на Data Mining системите
І.Въведение • Увод • Data Mining • Data Mining и типа на данните • Функционалност на Data Mining • Patterns • Класификация на Data Mining системите • Предимства на Data Mining.
1. Увод • Огромно е количеството информация, която трябва да се обработва от съвременните DB системи • Необходими са механизми за бърза и интелигентна обработка на информацията • Data Mining са следващия етап от развитието на DB технологиите.
Data Collection и Data Creation (1960) Data Management Systems (1970-1980) Advanced DB Системи (средата на 80-те) WEB-базирани DB Системи (90-те) Data Warehousing и Data Mining (края на 80-те) Нова генерация интегрирани информационни системи (2000)
Data Collection и Data Creation: • Развитие в началото на 60-те години • На базата на елементарна файлова система • Database Management Systems: • през 70-те и началото на 80-те • Развитие на йерархични и мрежови DB с-ми • Релационни бази от данни • Създаване на инструменти за моделиране на БД • Индексация и техники за организация на БД (бинарни дървета, хеширане и др.) • Създаване на SQL за обработка на заявки • Създаване на потребителски интерфейс- форми, рапорти, отчети • Появява се OLTP (On-line transaction Protocol)
Advanced DB системи • От средата на 80-те • Допълнителни DB модели- разширен-релационен, обектно-релационен, обектно-ориентиран, дедуктивен и др. • Приложно-ориентиран модел- за обработка на мултимедия, дейности, знания. • WEB-базирани DB системи • От 90-те години • XML-базирани DB • WEBmining. • Data Warehousing и Data Mining • Data Warehousing и OLAP-технологията • Data Mining и обработката на знания • Нова генерация интегрирани информационни системи – от края на 2000г.
2. Data Mining • Целта е извличане на знания от огромно количество информация • В този смисъл се използват и понятията: • knowledge mining from DB, • knowledge extraction, • data/pattern analysis, • data archaeology и др. • Knowledge Discovery in Databases. (KDD) понякога се използва като синоним.
Data Mining e стъпка в процеса на откриване на знания • Стъпка 1: Data cleaning -изчистване от шумове; • Стъпка 2: Data Integration-комбиниране на данни от различни източници; • Стъпка 3: Data selection -според целта; • Стъпка 4: Data transformation - в подходяща форма; • Стъпка 5: Data Mining – извличане и обработка, чрез интелигентни методи; • Стъпка 6: Pattern evaluation- поставяне на знанията в шаблони, позволяващи измерване и обработка; • Стъпка 7: Knowledge presentation – представяне на знанията.
Архитектурата на типична Data Mining система се състои от: • Database, Data Warehouse или друго информационно хранилище. • Database server или Data Warehouse Server.
Pattern Evaluation GUI Data Mining Engine Knowledge Base DB или Data Warehouse Server Data cleaning, Data Integration Filtering Data Warehouse DB
Knowledge Base – област от знания, които могат да включват йерархии от понятия, необходими за организация на атрибутите и техните стойности в различни абстрактни нива. Те са необходими за специфициране на мета-данните, описващи данни от различни хетерогенни източници. • Data Mining Engine – това е основата на модела. Представлява съвкупност от функционални модели, решаващи задачите за определяне, характеризиране, асоцииране, класификация, клъстерен анализ и др.
Pattern evaluation module – осъществява интерактивност на модела като се фокусира върху търсенето на най-подходящи шаблони. Така се постига по-високо ниво на формализация на семантиката. • GUI (Graphical User Interface) – позволява на потребителя да комуникира със системата, чрез заявки, задачи, търсене и обработка на знанията. Позволява разглеждането на data-структурите и визуализацията им в шаблони и други подходящи форми.
Data mining интегрират технологии от различни дисциплини като: • DB-технологии; • Статистика; • Машинни науки; • Разпознаване на шаблони; • Мрежи; • Визуализация на данни; • Търсене на информация • Data анализ и др.
3. Data Mining и типа на обработваните данни Data Mining може да обработва информация от различни информационни хранилища: • Релационни бази от данни; • Data Warehouses; • Транзакционни бази от данни • Допълнителни Database системи • Файлове • WWW и др.
3.1. Релационни бази от данни • Database Management System (DMS) съдържа колекция от взаимносвързани данни и множество от софтуерни програми за управление на достъпа до данните – дефиниране на структурите, съхранение на данните, конкурентност, поделяне, предоставяне на достъпа до тях и др.Осигурява консистентност и сигурност на данните.
Релационните бази от данни са колекция от таблици, всеки запис в които, притежава уникална идентификация.Таблиците притежават множество атрибути (fields) и записи(records).Релационната база от данни може да се разглежда като множество елементи (таблици) и връзките между тях. (entity relationships) • SQL-език за получаване на справки и заявки, които позволяват да се извлече част от информацията в БД, отговаряща на определени синтактически критерии. Езикът включва и агрегиращи функции като sum, avg,count, max, min и др.
3.2. Data Warehouses • Хранилище на колекции информация от различни източници. Те са резултат от процесите на изчистване, трансформация, интеграция, зареждане и периодично обновяване на данните. • В много случаи данните са дефинирани върху многоразмерна DB структура, като всяка размерност кореспондира с един или няколко източника на данни. • Физическата структура може да се разглежда като на релационни бази от данни, съхранени в многоразмерен Data-куб.
DB1 DB2 DBn User User Query and Analisys Tools Clean Transform Integrate Load Data Ware-house
Пример: • Фирма с 2 клона в 2 държави осигурява 4 услуги, обслужва 3 заявки и обработва оборота за 3 месеца. клонове заявки месеци Държа-ви услуги услуги
Забележка: За описание на тази структура е подходящ On-line Analytical Processing (OLAP), който позволява представянето на данните на различни нива на абстракция. OLAP включва driven-down и roll-up операциите, осигуряващи различни нива на обобщаване.
3.3. Transactional Databases • Представляват файлове, всеки запис в които описва определена транзакция. • Всяка транзакция има уникален trans-ID и списък от елементи. • Може да включват и други таблици, асоциирани към основната, поддържащи допълнителна информация за елементите.
3.4. Advanced DB системи и Advanced DB приложения • Съвременните DB приложения трябва да обработват не само релационни, а и множество от други данни- чертежи, карти, мултимедия, WWW и др. • Изискват обработка на различни структури (обектни, неструктурирани, мултимедия и т.н.) • Тези изисквания се удовлетворяват чрез: обектно-ориентираните, обектно-релационните, пространствените, текст и мултимедийните, хетерогенните и наследени, WWWDB системи.
3.4.1. Обектно-ориентирани DB системи • Базират се на обектно-ориентираното програмиране. Основен елемент е обекта. • Обектът е свързан с: • Множество от стойности, които го описват(атрибутите в релац. модел) • Множество съобщения, чрез които обекта кореспондира с другите обекти (relationships); • Множество методи, осигуряващи изпълнението и обработката на съобщенията. В отговор методът връща стойност. • Обектите, поделящи общо множество от характеристики се групират в класове, които пък се групират в йерархии.
3.4.2. Обектно-релационни DB системи • Създадени са на базата на релационния модел • Елементите могат да бъдат обекти. • Този обект става все по-популярен при създаването на бизнес-системи. • Притежава допълнителни възможности за създаване на йерархични системи.
3.4.3. Пространствени DB системи • Използват се за обработка на графична информация. • Графичната информация може да се представи в: -Растерен формат (като схема от пиксели) или -Векторен формат (чрез скалиране) • Този тип данни може да се опише и чрез многоразмерен куб чрез OLAP на Data Warehouse.
3.4.4. Temporal DB и Time- SeriesDB системи • Това са релационни бази от данни, включващи атрибути, свързани с отчитане на времето, които имат различна семантика. • Time-series DB съхраняват последователността от стойности, които се променят динамично във времето.
3.4.5. Текстови и мултимедийни DB системи • Text DB- служат за текстово описание на обектите под формата на дълги изречения, параграфи, спецификации, грешки, рапорти за бъгове, предупредителни съобщения, бележки и други документи. • Те могат да бъдат структурирани по различен начин като e-mail messages, библиотеки, WWW-страници и т.н. • Data Mining използва тези типове БД за работа с Domain- ориентирани класификационни системи.
Multimedia DB – служи за обработка на видео, графична и аудио-информация. • Видео и аудио-информацията са continuous media и тяхната обработка е много важна част от Data Mining. • Подходящите програмни средства дават възможност за описание на тези типове данни като многоразмерен мултимедиен куб, извличане на множество свойства от тези данни, както и използването на шаблони за сходство.
3.4.6. Хетерогеннии наследени DB системи • Heterogeneous DB- обектите на една БД могат да са различни от обектите в друга, но между тях могат да се осъществят взаимовръзки, като се изгражда хетерогенна БД. • LegalityDB – Много предприятия разполагат с добри системи за обработка на данни. Този вид БД свързват множество хетерогенни DB, като се свързват чрез интра или интер-компютърни мрежи. Напр. общата БД на училищата, като във всяко от тях се обработва различен тип БД.
3.4.7. WWWDB системи • Данните са свързани интерактивно; • Обработката се осъществява чрез различни механизми на търсене, както и чрез използване на шаблони. • Използват се при обработката на разнообразни WEB- услуги в мрежата.
4. Функционалност на Data Mining • Задачите, които Data Mining решава могат да се класифицират като: • Descriptive- описващи основните характеристики на данните в БД; • Predictive – преобразуващи и представящи интерфейса на данните, според текущите изисквания. • Понякога потребителите предварително знаят какви шаблони да използват за представяне на данните, а понякога търсят подходящия вид в процеса на работа. Затова се нуждаем от такава DB система, която да предоставя различни видове шаблони според нуждите и изискванията.
Основните Data Mining функционалности: • Concept/Class Description – Characterization и Discrimination • Association Analysis • Classification и Prediction • Cluster Analysis • Outlier Analysis • Evolution Analysis
4.1. Concept/Class description: Characterization и Discrimination Данните могат да са свързани с класове или понятия. • Data Characterization – обобщаване на основните характеристики или свойства на целевия клас данни. Данните обикновено са резултат от потребителска заявка. Може да се използва OLAP roll-up операцията върху многоразмерен data-куб. Резултатът от обобщаването може да се представи в различна форма- диаграма, графика, многоразмерен куб, крива и т.н.
Data Discrimination – сравняване на основните свойства на обектите от целевия клас с тези на обектите от един или няколко контрастиращи класове. • Целевия и контрастиращия класове се определят от потребителя и съответните data –обекти чрез заявка към БД. • Като резултат получаваме информация за сходството на обектите.
4.2. Association Analysis (свързващ анализ) • Изследва правилата за свързване. • Използва се най-често в електронната търговия (електронна количка) • Правилата за свързване са от вида: Х=> У: A1^A2^…^Am->B1^B2^…^Bn, където Ai, Bj са стойностите на двойките свързани атрибути. • Правилата се интерпретират като: Ако са изпълнени условията в Х, то се изпълняват и условията в У, където Х и У са обекти от две БД. • Пример: Ако age (X,”>18”) ^ money (X, “>20$”) => buys (X, “CD player”)
4.3. Classification и Prediction • Това е процес на търсене на модели за описание на понятията и класовете. • В този процес се вземат предвид съществуващи вече класификации. Прави се анализ на множеството известни до момента представяния. • Моделът може да се представи чрез различни форми като класификационни (if …then) правила, дърво на решения, математически формули или неутрални мрежи.
4.4. Cluster Analysis (Клъстерен анализ) • Базира се на принципа на максимизиране на сходството вътре в класовете и минимизиране на сходството извън тях. • Клъстерирането изисква обектите в клъстера да имат високо ниво на сходство, но да не си приличат с обектите от друг клъстер. • Всеки клъстер може да се разглежда като клас от обекти • Клъстерирането се използва и за формирането на таксономии.
4.5. Outlier Analysis • БД могат да съдържат обекти, които не поддържат основното поведение или модел на данните. Те се наричат Outliers и се определят от Data Mining системите като шумове. • Понякога, обаче, тези данни може да са по-интересни от останалите. Анализът на Outlier данните е свързан с Outlier Mining. • Откриват се чрез статистически тестове или чрез отдалечено измерване.
4.6. Evolution Analysis( Еволюционен анализ) • Описва поведенческите промени на обектите в периода на тяхното развитие. • Включва: characterization, discrimination, association, classification и клъстериране на променящите се във времето данни, като разглежда свойствата на обектите и възможностите за тяхното сравняване според сходствата им.
5. Patterns • Data Mining системите имат възможности да генерират хиляди, дори милиони шаблони или правила, но дали всички те са полезни и интересни за потребителите!? • Ще казваме, че един шаблон е интересен (полезен), ако е лесно разбираем за хората, валиден според тестването на данните, използваем и неизвестен до момента. • Тези шаблони представят знания.
Има различни измервания, определящи степента на полезност на шаблона. Те се базират на статистиката и на анализа на съществуващите. Всяка мярка е свързана с определен от потребителя минимален праг(напр. 50%). • Обективни мерки са: • Support (X=>Y) = P(XUY) • Confidence (X=>Y) = P(X|Y) • Субективните мерки са свързани с мнението и опита на потребителите. Тук разглеждаме критерии като актуалност и потребителски очаквания.
6. Класификация на Data Mining системите • Data Mining е интердисциплинарна област, свързваща множество теории и технологии. Статистика DB технологии DataMining Визуализация Информатиката Обучение Други науки
Според вида на БД • Според модела на данните - релационни, транзакционални, обектно-ориентирани, обектно-релационни и т.н. • Според специфичността на типовете – пространствени, променящи се във времето, текстови, мултимедийни, WWW mining системи и т.н.
Според вида на представените знания • Според нивото на абстракция: - primitive- level knowledge; - multiple – level knowledge. • Според функционалностите- категоризация, дискриминация, характеризиране, асоциация, класификация, клъстериране, outliers, еволюционен анализ.
Според вида на използваните технологии • Според степента на взаимодействието с потребителя – авторски системи, съвместно-проучвателни системи, системи, управлявани чрез заявки. • Според методите за анализ на данните – DB-ориентирани, Data Warehouse- ориентирани технологии, статистики, технологии за визуализация, за разпознаване на шаблони и т.н.
Според приложенията • За бизнес и финанси • Телекомуникации, съобщения • Електронна търговия • Електронна поща и т.н.
Основни резултати в Data Mining • Свързани с взаимодействието с потребителите: - В БД има различни видове знания, интересни за различни потребители. - Осъществява се взаимодействие на знанията на различни нива на абстракция. Вниманието се фокусира върху търсенето на подходящи шаблони. - Работа с domain-knowledge.
- Data Mining Query Language (както SQL) увеличава възможностите за обработка на БД. - Различните техники за визуализация на резултатите на Data Mining, свързани с човешкото разбиране за работа с БД като таблици, дървета, криви, кръстословици и т.н. - Разработката на шаблони, според изискванията на потребителите.