Методология на анализа на данни

Методология на анализа на данни

Data Mining • Knowledge Discovery in Databases (KDD) - процес на извличане на знания от бази от данни. Концепцията KDD се полага от Григорий Пятецкий-Шапиро (Gregory Piatetsky-Shapiro) и Усама Файад (Usama Fayyad). • KDD е търсене на полезни знания в “сурови” данни. Включва: • тяхната подготовка; • избор на информационни признаци; • филтриране на данни; • използване на методите за техния анализ; • постобработка и приложение на получените резултати. «Ядрото» на този процес са методите за анализ на данни (DataMining– DM), чрез които се извличат знанията. • Знанията са: • Правила, описващи връзката между свойствата на данните (дърво на решенията); • често срещани шаблони (асоциативни правила); • резултати от класификация (невронни мрежи); • клъстеризация (карти на Кохонен) и др. Полезността на този подход се състои в това, че в зависимост от предметната област се използват едни и същи операции. За 2 години размерът на базите от данни се увеличава 3 пъти.

Ранните методи за идентификация на образци включват: • теоремата на Бейс (1700); • регресионен анализ (1800). Развитието на информационните технологии и откритията в областта на компютърната наука: • невронни мрежи; • клъстерен анализ; • генетични алгоритми (1950); • дърво на решенията (1960); • метод на опорните вектори(1980) водят до възникване на DM в съвременния си вид. Стандарти в DM • CRISP-DM 1.0 - Cross Industry Standard Process for Data Mining, 1999, стандарт за DM в Европа. • JDM 1.0 - Java Data Mining standard, 2004. • PMML - Predictive Model Markup Language - стандартен начин за представяне на DM модели, софтуерните пакети могат да споделят помежду си статистически приложения: • PMML е основан на XML развит от Data Mining Group (DMG); • PMML 4.0 е публикуван през юни 2009 г.

Етапи на извличане на знания от бази от данни Складове за данни – БД Извадка Изходни данни Предварителна обработка на данни Предварително обработени данни Трансформация Трансформирани данни Анализ на данни (Data Mining) Шаблони Интерпретация Знания Анализът на данни с помощта на компютър има два аспекта:1. Компютърът се използва само като средство за извличане на информация, а изводите се извършват от аналитик.2. Програмен продукт извлича информация:извършва различни видове предварителна обработка наданните - филтриране, изглаждане и други; върху обработените данни се прилагат различни методи за анализ – клъстеризация, класификация, регресия и други.Получават не сурови, а обработени данни, тоест работи се с компютърно генерирани модели.

Обща схема за анализ на данни Събиране на експерементални данни Систематизиране на данните Търсене на модели обясняващи данните Проверка на получените модели на практика Да Достатъчни ли са наличните данни? Качеството на модела приемливо ли е? Не Не Да Добавяне/изключване на фактори Експлоатация Добавяне на нови данни проблема се разглежда от различни гледни точки;  комбинират се подходите; не се изисква висока точност;  придвижване от по-елементарни и по-груби модели към по-сложни и по-точни; стремеж към приемлив резултат, а не към идеален модел; с натрупването на нови данни процесът се повтаря;  решават се задачи с приемливо качество. Може идеално да се изучат характеристиките на анализираната система, ако не преследваме точността. Ричард Фейнман

Даденият подход изисква: • да се разглежда проблема от различни гледни точки и да се комбинират подходите; • да не се изисква висока точност, да се извършва придвижване от по-елементарните и по-груби модели към по-сложни и по-точни; • стремеж към приемлив резултат, а не към идеален модел; • с времето и с натрупването на нови сведения да се повтори цикълът – процесът на познанието е безкраен. 1. Чрез описания подход се решават задачи с приемливо качество. 2. В методиката има недостатъци, но в действителност реална алтернатива на нея няма. 3. В областта на физиката тази методика за анализ се използва от много векове, затова няма причина да не се ползват и в други области.

Етапи на Data Mining Етап 1.Разкриване на закономерности. Етапът е индуктивен: • разкриват се закономерностите на логиката, извършва се класификация и клъстеризация; • разкриване закономерности на асоциативната логика; • разкриване закономерности на тенденциите и колебанията; • осъществява се проверка достоверността на данни, които не са взели участие във формирането на закономерностите.. Етап 2. Използване на закономерностите за предсказване на неизвестни стойности - прогностично моделиране. Етапът е дедуктивен: • в края на 1-ви етап или началото на 2-ри се въвежда валидизация, с цел проверка достоверността на намерените закономерности; • предсказване на неизвестни стойности; • прогнозиране развитието на процеси; • решават се задачи за класификация и прогнозиране; • резултатите от първия етап се използват за отнасяне на нов обект към някой от известните определни класове на базата на стойностите на атрибутите му; • резултатите от първия етап се използват за предсказване на пропуснати или бъдещи стойности на променливите и функциите. Етап 3. Анализ на изключенията – разкриване и обясняване на аномалиите в закономерностите: • разкриват се отклоненията. За разкриване причините за оклоненията е необходимо да се определи норма, която да се използва на етапа на определяне на закономерностите.

Възникването и развитието на DM е обусловено от различни фактори • усъвършенствуване на апаратното и програмно обезпечаване; • усъвършенствуване на технологиите за съхраняване и запис на данни; • натрупване на голямо количество данни; • усъвършенстване на алгоритмите за обработка на данни.

DataMining като интердисциплинарна област Други дисциплини Теория на БД Статистика Машинно обучение Анализ на данни (Data Mining) Визуализация Изкуствен интелект Разпознаване на образи Алгоритмизация Теория на БД - описва правилата и принципите на описание, съхранение и обработка на данните. Машинно обучение– извършва разработка и построяване на аналитични модели, способни автоматично да регистрират в данните скрити и по-рано неизвестни закономерности. Алгоритмизация – създава алгоритми за решаването на конкретно множество от задачи. Изкуствен интелект - решават се задачи за апаратното или програмното моделиране на видовете човешки дейности. Статистика – наука за методите за събиране на данни, тяхната обработка и анализ за получаване на закономерности, присъщи на изучаваното явление. Визуализация – комплекс от методи за представяне на резултатите от анализа на данни в най-удобен за възприемане и интерпретация вид. Разпознаване на образи – изследване на сложни обекти с помощта на машинни аналитични методи. Понеже DM се развива на границата на различни области, то повечето алгоритми и методи, свързани с него са разработени на основата на различние методи от тези области.

Решения нуждаят се от поддържа Информация основана на обезпечават Данни Връзка между понятията данни,информация, знания Данни - информация - решения и знания Задачи - действия и методи за решаване - приложения Те изразяват един процес, резултатът на който е знание и вземане на решение. Данниса неструктурирани факти за обект, които се съхраняват без да се използват. Когато данните се използват, намалява неопределеността на обекта. Преобразуваните данни се превръщат в информация. Данните често са възприемани като най-ниското ниво на абстракция, от което информация и знанието произхождат. Информацията е сведения за обект, които се създават, унищожават, предават, приемаг, съхраняват и обработват. Тя е количествена мярка за отстраняване на неопределеността (ентропия), мярка за организацията. Знания - съвкупност от факти, закономерности и евристични правила, с помощта на които се решават поставени задачи. Получават се на основата на зависимости от разнородна информация.

3 4 а) б) в) Пример на граф, химически данни и карта на Кохонен. 1.3.2. Типове данни Табличните данни са съвкупност от записи, всеки от който се състои от фиксиран набор от атрибути.Транзакционните данни– всеки запис е транзакция с набор от значения. Пример: покупките направени от всеки клиент.Графични данни – такива са WWW-данни; графи (фиг. 5а), молекулярни структури (фиг. 5б), карти на Кохонен (фиг. 5в).С помощта на картите се проследява изменението на обектите във времето и пространството и се определя характера на тяхното разпределение. Пример на карта е картата на Кохонен (модел на невронни мрежи, които ще бъдат разгледани по-късно) е даден на фиг. 5в).

1.3.1. Данни • Данните са факти изразени чрез, текст, графики, изображения, звуци, аналогова или цифрова видео-информация. • Получени са в резултат на измервания, експерименти, аритметически и логически операции. • Представят се във вид удобен за съхранение (архивиране), обработка и предаване. • Те са необработен материал, използван за получаване на информация. • Набор от данни и техните атрибути • Всеки обект се описва като набор от атрибути. Обектът е запис, пример, ред от таблица. • Променлива (variable) – свойство, характеристика или атрибутът, обща за всички изучавани обекти, които могат да се изменят между обектите. • Стойност (value) на променливата е проявата на признака. Генерална съвкупност – цялата съвкупност от изучавани обекти. Извадка – част от генералната съвкупност, която по определен начин е избрана за изследване и получаване на изводи за свойствата и характеристиките на генералнвата съвкупност. Обучаваща извадка – структуриран набор от данни, използван за обучение на аналитични модели (невронни мрежи, дърво на решенията, карти на Кохонен и др.).

Информацията е: • всяко съобщение за обект; • сведения, явяващи се обект на съхранение, преработка и предаване на информация (например генетична); • количествена мярка за отстраняване на неопределеността (ентропия), мярка за организацията. • Информацията дава сведение за всяко неизвестно по-рано събитие, обект, процес и т.н., явяващи се обект на определена операция, за която съществува съдържателна интерпретация. • Под операция се разбира приемане, предаване, преобразуване, съхраняване и използване на информация. • Понятието информация трябва да се резглежда само при наличие на източник, получател и канал за свръзка между тях.

Свойства на информацията • Пълнота на информацията. • Достоверност на информацията. • Ценност на информацията. • Адекватност на информацията. • Актуалност на информацията. • Ясност на информацията. • Достъпност на информацията. • Субективност на информацията. • Изисквания към информацията • Динамичен характер на информацията. • Информацията существува само в момента на взаимодействие на данните и методите, т.е. през информационния процес. • Адекватност на използваните методи.

Знания • Създаването на информация става в процеса на събиране и обработката на данни. Знанията се получават на основата на разпределени зависимости от разнородна информация. Те са съвкупност от факти, закономерности и евристични правила, с помощта на които се решават поставени задачи. Знанията имат определени свойства, които я отличават от информацията: • Структурираност; • Лесен достъп и усвояване. Това е възможност лесно да се разбира и запомня и лесен достъп; • Лаконичност. Лаконичността позволява бързо да се усвояват и преработват знанията; • Непротиворечивост; • Процедури за обработка. Знанията са нужни, за да се използват. За да се предават на другите и да се извършват изводи от тях, са необходими процедури за обработка на знанията.

Класификация на видовете данни • Релационни данни – данни от релационни БД. Информацията се съхранява във вид на двумерни таблици, свързани с помощта на ключови полета (колони). • Многомерни данни – многомерна БД със специална организация на съхранение (кубове), позволяващи на потребителя да анализира големи обеми от данни. Многомерната БД обезпечава висока скорост на работа с данните. • Измеряеми (dimension)данни – в многомерните данни това са събрани данни от едни и същ тип, което позволява структурирането на многомерни БД. • По отношение на своето постоянство данните са: • променливи; • постоянни; • условно-постоянни. • Данните в зависимост от функциите, които изпълняват са справочни, оперативни и архивни. • Данните в зависимост от интервалите от време за използване са периодични и мигновенни. • Периодичните данни характеризират обекта и неговите атрибути за определен период от време. Такива за приходите и разходите за месец, средномесечна температура и др. • Мигновените данни представят стойности на променливата за конкретен момент от време. Такива са температурите в определен час, остатъкът от приходите или разходите на първото число от месеца. • Данните са първични и вторични. Вторичните данни се явяват резултат от определени изчисления, използвани върху първичните данни. Вторичните данни водят до по-бързо получаване отговор на въпрос на потребителя, за сметка на увеличенине на обема на съхраняваната информация. • Метаданни(Metadata) – това са данни за данните.

Класификация на методите за анализ на данни

Задачи решавани с методите за анализ на данни • Класификация – това е отнасяне на обектите (наблюдения, събития) към зададени по-рано класове; • Клъстеризация – групировка на обектите (наблюдения, събития) на основата на данни (свойства), описващи същността на тези обекти. Колкото повече обектите вътре в клъстера са по-подобни един на друг и се отличават от обектите в другите клъстери, толкова по-точна е клъстеризацията. • Регресия и прогнозиране. Установяване на зависимости на входни и изходни величини. • Асоциация – получаване на закономерности от свързани събития. Например: от събитие X следва събитие Y. • Последователни шаблони – установяване на закономерности между свързани във времето събития, т.е. получаване на зависимости, ако се случи събитие X, то след определено време следва събитие Y. • Визуализация - представяне на резултатите от анализа на данни в най-удобен за възприемане и интерпретация вид. • Оценка на отклоненията – откриване на значителни отклонения от нормалното поведение.

Text Mining& Web Mining Text Mining - процес на извличане на информация от текстови данни на основата на регистрирани закономерности. Анализът включва структуриране на текста (синтактичен анализ, добавяне на синтактични структури и премахване на други и записване на резултатите в бази от данни), търсене на закономерности в данните, оценка и интерпретация на резултатите. Web Mining - използване на методите и алгоритмите на DataMining за регистриране и търсене на зависимости и знания в Интернет. Видове Web Mining: 1. Web usage mining - процес на извличана на полезна информация от потребителската история на сървърите, търсене на обектите, преглеждани от потребителите; 2.Web content mining - процес на извличане на съдържание - Text Mining, съдържанието на текста най-често се търси. Технологиите, които се използват за търсене в web съдържание са: NLP (Natural language processing) and IR (Information retrieval); 3.Web structure mining - процес, в който се използва теория на графите за анализиране структурата на възлите и връзките (линковете) на web страниците. Според типа на структурата на web данните, Web structure mining е два вида: 1. Извличане на шаблони от хипервръзките в web; 2. Анализ на дървовидната структура на документите за да се опишат използваните HTML или XML тагове. Archive.org,http://en.wikipedia.org/wiki/List_of_archives

Text Mining& Web Mining Software Open-source software and applications GATE (General Architecture for Text Engineering) - natural language processing and language engineering tool. UIMA (Unstructured Information Management Architecture) - component framework for analysing unstructured content such as text, audio and video, originally developed by IBM. RapidMiner - with Text Processing Extension, data and text mining software. Carrot2 - text and search results clustering framework.

Сфери на използване на Data Mining DM се ползва навсякъде, където има натрупани достатъчно много данни: • За решаване на бизнес-задач. Основни направления са: банково дело, финанси, застраховане, CRM (Customer relationship management) - управление взаимоотношенията с клиентите, производство, телекомуникации, електронна търговия, маркетинг, фондов пазар и др.; • За решаване на задачи на държавно ниво. Основни направления са: търсене на определени лица, укриване на данъци, средства за борба с тероризма; • За научни изследвания. Основни направления са: медицина, биология, молекулярна генетика и генно инженерство, биоинформатика, астрономия, приложна химия, наркотична зависимост и др.; • За текст и Web анализ. Основни направления са: търсещи машини (search engines), броячи и др.

RapidMiner • създаден е на Java; • използва XML конструкции за анализ на данни; • съдържа множество драйвери за работа с бази от данни от различни приложения; • предоставя над 400 оператора за работа с методите на машинно обучение; • създаване на комплекси от дървета от оператори; • възможност за създаване на оператори, освен предоставените. • RapidMiner Extensions-RapidMiner поддържа много разширения-плъгини, в допълнение на операторите за анализ на данни. • RapidMiner Ingres Bundle– включва освен RapidMiner и напълно функционален Ingres сървър за бази от данни. Това елиминира нуждата от управление на отделна база от данни. • RapidAnalytics, RapidNet http://rapid-i.com/

ProcessMining 6 Process Miningизследва извличането на знания от бизнес процеси съставен от последователности от бизнес събития. Основни характеристики: • стартиране на плъгинитев разпределено обкръжение – над 230 плъгина; • свързване на плъгините във вериги за анализ на обекти; • инсталиране и обновяване на плъгините по време на работа на ProM6; • извличане на съвкупността от събития определяща процесите от информационните системи без да е необходимо програмиране. • Поддръжане на няколко езика за моделиране на процеси: • Петри мрежи (PNML, TPN); • EPCs / EPKs (Aris graph format, EPML) • YAWL - Yet Another Workflow Language и други. Основни плъгини: • За поддържане контрола на потока от анализиращи техники; • Плъгини, извършващи анализ от организационна гледна точка (анализ на социални мрежи); • Плъгини работещи с прогнозиране; • Плъгини за анализ на не добре структурирани и гъвкави процеси (Fuzzy Miner); • Плъгини за визуализация; • Плъгини за проверка на Linear Temporal Logic; • Проверка на съответствието между модела на даден процес и събитията; • Извършване на основни статистически анализи. http://prom.win.tue.nl/tools/prom6/

Data Mining in Europe 1 http://www.em-dmkm.eu - Data Mining & Knowledge Management, Erasmus MundusMasters Courses Data Mining консорциум съставен от шестуниверситетаотчетири страни: Франция (Университетът”Пиер и Мария Кюри "в Париж6, Университета “ Люмиер Лион 2”, Университета Нантес); Румъния (Политехнически Университет в Букурещ); Италия(Университетътв Източен Пиемонт); Испания (Технически университет в Каталуния). Магистърската степен в DMKM се базира преподаването настепента "магистър" върху Data Mining, която се провежда от 1999 г. Austria Danube University Krems offers the internationally uniquepostgraduate program Interactive Visualization and Data Analysis. Danube University Krems, offers the new academic program Business Intelligence Expert, (4 weeks, two semesters, part-time). Belgium Ghent University's Master of Marketing Analysis, a one-year full-time study in English. Data-mining techniques are introduced in the application domain of analytical Customer Relationship Management (CRM)/Marketing. EstoniaUniversity of Tartu, Estonia, with the Bioinformatics, Algorithmics, and Data Mining group. FranceUniversity of Lyon DEA Extraction de Connaissances a partir des Donnes, (Knowledge Discovery in Databases), Lyon. Universit de Bretagne Sud, Masters and doctorates (PHD) in KDD and data mining.

Data Mining in Europe 2 Finland Helsinki, Aalto University, Department of Information and Computer Science GermanyDatabases, Data Mining, and Visualization, at Konstanz University, Germany. HungaryMaster of Science in Analytical Business Intelligence, at the Budapest University of Technology and Economics (BME). IrelandDublin Institute of Technology MSc in Computing (Knowledge Management), colloborating with SAS Ireland on Analytics Education. SpainUniversity of Granada (Spain), offers courses on Data Mining (in Spanish) as part of their joint PhD program on Intelligent Systems. SwedenLinkping University, Institute of Technology, Statistics and Data Mining, MSc UKCity University MSc in Data Mining, London, UK. University of Bristol Machine Learning MSc, Bristol, UK. University of East Anglia, MSc in Knowledge Extraction, Norwich, UK. University of Reading, School of Systems Engineering, MSc course on knowledge discovery and data mining as part of our MSc in Network Centred Computing. Reading, UK.

Data Mining in the USA and Canada Bentley University (Waltham, MA) Business Analytics programs: - MBA with Analytics focus - MS in Information Technology with Analytics Focus- PhD in Business with Analytics Concentration Central Connecticut State University (CCSU), offering MS in Data Mining. New Britain, CT. CMU Program in Knowledge Discovery and Data Mining at CMU Center for Automated Learning and Discovery. Pittsburgh, PA. Saint Joseph's University MS in Business Intelligence, for business professionals. Philadelphia, PA. University of Central Florida (UCF), Dept. of Statistics, offering a Data Mining Certificate Program and Master's degree in Data Mining. Orlando, FL. University of Louisville Certificate in Data Mining, jointly offered by Computer Science and Math Depts for training professionals in the interdisciplinary field of data mining. Louisville, KY. Oklahoma State U. Graduate Data Mining Certificate Program, a unique program targeted mainly to part time students. Stillwater, OK. Master in Business Analytics, U. Tennessee, Knoxville, TN. University of Houston - Clear Lake Financial Data Mining course, by Prof. Gary D. Boetticher. George Mason U. Computational Statistics in the Data Sciences Program. Fairfax, Virginia. DePaul University Center for Data Mining and Predictive Analytics, offering MS in Predictive Analytics, Chicago, IL. Stanford Center for Professional Education, offers Data Mining and Applications certificate program for managers and professionals. Stanford, CA. UCI M.S. Program in Knowledge Discovery in Data. Irvine, CA. Canada University of Toronto, offering Data Mining Graduate course and Data Mining in Engineering Group.

Анализ на данни • Глава 1. Методология на анализа на данни • Глава 2. Основни понятия • Глава 3. Електронни таблици • Глава 4. Класификация на данни. Дърво на решенията. • Глава 5. Клъстеризация на данни • Глава 6. Прогнозиране • Глава 7. Асоциативни правила • Глава 8. Последователни шаблони http://data-mining.hit.bg/ Йордан Щерев

Някои полезни адреси • http://rapid-i.com/. • http://www.statsoft.com/. • office.microsoft.com/bg-bg/excel/. • http://www.kdnuggets.com. • http://people.revoledu.com/kardi/. • http://www.web-datamining.net/. • http://www.the-data-mine.com/. • http://www.dtreg.com/. • http://www.dataminingblog.com/. • http://www.educationaldatamining.org/. • http://gate.ac.uk/ • http://www.conference-service.com/conferences/data-mining.html

Благодаря за вниманието! Може ли човек да мисли? Компютърен въпрос

Методология на анализа на данни

Методология на анализа на данни

Presentation Transcript