410 likes | 602 Views
Data Mining. Докладчики: Ефимова Наталья Балукова Елена. План. История возникновения Постановка задачи Типы закономерностей Классы систем Примеры систем Бизнес-приложения. Специфика переработки информации:. Данные имеют неограниченный объем Данные являются разнородными
E N D
Data Mining Докладчики: Ефимова Наталья Балукова Елена
План • История возникновения • Постановка задачи • Типы закономерностей • Классы систем • Примеры систем • Бизнес-приложения
Специфика переработки информации: • Данные имеют неограниченный объем • Данные являются разнородными • Результаты должны быть конкретны и понятны • Инструменты для обработки должны быть просты
Илья Иосифович Пятецкий-Шапиро
Постановка задачи: • Имеется достаточно крупная база данных • Предполагается наличие«скрытых знаний» Необходимо разработать методы обнаружения знаний, скрытых в больших объёмах исходных «сырых» данных. Скрытые знания: • Ранее не известные • Нетривиальные • Практически полезные • Доступные для интерпретации
Типы закономерностей: • Ассоциация • Последовательность • Классификация • Кластеризация • Прогнозирование
Классы систем • Предметно-ориентированные аналитические системы • Статистические пакеты • Нейронные сети • Системы рассуждений на основе аналогичных случаев • Деревья решений • Эволюционное программирование • Генетические алгоритмы • Алгоритмы ограниченного перебора • Системы для визуализации многомерных данных
Характеристики систем Data Mining: • Интуитивный интерфейс • Удобство экспорта/импорта данных • Наглядность и разнообразие получаемой отчетности • Легкость обучения работы с инструментарием • Прозрачные и понятные шаги Data Mining-процесса • Руководство пользователя • Удобство и простота использования • Наличие русифицированной версии инструмента • Наличие демонстрационной версии • Возможности визуализации • Наличие значений параметров, заданных по умолчанию • Количество реализуемых методов и алгоритмов • Скорость вычислений и скорость представления результатов • Возможности поиска, сортировки, фильтрации. • Защита, пароль. • Платформы
Уровень предприятия: Fair Isaac, IBM, Insightful, KXEN, Oracle, SAS, SPSS. • Уровень отдела: Angoss, CART/MARS/TreeNet/Random Forests, Equbits, GhostMiner, Gornik, Mineset, MATLAB, Megaputer, Microsoft SQL Server, StatsoftStatistica, ThinkAnalytics. • Личный уровень: • Excel, See5. • Свободно распространяемое программное обеспечение: • C4.5, R, Weka, Xelopes.
Oracle Data Mining • ЗНАТЬ БОЛЬШЕ • ДЕЛАТЬ БОЛЬШЕ • ТРАТИТЬ МЕНЬШЕ
Oracle Data Mining позволяет: • Создавать профили целевых (например, выгодных) заказчиков • Предупреждать и предотвращать недовольство заказчиков • Привлекать новых заказчиков и выявлять наиболее выгодных • Выявлять перспективные возможности перекрестных Продаж • Обнаруживать злонамеренную деятельность, не соответствующую политике компании • Находить новые группы или сегменты • Создавать профили заказчиков • Определять перспективные цели, а также выявлять не пользующийся спросом товар и предлагать идеи по его реализации • Находить ассоциативные связи и/или одновременные события • Добыча неструктурированных данных – текста и пространственных данных
select cust_idfrom customers where region = ‘US’ and prediction_probability(churnmod, ‘Y’ using *) > 0.8;
Select customers who are more than 85% likely to be HIGH VALUE customers & display their AGE & MORTGAGE_AMOUNT SELECT * from( SELECT A.CUST_ID, A.AGE, MORTGAGE_AMOUNT,PREDICTION_PROBABILITY(CUST_INSUR_LT46939_DT, 'VERY HIGH' USING A.*) prob FROM CBERGER.CUST_INSUR_LTV A) WHERE prob > 0.85;