150 likes | 277 Views
Качество персональных данных. Персональные данные – это…. Персональными данными называется любая информация, относящаяся к определенному или определяемому на основании такой информации физическому лицу, в том числе его: фамилия, имя, отчество; год, месяц, дата и место рождения; адрес;
E N D
Персональные данные – это… Персональными данными называется любая информация, относящаяся к определенному или определяемому на основании такой информации физическому лицу, в том числе его: • фамилия, имя, отчество; • год, месяц, дата и место рождения; • адрес; • семейное, социальное и имущественное положения; • образование и профессия; • доходы и другая информация.
Ценность для компании Дальновидные компании тратят много усилий и средств на сбор персональной информации о своих клиентах. Персональная информация о клиентах с позиции компании – это: стратегия развития бизнеса; извлечение конкурентной выгоды; увеличение прибыли; уменьшение оттокаклиентов; привлечение новых клиентов.
Текущее положение дел На сегодняшний день по исследованиям Gartner Group 70%ведущих компаний не имеют единого представления о своих клиентах, но большинство из них в своих ближайших планах хотели бы получить его благодаря реализации проектов по интеграции и повышению качества данных. В небольших компаниях данная тема чаще всего вообще игнорируется.
Проблема качества данных По утверждению аналитиков и пользователей баз данных, процесс предобработки информации может занять до 80% всего процесса анализа данных.
Причина возникновения проблемы Проблемы: ручной ввод, ошибки сканирования… Неоптимальная структура хранения Данные лежат в разных системах Хранение Использование Ввод Нет первичной очистки данных Отсутствие мониторинга Нет тиражируемости знаний
Типичные виды ошибок Существует шесть типичных ошибок, которые «загрязняют» данные: • Опечатки в данных • Неполнота данных • Несоответствие форматов • Неправдоподобие данных • Дублирование данных • Противоречивость данных.
Виды ошибок: опечатки Опечатка — ошибка в тексте, появляющаяся обычно из-за невнимательности при наборе.
Виды ошибок: неполнота данных Неполнота данных возникает вследствие того, что информация в полях не заполнена вообще или заполнена частично.
Виды ошибок: несоответствие форматов Несоответствие форматов данных связано с тем, что однотипные данные в одном и том же поле записываются по-разному.
Виды ошибок: неправдоподобие Неправдоподобные значения – данные, резко отличающиеся от наиболее вероятных, например среднестатистических значений по всей выборке.
Виды ошибок: дубликаты Дубликатами называют несколько записей, которые по существу подразумевают один и тот же объект.
Виды ошибок: противоречия Противоречия – ситуация, при которой значения нескольких полей или записей в базе данных не соответствуют друг другу.
Решение проблемы Качественные персональные данные можно обеспечить при реализации целого комплекса мер: • Наличие регламента– формализация требований к качеству данных • Контроль при вводе – выявление наиболее очевидных ошибок: пропуски, форматы, типы данных… • Проверка при загрузкев базу– обеспечение целостности информации: дубликаты, противоречия, неправдоподобие… • Регулярный мониторинг– выявление ошибок, заметных только при сравнении новых данных с уже существующими.
BaseGroup Labs BaseGroup Labs – профессиональный поставщик Data Warehouse, OLAP, KDD, Data Mining решений и инструментов. Web-сайт: www.basegroup.ru Образование: edu.basegroup.ru E-mail: info@basegroup.ru