380 likes | 1.73k Views
Технологии обработки информации. Лекция 1. Введение. Антон Викторович Кудинов, доцент кафедры ВТ. Содержание. Структура курса Основные понятия – информация, данные, знания Виды информации Обработка данных и ее виды Модели процессов обработки данных Общие задачи обработки данных
E N D
Технологии обработки информации.Лекция 1. Введение Антон Викторович Кудинов, доцент кафедры ВТ
Содержание • Структура курса • Основные понятия – информация, данные, знания • Виды информации • Обработка данных и ее виды • Модели процессов обработки данных • Общие задачи обработки данных • Понятие анализа данных. Технология OLAP • Задачи обработки данных различных типов • Прикладные области обработки данных • ,
Структура курса Итоговая аттестация — экзамен
Выписка из ГОС • Студент должен знать: • основные виды и процедуры обработки информации, модели и методы решения задач обработки информации (генерация отчетов, поддержка принятия решений, анализ данных, искусственный интеллект, обработка изображений) • Студент должен уметь: • осуществлять математическую и информационную постановку задач по обработке информации, использовать алгоритмы обработки информации для различных приложений • Студент должен владеть: • инструментальными средствами обработки информации
Лекции • Введение. Понятие информации, данных, знаний. Типы данных. Общие задачи обработки информации. Задачи обработки данных различных типов • Принципы и методы оцифровки аналоговых данных. Стандарты представления различных видов цифровой информации • Технология обработки графической информации. Кодирование и сжатие изображений • Технология обработки текстовой информации • Задачи анализа. Сжатие данных • Аналитическая обработка информации. Технология OLAP • Технология обработки числовой информации. Статистические методы. Технология Data Mining. Методы визуализации данных • Методы и технологии интеграции данных • Задачи анализа. Технологии поиска информации
Лабораторные работы • Методы и алгоритмы сжатия информации (8 часов) • Методы и алгоритмы обработки текстовой информации. Алгоритмы поиска и сортировки информации (8 часов) • Технология обработки графической информации. Практическое изучение и освоение возможностей методов бинарного анализа при решении задач выделение контуров, выпуклых областей и связных компонент (8 часов) • Интеллектуальные методы и алгоритмы обработки информации. Алгоритмы классификации (8 часов)
Учебно-методическое обеспечение дисциплины • Программные продукты: • Microsoft SQL Server 2008 Analysis Services • Microsoft Visual Studio 2010 • Borland Delphi, C++ Builder • Источники: • Интернет-портал дисциплины ТОИ http://portal.tpu.ru/departments/kafedra/vt/Disciplines_VT/Tehnology_obrabotki_informacii • MIT OpenCourseWare http://ocw.mit.edu • Школа анализа данных Яндекс http://shad.yandex.ru/ • Юрий Лифшиц - курс "Алгоритмы для Интернета" http://yury.name/internet/ • Чубукова И.А. Data Mining: учебное пособие – 2-е изд., испр. – М.: Интернет-Университет Информационных технологий; БИНОМ. Лаборатория знаний, 2010. – 382 с. • Назаров С.В.и др.Основы информационных технологий. Курс на портале Интернет-университета Информационных технологий http://www.intuit.ru/department/informatics/fundamentti/1/
Введение. Основные понятия В чем разница между данными, информацией и знаниями?
Понятие информации (1) • Понятие информации переживает свою эволюцию • Философы: • информация - это передача, отражение разнообразия в любых объектах и процессах живой и даже неживой природы • Математики, физики и специалисты по системам связи: • информация - фактор и мера уменьшения, снятия неопределенности в результате получения сообщения • Кибернетики: • информация - сообщение, неразрывно связанное с управлением в единстве синтаксических, семантических и прагматических характеристик • Для социологов важны аксиологические (т. е. связанные с ценностью, полезностью) свойства информации, для ИТ-специалистов наиболее существенным является знаковое представление информации и т.д.
Понятие информации, данных (2) • Информация (от лат. informatio, разъяснение, изложение, осведомленность) — сведения о чем-либо, независимо от формы их представления (Википедия) • Информация - новые знания, полученные в результате интерпретации данных (Энциклопедия технологий баз данных) • Данные - факты, идеи, сведения, представленные в знаковой (символьной) форме, позволяющей производить их передачу, обработку и интерпретацию • Данные – представление фактов и идей в формализованном виде, пригодном для передачи и обработки в некотором информационном процессе (Википедия)
Понятие информации, данных (3) • Информация - это потенциальное свойство данных, которое может быть реализовано одним воспринявшим их человеком и не реализовано другим • Объектом машинной обработки являются данные, а не информация! • Знание — форма существования и систематизации результатов познавательной деятельности человека, субъективный образ реальности в форме понятий и представлений (Википедия) • Сведения - это знания, выраженные в сигналах, сообщениях, известиях, уведомлениях и т.д.
Виды информации • Текстовая — передаваемая в виде символов, предназначенных обозначать лексемы языка • Числовая — в виде цифр и знаков, обозначающих математические действия • Графическая — в виде изображений, предметов, графиков • Звуковая — устная или в виде записи и передачи лексем языка аудиальным путём • другие виды
Способы обработки информации • неавтоматизированный • автоматизированный
Обработка данных (1) • Обработка - преобразование объектов обработки, которое придает им новые, необходимые свойства. Это преобразование осуществляется в форме процесса, протекающего во времени • Технология – система взаимосвязанных способов обработки материалов и приемов изготовления продукции в производственном процессе • Информационная технология – совокупность методов, способов, приемов и средств обработки документированной информации, включая прикладные программные средства, и регламентированного порядка их применения • Важное свойство процесса обработки – этапность, стадийность
Обработка данных (2) • Алгоритм - это точное, т. е. сформулированное на определенном языке, конечное описание того или иного общего метода, основанного на применении исполнимых элементарных тактов обработки • Виды обработки: • последовательная • параллельная • Формальные модели обработки данных: • конечные автоматы • сети Петри • процессы Хоара • системы и сети массового обслуживания и др.
Модель процесса обработки данных. Конечные автоматы • Конечным автоматом называется набор из пяти объектов , в котором: • - входной алфавит; • - выходной алфавит); • - множество внутренних состояний автомата; • - функция перехода в следующее состояние (переходная функция); • - функция выхода (выходная функция).
Модель процесса обработки данных. Сети Петри • В сетях Петри события и условия представлены абстрактными символами из двух непересекающихся алфавитов, называемых соответственно множеством переходов и множеством мест В процессе функционирования сети происходит смена разметок мест, как результат срабатывания ее переходов. Сеть останавливается, если ни один из ее переходов не может сработать
Типичные цели обработки данных • собрать всю доступную информацию, представленную в данных различной природы • отделить существенную информацию, представленную данными, от несущественной, для рассмотрения в данный момент • представить существенную информацию в виде, наиболее удобном для восприятия человеком
Общие задачи обработки данных (1) • сбор данных • оценка качества данных • ввод данных в различные информационные системы • автоматический ввод данных • ручной ввод данных • контроль и исправление ошибок ручного ввода • накопление данных • хранение накопленных данных, в том числе: • учёт и инвентаризация данных • сортировка данных • классификация данных
Общие задачи обработки данных (2) • доступ к данным • поиск нужных данных в накопленных массивах данных • контроль доступа и защита данных • передача данных и обмен данными • интеграция данных • упаковка данных • маркировка данных • надёжность передачи данных
Общие задачи обработки данных (3) • представление данных, как то: • наглядные представления данных: • текстовое представление данных • табличное представление данных • графическое представление данных • иное визуальное представление данных • форматы представления данных в различных информационных системах
Общие задачи обработки данных. Выводы • ввод (в т.ч. оцифровка) • поиск • сортировка • фильтрация • классификация (интерпретация) • сжатие (компрессия) • представление (форматы, визуализация)
Понятие анализа данных • Анализ данных — область математики и информатики, занимающаяся построением и исследованием наиболее общих математических методов и вычислительных алгоритмов извлечения знаний из экспериментальных (в широком смысле) данных; процесс исследования, фильтрации, преобразования и моделирования данных с целью извлечения полезной информации и принятия решений • Интеллектуальный анализ данных (Business intelligence, BI) — это особый метод анализа данных, который фокусируется на моделировании и открытии данных, а не на их описании
OLAP • OLAP (англ. online analytical processing, оперативная аналитическая обработка) — технология обработки данных, заключающаяся в подготовке суммарной (агрегированной) информации на основе больших массивов данных, структурированных по многомерному принципу • Агрегатные функции образуют многомерный (и, следовательно, нереляционный) набор данных (называемый гиперкубом или метакубом), оси которого содержат параметры, а ячейки — зависящие от них агрегатные данные. Вдоль каждой оси данные могут быть организованы в виде иерархии, представляющей различные уровни их детализации
Обработка тестовых данных (1) • поиск (в т.ч. по ключевым словам) • семантический анализ • тематическая и жанровая классификация сообщений на основе лексико-статистического анализа (в т.ч. фильтрация спама) • отбор сообщений на основе структурно-статистических признаков • оценка достоверности • сокращения избыточности представления (реферирование и аннотирование) • сжатие текстовых данных
Обработка тестовых данных (2) Результаты обработки текстов песен-победителей "Евровидения« с 1956 по 2010 гг.
Обработка изображений • Геометрические преобразования • Цветовая коррекция • Сравнение двух и более изображений • Комбинирование изображений различными способами • Интерполяция и сглаживание • Разделение изображения на области (сегментация изображений). • Редактирование и ретуширование • Фильтрация изображений • Распознавание текста • Машинное зрение • Сжатие изображений
Обработка числовой информации • Задачи • Классификация • Кластеризация • Сокращение описания • Ассоциация • Прогнозирование • Анализотклонений • Оценивание • Анализ связей • Статические методы • Машинное обучение
Что такое Data Mining Data Mining– «добыча данных» • Извлечение новых знаний и неочевидных зависимостейиз больших объемов сложных данных • Предмет интереса: • Нетривиальные знания • Неявные зависимости • Предварительно неизвестные знания • Потенциально полезные знания • Синонимы • Интеллектуальный анализ данных - Business Intelligence • Открытие знаний в БД • Базы знаний. Извлечение знаний • Анализ паттернов
Прикладные области обработки данных (1) • Астрономия • Медицина и биотехнологии • Бухгалтерский учёт и инвентаризация • Издательское дело • Компьютерная графикаи обработка изображений • Конкурентная разведка • Криптография • Нанотехнологии • Обработка результатов экспериментов • Обработка сигналов
Прикладные области обработки данных (2) • Обучение • Представление знаний • Прикладная статистика • Экономическая кибернетика • Экспериментальная психология
Спасибо за внимание! • KudinovAV@tpu.ru