Базы данных
<<  Базы данных. Информационные системы Стеганографические методы скрытия данных в аудиосигналах  >>
Методы интеллектуального анализа данных и некоторые их приложения
Методы интеллектуального анализа данных и некоторые их приложения
Цели создания систем анализа и фильтрации Интернет-трафика
Цели создания систем анализа и фильтрации Интернет-трафика
Архитектура системы
Архитектура системы
Анализ и прогнозирование качества ТП
Анализ и прогнозирование качества ТП
Картинки из презентации «Методы интеллектуального анализа данных и некоторые их приложения» к уроку информатики на тему «Базы данных»

Автор: Roman. Чтобы познакомиться с картинкой полного размера, нажмите на её эскиз. Чтобы можно было использовать все картинки для урока информатики, скачайте бесплатно презентацию «Методы интеллектуального анализа данных и некоторые их приложения.ppt» со всеми картинками в zip-архиве размером 2617 КБ.

Методы интеллектуального анализа данных и некоторые их приложения

содержание презентации «Методы интеллектуального анализа данных и некоторые их приложения.ppt»
Сл Текст Сл Текст
1Методы интеллектуального анализа 23Электронный документооборот.
данных и некоторые их приложения. Интеллектуальная система анализа и
д.ф.-м.н. И.В.Машечкин (mash@cs.msu.su), фильтрации электронной почты масштаба
к.ф.-м.н. М.И. Петровский предприятия Система анализа и много-темной
(michael@cs.msu.su) лаборатория классификации Web трафика Интеллектуальная
«Технологий программирования» ВМиК МГУ им. систему теневого копирования, рубрикации и
М.В. Ломоносова. аннотирования электронных документов
2Эволюция технологий хранения и организации.
обработки данных. … — 1960-е: Файлы и 24ИАД для системы анализа и фильтрации
файловые архивы 1960-е: Первые СУБД, электронной почты. Алгоритм классификации
иерархические, сетевые и т.д. 1970-е: (на SVM): векторная форма представления
Реляционная модель данных, реляционные письма высокая точность эффективность по
СУБД 1980-е: «Продвинутые» СУБД скорости персональная модель классификации
(объектно-реляционные и объектные, почты Предобработка данных: Снижение
«расширенные» реляционные, дедуктивные и размерности исходного пространства
д.р.) «Специализированные» СУБД (хи-квадрат и PCA) Уменьшение размера
(гео-,научные, инженерные и д.р.) 1990-е — тренировочного набора - кластеризация.
…: Мультимедийные БД, WWW, хранилища, 25Архитектура системы фильтрации.
витрины данных,OLAP, Data Mining. Особенности реализации: Учет
3Актуальность и необходимость ресурсоемкости алгоритмов на этапе
интеллектуального анализа данных. Проблема обучения Распределение и баланс нагрузки
больших объемов («Data explosion»): Классификация в режиме реального времени
Средства автоматического сбора данных, Возможность масштабирования Возможность
повсеместное внедрение СУБД, электронный интеграции с различными почтовыми
документооборот, WWW, мультимедийные системами.
архивы и т.д. Все ведет к росту объемов и 26Результаты экспериментальной
усложнению структуры хранимой информации. реализации и апробации. Почтовый сервер
Традиционные средства не справляются: лаборатории «Технологий программирования»
Информационный поиск и стат. анализ не эксплуатация с весны 2004 около 1 тыс.
везде помогают – много данных, сложная писем в день (после RBL) из них > 70%
структура и нужно знать точно, что искать. спам уровень обнаружения более 95% уровень
Вывод: много данных, но мало информации ложно-положительных ошибок ~ 0.1% Почтовый
для аналитика. Необходимо: Разработка сервер факультета ВМиК, МГУ эксплуатация с
программных средств автоматизированного осени 2004.
анализа данных большого объема и сложной 27Цели создания систем анализа и
структуры. фильтрации Интернет-трафика. Блокирование
4Интеллектуальный анализ данных (Data доступа к нелегальной (экстремистской,
Mining). Системы интеллектуального анализа антисоциальной, террористической и т.п.)
данных (ИАД) – класс программных систем информации Предотвращение использования
поддержки принятия решений, задачей Интернет-ресурсов в личных целях в рабочее
которых является поиск скрытых, ранее и учебное время Предотвращение утечки
неизвестных, содержательных и потенциально конфиденциальной информации (анализ
полезных закономерностей в больших объемах исходящего трафика).
разнородных, сложно структурированных 28Существующие системы фильтрации.
данных. Han J., Kamber M. Data Mining: Традиционный подход («сигнатурные»
Concepts and Techniques // Morgan методы): Использование при анализе
Kaufmann, 2000. Интернет-трафика специализированных,
5Процесс ИАД (1). Анализ предметной формируемых экспертами, баз знаний,
области: выявление и формулировка содержащих информацию об Интернет-ресурсах
необходимых априорных знаний о предметной (URL, IP-адреса, ключевые слова) Основные
области, целей анализа, задач приложения, недостатки: Ориентированы на ресурсы со
сценариев использования Формирование и статическим содержанием («черные списки»
подготовка данных для анализа: поиск (или адресов) Возможны ошибки при определении
выбор) «сырых» данных, возможно реализация тематики Результаты зависят от качества и
подсистемы сбора (консолидации) оперативности обновления баз знаний
предобработка данных (нормализация, Отсутствует анализа исходящего трафика
дискретизация, обработка пропущенных (нет возможности предотвращения утечки
значений, удаление артефактов, проверка конфиденциальной информации).
консистентности) уменьшение размерности, 29Анализ и фильтрация Интернет- трафика
выбор значимых характеристик, расчет на основе методов ИАД. Основная идея:
интегральных показателей и инвариантов Классификация потока гипертекстовой
Определение типа решаемой задачи анализа: информации в режиме реального времени с
классификация, прогнозирование, учетом содержания и структуры ссылок
кластеризация, поиск исключений, документов с использованием методов
ассоциативный анализ и т.д. извлечения и применения знаний (алгоритмы
6Процесс ИАД (2). Выбор (или машинного обучения и интеллектуального
разработка) алгоритма анализа: определение анализа данных). Функционирование:
ограничений и требований к алгоритму по Администратор формирует тренировочный
точности, размеру, интерпретируемости, набор с известными тематиками (примеры
скорости построения и применения гипертексовых документов, либо список
получаемых моделей, по типу исходных Интернет-ресурсов, содержимое которых
данных Собственно «Data mining»: затем откачивает робот); На тренировочном
применение выбранного алгоритма анализа наборе методами машинного обучения
для поиска закономерностей выбранного типа строится классификатор, который затем
и построение моделей Проверка моделей и используется Интернет-фильтром в режиме
представление результатов анализа: реального времени для анализа содержимого
визуализация, преобразование, удаление трафика. На настоящий момент времени нет
избыточности, оценка точности, таких промышленных решений!
достоверности моделей и т.д. Применение 30Преимущества. Классификация в реальном
построенных моделей: Descriptive data времени статических и динамических
mining - информирование аналитика, интернет ресурсов; Точность выше, чем у
«описательные» модели, основная цель – «сигнатурных» методов; Автономность -
визуализация Predictive data mining – независимость от внешних экспертов,
прогнозирование неизвестных значений или поддержка собственной автоматически
характеристик в «новых» данных с помощью пополняемой базы знаний адресов;
построенных моделей , основная цель – Адаптируемость - возможность уточнения
прогноз. классификации при поступлении новых
7Программные системы ИАД. Типовая примеров; Расширяемость - возможность
архитектура: Классификация систем ИАД: По добавлять новые категории и гибко
типу анализируемых данных По типу решаемых настраивать политики фильтрации.
задач По методам анализа и классам 31Архитектура системы.
алгоритмов По области применения. 32Основные результаты. Реализация
8Типы исходных данных (1). системы: Формализованы требования и
Транзакционные базы данных и репозитории сценарии взаимодействия Спроектированы и
«событий» Объекты анализа – «события» реализованы базовые компоненты, их
различной структуры с числовыми и функционал, интерфейсы, алгоритмы работы
категориальными атрибутами, и с временной Разработана онтология представления
меткой Реляционные и объектные СУБД информации об интернет ресурсах и
Объекты анализа сложным образом алгоритмы работы с базой знаний Разработан
взаимосвязаны (заданно ER-схемой), имеют новый алгоритм много-темной классификации:
разнотипные атрибутами, наследование на основе модифицированного для
(расширение) Многомерные OLAP-хранилища существенно пересекающихся классов метода
Объекты анализа – срезы многомерно OLAP «попарных сравнений» с помощью набора
куба, т.е. набор числовых мер, при бинарных классификаторов и отсечением
фиксированных значениях измерений нерелевантных классов Предложена
Временные ряды и числовые данные большого расширенная векторная модель представления
объема Обработка результатов наблюдений, гипертекстовых документов: включает
научных экспериментов, характеристик базовые текстовые и нетекстовые признаки,
технологических процессов. составные признаки (сгруппированные
9Типы исходных данных (2). базовые) определяются с помощью метода
Географические и пространственные данные поиска частых эпизодов новый метод учета
Привязка к пространственным координатам, гиперссылок (не требует загрузки
учет географии объектов при анализе содержимого «окружения»).
(например при определении меры сходства 33Интеллектуальная система анализа и
или расстояния) , учет перемещения в мониторинга электронного документооборота
пространстве (moving objects) Символьные организации. Основная задача системы:
последовательности ДНК цепочки, машинные Перехват, «теневое копирование» и
коды, трассы выполнения процессов, тексты автоматизированное формирование «базы
программ на ЯП Электронные тексты на знаний» электронных документов организации
естественном языке анализ содержимого Возможности системы : журналируется
документов, проблема представления, история работы пользователей с документами
морфология Гипертекстовые данные и WWW и история изменений документов для каждой
структурированный текст на естественном версии документа автоматически
языке, учет гиперссылок и нетекстового определяется тематика, множество похожих
содержания Мультимедия Звук, видео, документов (кластер), строится и
изображения. сохраняется аннотация – набор ключевых
10Задачи ИАД = типы выявляемых фрагментов текста документа выявление
закономерностей. Классификация («Обучение ключевых характеристик – алгоритмы SVD,
с учителем») Отнесение объектов к заранее ICA и др. администратор может выполнить
определенным категориям Прогнозирование поиск и классификацию документов по
(«Обучение с учителем») На основании содержимому и по аннотациям.
известных значений атрибутов 34Архитектура. Драйвер ФС: определяет с
анализируемого объекта определяются какими файлами работал пользователь;
значения неизвестных атрибутов Ассоциации Служба теневого копирования: определяет
(«Обучение без учителя») Выявление как сильно изменился файл, при
зависимостей между атрибутами необходимости делает резервную копию,
Кластеризация («Обучение без учителя») передает файл на обработку; База знаний:
Выделение компактных подгрупп «похожих» хранение резервных копий файлов их
объектов Дискриминантный анализ («Обучение аннотаций, служебной информации о
без учителя») Выявление атрибутов который кластерах и моделей аннотирования;
«различают» (дискриминируют) две или более Управление очередью заданий: хранит
возникающие совокупности (группы) очередь заданий на обработку, при
Выявление исключений («Обучение с и без освобождении ресурсов ВС выполняет задания
учителя») Поиск объектов, которые своими из очереди; Монитор ресурсов: анализирует
характеристиками значительно отличаются от загруженность ВС, разрешает выполнять
остальных. задания из очереди;
11Методы анализа. Data Mining. 35Архитектура ИАД системы анализа
Технологии БД. Статистика и теор. вер. поведения технологических процессов.
Машинное обучение. Визуализация. Теория Особенности реализации: выявление аномалий
информации. Другие дисциплины. в характеристик ТП функционирование в
12Область применения систем ИАД. Системы промышленной среде работа в режиме мягкого
ИАД «общего назначения» По сути включают реального времени расширяемость по набору
framework, библиотеку алгоритмов анализа и методов анализа.
набор программных средств для реализации 36Выявление нештатных ситуаций.
ИАД процесса для широкого класса входных построение модели поведения ТП (на этапе
данных и прикладных задач Примеры обучения) оценка отклонения текущего
DataMiner, MS Analysis Services, Oracle состояния ТП от модельного используются
BI, PolyAnalyst Специализированные системы методы анализа временных рядов и
ИАД Набор решаемых задач и алгоритмов последовательностей: Класса «Гусеница»
решения, а также средств подготовки данных (Singular Spectrum Analysis) Методы
и визуализации результата ориентирован на авторегрессии на основе SVR Скрытые модели
конкретную предметную область ИАД процесс Маркова и др.
максимально «автоматизирован», но конечным 37Анализ и прогнозирование качества ТП.
потребителем информации все равно является Quality = F(X1, … xn), где xi — i-ая
эксперт-аналитик Области применения: характеристика производственного процесса.
маркетинг, анализ финансовых рисков, Какие параметры производственного процесса
здравоохранение, страхование, влияют на качество продукции?
кредитование, телекоммуникации, 38Результат. Разработаны алгоритмы: на
компьютерная безопасность, мониторинг основе нечетких деревьев решений с
оборудования и технологических процессов, поддержкой эволюционных методов
антитерроризм, интернет и т.д. оптимизации нечетких переменных и
13ИАД в проектах лаборатории «Технологий структуры правил Реализована
Программирования». Компьютерная экспериментальная программная система:
безопасность Обнаружение внешних и строит модели зависимости качества
внутренних вторжений Моделирование и продукции от характеристик
анализ поведения пользователей Электронный производственного процесса, представимую в
документооборот анализ и фильтрация виде системы нечетких правил «если … то …
электронной почты и Web трафика рубрикация иначе»; прогнозирование ожидаемого
и аннотирование электронных документов качества изделия по характеристикам
организации Технологические процессы и производственного процесса производится с
производство выявление нештатных ситуаций достаточной точностью; позволяет
прогнозирование качества продукции Системы упорядочить характеристики
поддержки принятия решений использование технологического процесса по степени
ИАД в ПО ситуационных центров. влияния на качество.
14ИАД в компьютерной безопасности. Цели 39Ситуационный центр. Основная задача СЦ
компьютерной безопасности: обеспечение — строить наглядные образы ситуаций,
конфиденциальности, целостности и возникающих в предметной области, на
доступности данных Вторжение – действия основе которых оперативный состав
программы или пользователя, направленные принимает управляющие решения. в СЦ
на нарушение целей компьютерной обязательно входит оперативный состав
безопасности Традиционные методы (коллектив потребителей наглядной
предотвращения вторжений (авторизация, информации), решающий некоторую
разграничение прав доступа, криптозащита и совокупность задач, требующих принятия
т.д.) не справляются Необходимо выявление решений; в СЦ создаются информационные
вторжений. модели и картины весьма сложных,
15Традиционные средства выявления комплексных, динамических ситуаций
вторжений. Основные концепции: Используют реального мира для представления
базах сигнатур известных атак Источники оперативному состав. Определение СЦ: это
информации: системные журналы и файлы, совокупность программно-технических
содержимое сетевого трафика и файлов. средств, научно-математических методов и
Недостатки: Базы знаний формируются инженерных решений для автоматизации
экспертами Необходимо периодически процессов отображения, моделирования,
обновлять Существенная задержка во времени анализа ситуаций и управления.
между появлением новой атаки и средств 40Место ИАД в процессе поддержки
защиты от нее Атаки постоянно принятия решений в СЦ. Задачи: Расчет
видоизменяются Есть методы «маскировки» индикаторов на основе данных предметной
атак. области Определение тенденций и
16Методы ИАД в задачах выявления прогнозирование значений индикаторов
вторжений. Основное предположение: Выявление аномалий в значениях
активность пользователей и программ можно индикаторов. Принятие решениий.
полностью отследить и построить ее Представление результатов анализа. Data
адекватную модель Особенности: накопление mining: выявление зависимостей,
исторической информации модели нормального обнаружение аномалий, прогноз развития
поведение или вторжения эффективные методы ситуации. Стат. анализ, отчеты, запросы к
анализа, которые проверяют текущую хранилищу. Хранилища и витрины данных,
активность в системе на соответствие OLAP расчет интегральных показателей.
построенным моделям. Источники данных. Документы, файлы,
17Обнаружение нарушений. Особенности: отчеты, базы данных событий. Лпр.
Строится обобщенная модель атаки Основано Аналитик. Оператор.
на методах классификации Атакой считаются 41Расчет и хранение индикаторов.
события или последовательности событий, Проведение статистического анализа и
соответствующие модели Основные проблемы: вычисление индикаторов, описывающих
«Обучение с учителем»: модель строится на ситуацию.
примерах атак (необходимо их иметь и 42Выявление аномалий в значениях
выделть из общей массы данных «вручную») индикаторов.
Невозможно обнаруживать абсолютно новые 43Определение тенденций и
или хорошо «замаскированные» атаки. прогнозирование значений индикаторов.
18Обнаружение аномалий. Особенности : 44Текущие результаты. Проектирование и
Строится обобщенная модель нормальной создание рабочего места аналитика
активности пользователей или программ ситуационного центра мониторинга и анализа
(профайл) Основано на методах поиска ситуаций: Просмотр ситуации по срезам
исключений Атакой считаются события или OLAP-куба в виде сводной таблицы,
последовательности событий, диаграммы или отображения на карте
несоответствующие модели Основные Просмотр результатов выявления аномалий
проблемы: Предположения («Обучение без Просмотр результатов прогнозирования
учителя»): обычные события отличаются от Разработка и реализация специальных ИАД
атак атак не больше p% от всех алгоритмов поиска аномалий и
тренировочных данных, где p мало или равно прогнозирования с учетом специфики данных
0 (обычно p неизвестно) Высокий уровень – срезы OLAP куба.
ошибок второго рода (false positive). 45Спасибо за внимание! и Вопросы?
19Разработанные и реализованные д.ф.-м.н. И.В.Машечкин (mash@cs.msu.su),
алгоритмы. Обнаружение аномалий: Оценка к.ф.-м.н. М.И. Петровский
степени «типичности» событий и их (michael@cs.msu.su) лаборатория
последовательностей - нечеткая «Технологий программирования» ВМиК МГУ им.
кластеризация в бесконечномерном М.В. Ломоносова.
пространстве характеристик. Обнаружение 46Отличия ИАД систем (1). Наличие
нарушений: Гибридный метод – Нечеткий SVM «обучения» база знаний формируются на
(Fuzzy Support Vector Machine) в сочетании основе анализируемых данных, а не
с предыдущим методом «Описательные» модели экспертных знаний (в отличии от
поведения пользователей: Вероятностная традиционных экспертных систем и систем
модель поведения пользователя на основе информационного поиска) структура модели и
деревьев решений и отображения множества искомые зависимости заранее не известны (в
ситуаций (последовательностей событий) в отличии от статистических пакетов,
пространство характеристик с помощью ориентированных на расчет статистик,
потенциальных функций Верификация: На проверку гипотез и оценку параметров
реальных данных и на эталонных тестовых распределений).
наборах DARPA и др. 47Отличия ИАД систем (2). Наличие
20Система мониторинга и анализа большого объема данных сложной структуры
поведения пользователей. Функциональность: зачастую скорость работы алгоритмов в ИАД
Сбор и консолидация данных о работе важнее отклонений по точности (“quick and
пользователей Статистический и dirty solution”) большинство алгоритмов
интеллектуальный анализ Построение и работают с исходными данными в виде
визуализация моделей поведения Поиск числовой матрицы признаков, сложная
аномалий в работе пользователей Области структура реальных объектов в ИАД,
применения: Выявление инсайдеров и приводит к необходимости решать задачу
предотвращение утечек информации Поиск и построения пространства характеристик и
анализ последствий вторжений Система отображения в него свойств исходных
«раннего предупреждения» Анализ объектов перечисленные особенности
производительности и целевого отличают ИАД системы от традиционных
использования пользователями систем машинного обучения, в которых как
вычислительных средств организации. правило решается обратная задача –
21Архитектура системы мониторинга. построение достоверной модели в условиях
22Особенности реализации и результаты. малой обучающей выборки.
Подсистема консолидации исходных данных: 48Отличия ИАД систем (3). Наличие
Мульти-агентный подход Нет ограничений на человека - аналитика как оконечного
источники собираемых данных Универсальный потребителя результатов работы ИАД системы
интерфейс для работы с модулями сбора в сценарии работы любой системы ИАД всегда
данных Специализированный формат присутствует аналитик, даже если
представления собранных данных полученная в результате модель далее
Специализированное отказоустойчивое высоко используется для автоматической
производительное хранилище данных на классификации аналитик формирует
файловой системе Специальная предобработка тренировочные наборы, производит настройку
данных Анализируемые факты: Вход/выход в алгоритмов, обучение и дообучение,
систему, запуск пользовательских и анализирует полученные модели и принимает
системных процессов, доступ к данным на решения об их дальнейшем использовании
любых носителях, активность пользователей таким образом, системы автоматические
в приложениях (клавиатура, мышь), классификации, кластеризации и
входящий/исходящий сетевой трафик Опытная распознавания образов, даже использующие
эксплуатация: В ряде коммерческих и возможность дообучения, не являются
государственных организаций прошло опытное системами ИАД.
внедрение.
Методы интеллектуального анализа данных и некоторые их приложения.ppt
http://900igr.net/kartinka/informatika/metody-intellektualnogo-analiza-dannykh-i-nekotorye-ikh-prilozhenija-230866.html
cсылка на страницу

Методы интеллектуального анализа данных и некоторые их приложения

другие презентации на тему «Методы интеллектуального анализа данных и некоторые их приложения»

«Статистические данные на графиках» - Способы представления данных: Сколько детей в вашей семье? Таблицы. Какую музыку вы слушаете? Ваш рост. Диаграммы: круговые, столбчатые(гистограммы), линейные. Ваш размер обуви. Какие телепередачи вы смотрите? По данным «размер обуви» найдите среднее арифметическое и моду. Ваш вес. Графики(полигоны).

«Типы баз данных» - Карта. Определения. Достоинства и недостатки сетевой БД. Сеть Интернет. Столица. Пример: посещение учащимися одной группы спортивных секций. иерархические БД сетевые БД табличные БД. Memo. Население. О чем может идти речь? Задание: для следующих полей определить тип. Любое поле должно иметь уникальное имя.

«Изучение баз данных» - БД «Животные». - Фронтальное обсуждение нового учебного материала; Записная книжка (мой класс, мои друзья). Приоритетными объектами изучения информатики в старшей школе являются информационные системы, связанные с информационными процессами, и информационные технологии, рассматриваемые с позиций системного подхода.

«Базы данных 9 класс» - Какого типа могут быть поля в БД? А) сортировка записей по алфавиту в таблице и в форме б) фильтр по выделенному, в) расширенный фильтр. Назовите типы БД, кратко охарактеризуйте Что значит реляционная БД? Свойства полей: Размер поля Формат поля Обязательное для заполнения. 4 этап Создание схемы связанных таблиц.

«Статистические данные» - Мегафон. Исследовательская работа на тему: Статистические данные в процентах. «Статистика и математика». Месяц рождения. Beeline. Было опрошено 90 человек. Tele2. Март. Октябрь. Мы провели опрос среди учащихся. Интересы моего класса в процентах: Май. Салатовый. Вывод: Результаты опроса: Июль. Рассмотреть связь статистики и математики.

«Информация и данные» - Access (продолжение). Изменения структуры БД. Сортировка и поиск записей. Информационные системы - ИС. Технология работы 1.Запустите СУБД. 2.Создайте новую базу данных. Структура таблицы. Откроется диалоговое окно Таблица 1. 6 Добавьте новое поле. Представление записей в виде строки или карточки. 3. Информационные системы.

Базы данных

19 презентаций о базах данных
Урок

Информатика

130 тем
Картинки
900igr.net > Презентации по информатике > Базы данных > Методы интеллектуального анализа данных и некоторые их приложения