Сравнение Скачать
презентацию
<<  Решение задач на разностное сравнение Сравнение чисел  >>
Лекция 11 “Основы концепции “глубинного анализа текстов” (Text
Лекция 11 “Основы концепции “глубинного анализа текстов” (Text
Intelligent Miner for Text (IBM)
Intelligent Miner for Text (IBM)
TextAnalyst
TextAnalyst
RetrievalWare (Convera)
RetrievalWare (Convera)
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
Фото из презентации «Анализ текстов» к уроку математики на тему «Сравнение»

Автор: Jon Jagger. Чтобы познакомиться с фотографией в полном размере, нажмите на её эскиз. Чтобы можно было использовать все фотографии на уроке математики, скачайте бесплатно презентацию «Анализ текстов» со всеми фотографиями в zip-архиве размером 638 КБ.

Скачать презентацию

Анализ текстов

содержание презентации «Анализ текстов»
Сл Текст Эф Сл Текст Эф
1Лекция 11 “Основы концепции “глубинного анализа0 12Хотя ПОД часто для больших документов оказывается0
текстов” (Text Mining)”. Дмитрий Владимирович ЛАНДЭ. образованием, лишь отдаленно напоминающим исходный
Международный соломонов университет. © ElVisti. текст и не всегда оказывается воспринимаемым человеком,
2Контент-анализ: определения. Один из истоков0 но за счет содержания наиболее весомых ключевых слов и
концепции Text Mining – контент-анализ. Понятие фраз, он может приводить к вполне адекватным
контент-анализа, корни которого в психологии и результатам при полнотекстовом поиске. © ElVisti. 12.
социологии, не имеет однозначного определения: - 13Особенности реализации систем. Рассматриваются0
Контент-анализ - это методика объективного системы: Intelligent Miner for Text (IBM) PolyAnalyst
качественного и систематического изучения содержания (Мегапьютер Інтеллидженс) Text Miner (SAS) SemioMap
средств коммуникации (Д.Джери, Дж. Джери). - (Semio Corp.) Oracle Text (Oracle) Knowledge Server
Контент-анализ - это систематическая числовая (Autonomy) RetrievalWare (Convera) Galaktika-ZOOM
обработка, оценка и интерпретация формы и содержания (корпорация "Галактика") InfoStream (ИЦ
информационного источника (Д. Мангейм, Р. Рич). - "ЭЛВИСТИ"). © ElVisti. 13.
Контент-анализ - это качественно-количественный метод 14Intelligent Miner for Text (IBM).0
изучения документов, которое характеризуется (http://www-3.ibm.com/software/data/iminer/fortext/)
объективностью выводов и строгостью процедуры и состоит Система является одним из лучших инструментов
из квантификационной обработки текста с дальнейшей глубинного анализа текстов. Содержит утилиты : Language
интерпретацией результатов (В. Иванов). - Identification Tool - утилита определения языка - для
Контент-анализ состоит из нахождения в тексте автоматического определения языка, на котором составлен
определенных содержательных понятий (единиц анализа), документ. Categorisation Tool - утилита классификации -
выявление частоты их встречаемости и соотношение с автоматического отнесения текста к некоторой категории
содержанием всего документа (Б.Краснов). - (входной информацией на обучающей фазе работы этого
Контент-анализ - это исследовательская техника для инструмента может служить результат работы следующей
получения результатов путем анализа содержания текста о утилиты - Clusterisation Tool). Clusterisation Tool -
состоянии и свойствах социальной действительности (Э. утилита кластеризации - разбиения большого множества
Таршис). © ElVisti. 2. документов на группы по близости стиля, формы,
3Контент-анализ и добыча данных. Контент-анализ в0 различных частотных характеристик выявляемых ключевых
рамках исследования электронных информационных массивов слов. Feature Extraction Tool - утилита определения
- относительно новое направление, которое нового - выявление в документе новых ключевых слов
предусматривает анализ множеств текстовых документов. (собственные имена, названия, сокращения) на основе
Принято распределение методологий контент-анализа на анализа заданного заранее словаря. Annotation Tool -
две области: качественную и количественную. Основа утилита "выявления смысла" текстов и
количественного контент-анализа - частота появления в составления рефератов - аннотаций к исходным текстам. ©
документах определенных характеристик содержания. ElVisti. 14.
Качественный контент-анализ основан на самом факте 15Intelligent Miner for Text (IBM). Визуализация0
присутствия или отсутствия в тексте одной или кластеров в IBM Intelligent Miner for Text: © ElVisti.
нескольких характеристик содержания. Технологии 15.
глубинного анализа текста Text Mining исторически 16PolyAnalyst (Мегапьютер Інтеллидженс). (0
предшествовала технология добычи данных, методология и http://www.megaputer.com/ ) PolyAnalyst может
подходы которой широко используются. © ElVisti. 3. применяться для автоматизированного анализа числовых и
4Основные задачи Text Mining. Как и большинство0 текстовых баз данных с целью обнаружения ранее
когнитивных технологий – Text Mining – это неизвестных, нетривиальных, полезных и доступных
алгоритмическое выявление прежде не известных связей и пониманию закономерностей. PolyAnalyst является
корреляций в уже имеющихся текстовых данных. Важная клиент-серверным приложением. При этом пользователь
задача технологии Text Mining связана с извлечением из работает с программой PolyAnalyst Workplace.
текста его характерных элементов или свойств, которые Математические же модули выделены в серверную часть -
могут использоваться как метаданные документа, ключевых PolyAnalyst Knowledge Server. PolyAnalyst работает с
слов, аннотаций. Другая важная задача состоит в разными типами данных. Это - числа, логические
отнесении документа к некоторым категориям из заданной переменные, текстовые строки, даты, а также свободный
схемы их систематизации. Text Mining также обеспечивает текст. PolyAnalyst может обрабатывать исходные данные
новый уровень семантического поиска документов. из различных источников, к примеру, файлы Microsoft
Возможности современных систем Text Mining могут Excel 97/2000, ODBC- совместимая СУБД, SAS data files,
применяться при управлении знаниями для выявления Oracle Express, IBM Visual Warehouse. © ElVisti. 16.
шаблонов в тексте, для автоматического «выталкивания» 17TextAnalyst. В состав PolyAnalyst входит система0
или размещения информации по интересующим пользователей TextAnalyst, которая решает такие задачи Text Mining:
профилям, создавать обзоры документов. © ElVisti. 4. создание семантической сети большого текста, подготовка
5Основные элементы Text Mining. В соответствии с уже0 резюме текста, поиск по тексту и автоматическая
сформированной методологии к основным элементам Text классификация и кластеризация текстов. Построение
Mining относятся: классификация (classification), семантической сети - это поиск ключевых понятий текста
кластеризация (clustering), построение семантических и установление взаимоотношений между ними. © ElVisti.
сетей, извлечение фактов, понятий (feature extraction), 17.
суммаризация (summarization), ответ на запросы 18Text Miner (SAS).0
(question answering), тематическое индексирование http://www.sas.com/technologies/analytics/datamining/te
(thematic indexing), поиск по ключевым словам (keyword tminer/. Система SAS Text Miner может работать с
searching). Также в некоторых случаях набор дополняют текстовыми докумен-тами различных форматов из баз
средства поддержки и создание таксономии (oftaxonomies) данных, файловых систем и Web. Text Miner обеспечивает
и тезаурусов (thesauri). © ElVisti. 5. логическую обработку текста в среде мощного пакета SAS
6Классификация. При классификации текстов0 Enterprise Miner. Это позволяет интегрировать
используются статистические корреляции для построения тексто-вую информацию со структурированными данными. ©
правил размещения документов в определенные категории. ElVisti. 18.
Задача классификации - это классическая задачу 19SemioMap (Semio Corp.).0
распознавания, где по некоторой контрольной выборке http://www.entrieva.com/entrieva/products/semiomap.asp?
система относит новый объект к той или другой dr=semiomap SemioMap - это продукт компании Entrieva,
категории. Особенность систем Text Mining заключается в созданный в 1996 г. ученым-семиотиком Клодом Фогелем
том, что количество объектов и их атрибутов может быть (Claude Vogel). В мае 1998 г. продукт был выпущен как
очень большой, поэтому должны быть предусмотрены промышленный комплекс SemioMap 2.0 - первая система
интеллектуальные механизмы оптимизации процесса Text Mining, работающая в архитектуре клиент-сервер. ©
классификации. В существующих сегодня системах ElVisti. 19.
классификация применяется, например, в таких задачах: 20SemioMap (Semio Corp.). Система SemioMap состоит из0
группировка документов в intranet-сетях и на двух основных компонент - сервера SemioMap и клиента
Web-сайтах, размещение документов в определенные папки, SemioMap. Работа системы протекает в три фазы:
сортировка сообщений электронной почты, избирательное Индексирование: сервер SemioMap автоматически читает
распространение новостей подписчикам. © ElVisti. 6. массивы неструктурированного текста, извлекает ключевые
7Кластеризация. Кластеризация базируется на0 фразы (понятия) и создает из них индекс; Кластеризация
признаках документов, которые использует понятий: сервер SemioMap выявляет связи между
лингвистические и математические методы без извлеченными фразами и строит из них, на основе
использования определенных категорий. Результат - совместной встречаемости, лексическую сеть
таксономия или визуальная карта, которая обеспечивает ("понятийную карту"); Графическое отображение
эффективный охват больших объемов данных. Кластеризация и навигация: визуализация карт связей, которая
в Text Mining рассматривается как процесс выделения обеспечивает быструю навигацию по ключевым фразам и
компактных подгрупп объектов с близкими свойствами. связям между ними, а также возможность быстрого
Система должна самостоятельно найти признаки и обращения к конкретным документам. © ElVisti. 20.
разделить объекты по подгруппам. Кластеризация, как 21Oracle Text (Oracle).0
правило, передует классификации, поскольку разрешает (www.oracle.com/technology/products/text/) Средства
определить группы объектов. Различают два основных типа Text Mining, начиная с Text Server в составе СУБД
кластеризации - иерархическую и бинарную. Кластеризация Oracle 7.3.3 и картриджа interMedia Text в Oracle8i,
применяется при реферировании больших документальных являются неотъемлемой частью продуктов Oracle. В
массивов, определение взаимосвязанных групп документов, Oracle9i эти средства развились и получили новое
упрощения процесса просмотра при поиске необходимой название - Oracle Text. © ElVisti. 21.
информации, нахождения уникальных документов из 22Oracle Text (Oracle). Основной задачей, на решение0
коллекции, выявления дубликатов или очень близких по которой нацелены средства Oracle Text, является задача
содержанию документов. © ElVisti. 7. поиска документов по их содержанию - словам или фразам,
8Другие элементы. Построение семантических сетей0 которые при необходимости комбинируются с
Построение семантических сетей или анализ связей, использованием булевых операций. Результаты поиска
которые определяют появление дескрипторов (ключевых ранжируются по релевантности, с учетом частоты
фраз) в документе для обеспечения навигации. Извлечение встречаемости слов запроса в найденных документах. Для
фактов Извлечение фактов, предназначенное для получения повышения полноты поиска Oracle Text предоставляет ряд
некоторых фактов из текста с целью улучшения средств расширения поискового запроса, среди которых
классификации, поиска и кластеризации. Прогнозирование можно выделить: расширение слов запроса всеми
Состоит в том, чтобы предсказать по значениям одних морфологическими формами, расширение слов запроса
признаков объекта значения остальных. Нахождение близкими по смыслу словами за счет подключения
исключений Поиск объектов, которые своими тезауруса, а также расширение запроса словами, близкими
характеристиками сильно выделяются из общей массы. по написанию и по звучанию - нечеткий поиск и поиск
Визуализация. Визуализация используется как средство созвучных слов. Система Oracle Text обеспечивает
представления контента текстовых массивов, а также для проведение тематического анализа текстов на английском
реализации навигационных механизмов. © ElVisti. 8. языке. В ходе обработки текст каждого документа
9Автоматическое реферирование. Автоматическое0 подвергается процедурам лингвистического и
реферирование (Automatic Text Summarization) - это статистического анализа, в результате чего определяются
составление коротких изложений материалов, аннотаций его ключевые темы и строятся тематические резюме, а
или дайджестов, т.е. извлечения наиболее важных также общее резюме - реферат. © ElVisti. 22.
сведений из одного или нескольких документов и 23Knowledge Server (Autonomy).0
генерация на их основе лаконичных и http://www.autonomy.com/) Архитектура IDOL (Intelligent
информационно-насыщенных отчетов. Существует два Data Operating Layer) сервера компании Autonomy,
направления автоматического реферирования - известной своими разработками в области статистического
квазиреферирование и краткое изложение содержания. контент-анализа, объединяет интеллектуальный парсинг по
Квазиреферирование основано на экстрагировании шаблонам со сложными методами контекстного анализа и
фрагментов документов - выделении наиболее извлечения смысла для решения задач автоматической
информативных фраз и формировании из них классификацию и организации перекрестных ссылок. ©
квазирефератов. Краткое изложение исходного материала ElVisti. 23.
основывается на выделении из текстов с помощью методов 24Knowledge Server (Autonomy). Основное преимущество0
искусственного интеллекта и специальных информационных системы Autonomy - интеллектуальные алгоритмы,
языков наиболее важной информации и порождении новых основанные на статистической обработке. Эти алгоритмы
текстов, содержательно обобщающих первичные документы. базируются на информационной теории Шеннона, Байесовых
Семантические методы формирования рефератов-изложений вероятностях и нейронных сетях. Autonomy включает такие
допускают два основных подхода: метод синтаксического основные возможности: автоматическая классификация;
разбора предложений, и методы, базирующиеся на кластеризация; автореферирование; автоматическое
понимании естественного языка, методах искусственного проставление гиперссылок; автоматическое создание
интеллекта. © ElVisti. 9. профилей (информационных портретов); генерация
103 направления квазиреферирования. В рамках0 таксонометрических деревьев; создание и манипулирование
квазиреферирования выделяют три основных направления, метаданными; интеллектуальная обработка XML-данных;
зачастую применяемых совместно: статистические методы, персонализация; поиск. © ElVisti. 24.
основанные на оценке информативности разных элементов 25RetrievalWare (Convera). (www.convera.com)0
текста по частоте встречаемости, которая служит RetrievaWare - средство полнотекстового и атрибутивного
основным критерием информативности слов, предложений поиска. К документам, с которыми способна работать
или фраз; позиционные методы, которые опираются на система RetrievalWare, относятся тексты в различных
предположение о том, что информативность элемента форматах и кодировках в 200 форматах. Позиционируется
текста есть зависимым от его позиции в документе; как система добычи знаний (Knowledge Mining). ©
индикаторные методы, основанные на оценке элементов ElVisti. 25.
текста, исходя из наличия в них специальных слов и 26Galaktika-ZOOM ("Галактика").0
словосочетаний - маркеров важности, что характеризуют (http://zoom.galaktika.ru/) Основное назначение
их содержательную значимость. © ElVisti. 10. Galaktika-ZOOM - интеллектуальный поиск по ключевым
11Определение веса фрагментов при квазиреферирования.0 словам с учетом морфологии, а также и формирование
Определение веса фрагментов (предложений или абзацев) информационных портретов по конкретным аспектам.
исходного текста выполняется по алгоритмам, которые Ориентация на большие информационные объекты. Система
стали уже традиционными. Общий вес текстового блока на содержит инструментарий для анализа смысловых связей и
этом этапе определяется по формуле: Weight = Location + формирования "образа" проблемы - многомерной
KeyPhrase + StatTerm Коэффициент Location определяется модели в форме списка значимых словосочетаний. Система
расположением блока в исходном тексте и зависит от содержит инструментарий для выявления тенденций и
того, где появляется данный фрагмент - в начале, в динамики развития проблем. © ElVisti. 26.
середине или в конце, а также используется ли он в 27(ИЦ "ЭЛВИСТИ") (http://infostream.Ua).0
ключевых разделах текста, например, в выводе. Ключевые Система InfoStream создана для охвата и обобщения
фразы (KeyPhrase) представляют собой динамических новостных информационных массивов,
конструкции-маркеры, которые резюмируют, типа "в генерируемых в Интернет. © ElVisti. 27.
заключение", "в данной статье", "в 28(ИЦ "ЭЛВИСТИ") (http://infostream.Ua).0
результате анализа" и т.п. Весовой коэффициент Система InfoStream обеспечивает: Доступ к оперативной
ключевой фразы может зависеть также от оценочного информации (более 2700 источников) с единого интерфейса
термина, например, "отличный". Статистический в поисковом режиме с учетом возможного дублирования и
вес текстового блока (StatTerm) вычисляется как семантической близости документов, языковых версий,
нормированная по длине блока сумма весов входящих в размеров документов их цифровой насыщенности и т. д.
него строк - слов и словосочетаний. © ElVisti. 11. Доступ к уникальному ретроспективному фонду,
12Поисковые образы документов. На основе методов0 превышающему 30 млн. записей. Поддержку аналитической
автоматического реферирования возможно формирование работы в режиме реального времени: построение сюжетных
поисковых образов документов. По автоматически цепочек, дайджестов, диаграмм встречаемости и таблиц
построенным аннотациям больших текстов (поисковым взаимосвязей понятий, медиа-рейтингов. © ElVisti. 28.
образам документов) проводится поиск, который 29Спасибо за внимание! МЕЖДУНАРОДНЫЙ СОЛОМОНОВ0
характеризуется высокой точностью (естественно, за счет УНИВЕРСИТЕТ Киев, Украина. Ландэ Д.В dwl@visti.net
полноты). В этом случае аннотированные тексты http://poiskbook.kiev.ua. © ElVisti.
рассматри-ваются как поисковые образы документов (ПОД).
29 «Анализ текстов» | Анализ 0
http://900igr.net/fotografii/matematika/Analiz/Analiz-tekstov.html
cсылка на страницу
Урок

Математика

67 тем
Фото
Презентация: Анализ текстов | Тема: Сравнение | Урок: Математика | Вид: Фото