Работа с текстом Скачать
презентацию
<<  Машинный перевод текста Текстовый процессор  >>
Извлечение информации из текстов: портрет направления
Извлечение информации из текстов: портрет направления
Содержание
Содержание
Особенности задачи
Особенности задачи
Выделяемые сущности
Выделяемые сущности
Технология решения
Технология решения
Проект ontos
Проект ontos
Проект ontos
Проект ontos
Система gate как инструмент
Система gate как инструмент
Gate: примеры аннотаций
Gate: примеры аннотаций
Gate : компоненты
Gate : компоненты
Gate : шаблоны и правила
Gate : шаблоны и правила
ИЗВЛЕЧЕНИЕ ТЕРМИНОВ и СВЯЗЕЙ
ИЗВЛЕЧЕНИЕ ТЕРМИНОВ и СВЯЗЕЙ
Особенности терминов
Особенности терминов
Методы распознавания
Методы распознавания
Методы распознавания: лингвистические критерии
Методы распознавания: лингвистические критерии
Распознавание терминов: текстовые варианты
Распознавание терминов: текстовые варианты
Терминологические варианты: пример
Терминологические варианты: пример
Распознавание терминов: соединения терминов
Распознавание терминов: соединения терминов
Шаблоны: язык lspl
Шаблоны: язык lspl
AP = A(A) | pa(pa) AN= { AP } n<стол,c=nom> [“в”] <AP=N> (N)
AP = A(A) | pa(pa) AN= { AP } n<стол,c=nom> [“в”] <AP=N> (N)
Lspl-шаблоны: примеры
Lspl-шаблоны: примеры
Заключение
Заключение
Картинки из презентации «Извлечение информации из текстов» к уроку информатики на тему «Работа с текстом»

Автор: Igor. Чтобы познакомиться с картинкой полного размера, нажмите на её эскиз. Чтобы можно было использовать все картинки для урока информатики, скачайте бесплатно презентацию «Извлечение информации из текстов.ppt» со всеми картинками в zip-архиве размером 159 КБ.

Скачать презентацию

Извлечение информации из текстов

содержание презентации «Извлечение информации из текстов.ppt»
Сл Текст Сл Текст
1Извлечение информации из текстов: портрет направления. 12их определения в тексте: Под прерыванием понимается сигнал…
Большакова Елена Игоревна МГУ им. М.В. Ломоносова, Факультет Грамматическая структура терминов: чаще всего - именные
ВМиК bolsh@cs.msu.su. Летняя школа по КЛ, 5-11 июля 2011. 1. словосочетания, их можно описать структурными грамматическими
2Содержание. Особенности задачи Выделяемые сущности образцами: прилагательное-существительное – логический вывод,
Технология решения: шаблоны Проект ONTOS и система GATE Задача существительное- существительное в род. падеже – период
извлечения терминологии Особенности терминов и их употребления упреждения. 12. Летняя школа по КЛ, 5-11 июля 2011.
Критерии распознавания Шаблоны для извлечения. 2. Летняя школа 13Методы распознавания. Применение статистических и
по КЛ, 5-11 июля 2011. лингвистических критериев: Статистические критерии Например,
3Особенности задачи. Information Extraction Специфика задачи функция упорядочивания по статистике: ?log2 |a| * freq (a), если
– распознавание и извлечение из текста определенной значимой a не вложено, иначе C-Value(a) = ? ? log2 |a| * (freq (a) –
информации - объектов и фактов, структуризация извлеченной P(Ta)-1 * ?b?Ta freq (b)) где a – слово (словосочетание), |a| –
информации Приложения: текстовая аналитика (экономическая, его длина, freq(a) – частота встречаемости a в тексте, Ta –
производственная, правоохранительная и др.) построение онтологий множество словосочетаний текста, содержащих a, P(Ta) –
и тезаурусов, моделей проблемной области. 3. Летняя школа по КЛ, количество словосочетаний, содержащих a. электрический слой -
5-11 июля 2011. двойной электрический слой. 13. Летняя школа по КЛ, 5-11 июля
4Выделяемые сущности. Именованные сущности: Имена персоналий 2011.
Географические названия Названия фирм и организаций Адреса Даты 14Методы распознавания: лингвистические критерии.
Отношения (связи) выделенных сущностей, например: работать в грамматические (синтаксические) образцы терминов: A N N -
Смирнов А. работает в ОА «Альфа» с 1998 г. связанные с ними спектральный коэффициент излучения контексты употребления
события и факты получение кредита, слияние компаний… 4. Летняя терминов: effect of T – effect of drought, effect of cold
школа по КЛ, 5-11 июля 2011. (последствие засухи, заморозков) such T1 as T2 – such crimes as
5Технология решения. Частичный синтаксический анализ : money laundering (такие преступления, как отмывание денег)
неэфффективность и многовариантность синт. разбора Лингвистическую информацию можно записать в виде шаблонов
Лигвистические шаблоны, содержащие лексическую, морфологическую необходим язык шаблонов и поддерживающие его средства. 14.
и синтаксическую информацию Лингвистич. шаблон – описание Летняя школа по КЛ, 5-11 июля 2011.
языковой конструкции, ее лексического состава и грамматических 15Распознавание терминов: текстовые варианты. При
свойств: N “работает” в NP (Noun Phrase) Элементы шаблонов: использовании терминов в тексте они могут образовывать варианты:
Словоформы, лексемы (возможно, с указанием части Орфографические варианты: браузер - броузер Морфоварианты:
речи/морфологических характеристик) Грамматические конструкции: спецсимвол – спецзнак Лексико-синтаксические варианты:
именные и др. группы. 5. Летняя школа по КЛ, 5-11 июля 2011. механическое напряжение - напряжение дисковый контроллер –
6Проект ontos. АвиКомп, 2000 – 2010 гг. Извлечение под контроллер диска Варианты сокращений: ЦП, авост В словаре
управлением онтологии Инструментальная система GATE Семейство представлены далеко не все варианты терминов, их необходимо
систем OntosMiner - для разных ЕЯ и ПО Цели Построение модели ПО распознвать. 15. Летняя школа по КЛ, 5-11 июля 2011.
Семантическая навигация по тексту Дайджестирование 16Терминологические варианты: пример. 16. Летняя школа по КЛ,
Реферирование: основа реферата - извлеченная информация. 6. 5-11 июля 2011.
Летняя школа по КЛ, 5-11 июля 2011. 17Распознавание терминов: соединения терминов. Соединения
7Система gate как инструмент. Набор стандартных программных нескольких терминологических словосочетаний: Бессоюзные
компонент (лингвистических процессоров) для обработки текста соединения, с разрывом и без разрыва термина: разрядность
Представление лингвистической информации об обрабатываемом внутренних регистров – разрядность регистра, внутренний регистр
тексте в виде набора аннотаций, которые хранятся отдельно от Соединения с союзом: шинам адреса, данных и управления – шина
текста Графическая среда для сборки приложения из компонент. 7. адреса, шина данных, шина управления Средство распознавания -
Летняя школа по КЛ, 5-11 июля 2011. лингвистические шаблоны. 17. Летняя школа по КЛ, 5-11 июля 2011.
8Gate: примеры аннотаций. Сущность «Angela Merkel». 18Шаблоны: язык lspl. Лексико-синтаксический шаблон позволяет
9Gate : компоненты. Цепочка обработки текста в системе GATE: задать для элемента-слова: часть речи (A, N, V, Pa и т.д.) – A
Tokeniser - разбиение текста на отдельные токены (числа, знаки индекс – A1 A2 N лексему – A<важный> морфологические
препинания, слова) Gazetteer - создание аннотаций к словам на характеристики (имя=значение) – A<важный; case=nom,
основании словарных файлов (названия городов, организаций, дней gen=fem> Грамматическое согласование элементов шаблона:
недели и т.д.) Sentence Splitter - разбиение текста на A<тяжелый> N <A.gen=N.gen, A.num=N.num,
предложения Part of Speech Tagger - определение части речи слов A.case=N.case> Прилагательное тяжелый и существительное
на основании словаря и правил Semantic Tagger - распознавание согласованы в роде, числе и падеже: тяжелым вечером, тяжелых
языковых конструкций и сущностей на основе аннотаций и камней, тяжелое тело.
JAPE-правил OrthoMatcher (Orthographic Coreference ) - 19AP = A(A) | pa(pa) AN= { AP } n<стол,c=nom> [“в”]
соотнесение идентичных сущностей с разными названиями. 9. Летняя <AP=N> (N). Язык lspl-шаблонов: возможности. Элемент-слово
школа по КЛ, 5-11 июля 2011. Имя шаблона Экземпляр шаблона Условия согласования.
10Gate : шаблоны и правила. Язык JAPE - запись правил Элемент-слово Имя шаблона Экземпляр шаблона Условия
преобразования аннотаций Шаблоны для выявляемых конструкций, согласования. Альтернативы | Повторение {} Опциональное
например: {Morph.SpeechPart="Adjective", вхождение []. Альтернативы | Повторение {} Опциональное
Morph.Case="Nominative"} - шаблон для выявления вхождение [] Параметры шаблона.
прилагательных в именит. падеже Правила для преобразования 20Lspl-шаблоны: примеры. Шаблон типичной структуры термина: A
аннотаций : левая часть – шаблон, правая – преобразование нужных N1 { N2 <case=gen>} (A=N1) реактивная сила,
аннотаций выявленной конструкции Rule: Second_name немаркированный квантор общности Шаблон типичной
({Token.SemanticType="Name: FName"}):family фразы-определения новых терминов: NP1<c=acc>
{[А-Я]}{Token.Text="."}{[А-Я]}{Token.Text==".&quo ["мы"] "назовем" NP2<c=ins> <NP1.n
;}) ? family.Family={rule="Second_name"} - правило для = NP2.n> Указанную операцию назовем операцией поиска примеров
выявления имен персоналий вида Иванов И. и выделение из них Шаблон образования терминологических вариантов: N1
фамилий. 10. Летняя школа по КЛ, 5-11 июля 2011. N2<c=gen> "," N3<c=gen>
11ИЗВЛЕЧЕНИЕ ТЕРМИНОВ и СВЯЗЕЙ. Терминологические слова и {"и"|"или"} N4<c=gen> #N1
словосочетания: называют понятия проблемной области: общий N2<c=gen> , N1 N3<c=gen> , N1 N4<c=gen> шинам
регистр, число с плавающей точкой технология двойной накачки адреса, данных и управления – шина адреса, шина данных, шина
Приложения: индексирование текстов навигация по тексту поддержка управления.
терминологич. редактирования текстов построение глоссариев и 21Заключение. В основном – извлечение на основе правил
предметных указателей создание онтологий и тезаурусов Часть (rule-based), все чаще - машинное обучение Точность и полнота
приложений – обработка отдельного текста, но не коллекции. 11. извлечения зависят от набора шаблонов зависят друг от друга
Летняя школа по КЛ, 5-11 июля 2011. верхняя граница - до 80-90 % Сложность задачи (технологическая):
12Особенности терминов. Большинство словосочетаний – приемлемая полнота и точность достигается на больших массивах
несвободные (некомпозиционные), т.е. их смысл не выводится из текстов обычно в рамках коммерческих компаний СПАСИБО ЗА
смысла компонент: железная дорога, длина слова ВНИМАНИЕ! 21. Летняя школа по КЛ, 5-11 июля 2011.
Конвенциональность научно-технических терминов ? необходимость
«Извлечение информации из текстов» | Извлечение информации из текстов.ppt
http://900igr.net/kartinki/informatika/Izvlechenie-informatsii-iz-tekstov/Izvlechenie-informatsii-iz-tekstov.html
cсылка на страницу

Работа с текстом

другие презентации о работе с текстом

«Текст документа» - Вставка специальных символов в текст. Печать документа. Оформление документа. Копирование/перемещение фрагментов текста. Сноски. Удаление разрыва. Колонтитулы. Добавление номеров страниц. Изменение регистра текста. 1. Нумерованные 2. Маркированные 3. Многоуровневые. 1. Указать место разрыва 2. Команда Вставка – Разрыв 3. Выбрать вариант разрыва.

«Тексты в памяти компьютера» - Задание №4. Таблица кодировки. Задание № 2. В чем преимущества компьютера при работе с текстом? В чем заключается главное неудобство хранения текстов в дисковых файлах? Затем обменяйтесь шифровками с соседом по парте и расшифруйте загадки. Тексты в компьютерной памяти. Задание №3.

«Системы распознавания и перевода текста» - Сервис/ Шаблоны Шаблон используют на этапе сегментации. Для обработки бланков предназначено специальное приложение FineReader Forms. Например ABBY Fine Reader. Корпус и комплектующие: Сканирование (сканер, цифровой фотоаппарат, цифровая видеокамера). Результат перевода: The computer science is an information science.

«Гипертекст» - Страница 10. ?. Страница 7. Страница 12. Страница 4. Страница 2. Страница 5. Страница 1. Страница 8. Гипертекст. Такие связи называются гиперсвязями (гиперссылками). Страница 3.

«Извлечение информации из текстов» - АвиКомп, 2000 – 2010 гг. Gate : шаблоны и правила. 5. 9. Технология решения. Летняя школа по КЛ, 5-11 июля 2011. 2. 4. Сущность «Angela Merkel». 12. Особенности терминов. Содержание. Gate: примеры аннотаций.

«Системы оптического распознавания документов» - Цели и задачи урока: Формирование знаний о системах оптического распознавания документов . Растровое изображение каждого символа последовательно накладывается на растровые шаблоны символов, хранящиеся в памяти системы оптического распознавания. Распознаваемый символ «Б» накладывается на растровые шаблоны символов (А, Б, В и т. д.).

Урок

Информатика

126 тем
Картинки
Презентация: Извлечение информации из текстов | Тема: Работа с текстом | Урок: Информатика | Вид: Картинки
900igr.net > Презентации по информатике > Работа с текстом > Извлечение информации из текстов.ppt