Работа с текстом Скачать
презентацию
<<  Машинный перевод текста Текстовый процессор  >>
Проект ontos
Проект ontos
Фото из презентации «Извлечение информации из текстов» к уроку информатики на тему «Работа с текстом»

Автор: Igor. Чтобы познакомиться с фотографией в полном размере, нажмите на её эскиз. Чтобы можно было использовать все фотографии на уроке информатики, скачайте бесплатно презентацию «Извлечение информации из текстов» со всеми фотографиями в zip-архиве размером 159 КБ.

Скачать презентацию

Извлечение информации из текстов

содержание презентации «Извлечение информации из текстов»
Сл Текст Эф Сл Текст Эф
1Извлечение информации из текстов: портрет0 12слова Конвенциональность научно-технических терминов ?0
направления. Большакова Елена Игоревна МГУ им. М.В. необходимость их определения в тексте: Под прерыванием
Ломоносова, Факультет ВМиК bolsh@cs.msu.su. Летняя понимается сигнал… Грамматическая структура терминов:
школа по КЛ, 5-11 июля 2011. 1. чаще всего - именные словосочетания, их можно описать
2Содержание. Особенности задачи Выделяемые сущности0 структурными грамматическими образцами:
Технология решения: шаблоны Проект ONTOS и система GATE прилагательное-существительное – логический вывод,
Задача извлечения терминологии Особенности терминов и существительное- существительное в род. падеже – период
их употребления Критерии распознавания Шаблоны для упреждения. 12. Летняя школа по КЛ, 5-11 июля 2011.
извлечения. 2. Летняя школа по КЛ, 5-11 июля 2011. 13Методы распознавания. Применение статистических и0
3Особенности задачи. Information Extraction0 лингвистических критериев: Статистические критерии
Специфика задачи – распознавание и извлечение из текста Например, функция упорядочивания по статистике: ?log2
определенной значимой информации - объектов и фактов, |a| * freq (a), если a не вложено, иначе C-Value(a) = ?
структуризация извлеченной информации Приложения: ? log2 |a| * (freq (a) – P(Ta)-1 * ?b?Ta freq (b)) где
текстовая аналитика (экономическая, производственная, a – слово (словосочетание), |a| – его длина, freq(a) –
правоохранительная и др.) построение онтологий и частота встречаемости a в тексте, Ta – множество
тезаурусов, моделей проблемной области. 3. Летняя школа словосочетаний текста, содержащих a, P(Ta) – количество
по КЛ, 5-11 июля 2011. словосочетаний, содержащих a. электрический слой -
4Выделяемые сущности. Именованные сущности: Имена0 двойной электрический слой. 13. Летняя школа по КЛ,
персоналий Географические названия Названия фирм и 5-11 июля 2011.
организаций Адреса Даты Отношения (связи) выделенных 14Методы распознавания: лингвистические критерии.0
сущностей, например: работать в Смирнов А. работает в грамматические (синтаксические) образцы терминов: A N N
ОА «Альфа» с 1998 г. связанные с ними события и факты - спектральный коэффициент излучения контексты
получение кредита, слияние компаний… 4. Летняя школа по употребления терминов: effect of T – effect of drought,
КЛ, 5-11 июля 2011. effect of cold (последствие засухи, заморозков) such T1
5Технология решения. Частичный синтаксический анализ0 as T2 – such crimes as money laundering (такие
: неэфффективность и многовариантность синт. разбора преступления, как отмывание денег) Лингвистическую
Лигвистические шаблоны, содержащие лексическую, информацию можно записать в виде шаблонов необходим
морфологическую и синтаксическую информацию Лингвистич. язык шаблонов и поддерживающие его средства. 14. Летняя
шаблон – описание языковой конструкции, ее лексического школа по КЛ, 5-11 июля 2011.
состава и грамматических свойств: N “работает” в NP 15Распознавание терминов: текстовые варианты. При0
(Noun Phrase) Элементы шаблонов: Словоформы, лексемы использовании терминов в тексте они могут образовывать
(возможно, с указанием части речи/морфологических варианты: Орфографические варианты: браузер - броузер
характеристик) Грамматические конструкции: именные и Морфоварианты: спецсимвол – спецзнак
др. группы. 5. Летняя школа по КЛ, 5-11 июля 2011. Лексико-синтаксические варианты: механическое
6Проект ontos. АвиКомп, 2000 – 2010 гг. Извлечение0 напряжение - напряжение дисковый контроллер –
под управлением онтологии Инструментальная система GATE контроллер диска Варианты сокращений: ЦП, авост В
Семейство систем OntosMiner - для разных ЕЯ и ПО Цели словаре представлены далеко не все варианты терминов,
Построение модели ПО Семантическая навигация по тексту их необходимо распознвать. 15. Летняя школа по КЛ, 5-11
Дайджестирование Реферирование: основа реферата - июля 2011.
извлеченная информация. 6. Летняя школа по КЛ, 5-11 16Терминологические варианты: пример. 16. Летняя0
июля 2011. школа по КЛ, 5-11 июля 2011.
7Система gate как инструмент. Набор стандартных0 17Распознавание терминов: соединения терминов.0
программных компонент (лингвистических процессоров) для Соединения нескольких терминологических словосочетаний:
обработки текста Представление лингвистической Бессоюзные соединения, с разрывом и без разрыва
информации об обрабатываемом тексте в виде набора термина: разрядность внутренних регистров – разрядность
аннотаций, которые хранятся отдельно от текста регистра, внутренний регистр Соединения с союзом: шинам
Графическая среда для сборки приложения из компонент. адреса, данных и управления – шина адреса, шина данных,
7. Летняя школа по КЛ, 5-11 июля 2011. шина управления Средство распознавания -
8Gate: примеры аннотаций. Сущность «Angela Merkel».2 лингвистические шаблоны. 17. Летняя школа по КЛ, 5-11
9Gate : компоненты. Цепочка обработки текста в0 июля 2011.
системе GATE: Tokeniser - разбиение текста на отдельные 18Шаблоны: язык lspl. Лексико-синтаксический шаблон0
токены (числа, знаки препинания, слова) Gazetteer - позволяет задать для элемента-слова: часть речи (A, N,
создание аннотаций к словам на основании словарных V, Pa и т.д.) – A индекс – A1 A2 N лексему –
файлов (названия городов, организаций, дней недели и A<важный> морфологические характеристики
т.д.) Sentence Splitter - разбиение текста на (имя=значение) – A<важный; case=nom, gen=fem>
предложения Part of Speech Tagger - определение части Грамматическое согласование элементов шаблона:
речи слов на основании словаря и правил Semantic Tagger A<тяжелый> N <A.gen=N.gen, A.num=N.num,
- распознавание языковых конструкций и сущностей на A.case=N.case> Прилагательное тяжелый и
основе аннотаций и JAPE-правил OrthoMatcher существительное согласованы в роде, числе и падеже:
(Orthographic Coreference ) - соотнесение идентичных тяжелым вечером, тяжелых камней, тяжелое тело.
сущностей с разными названиями. 9. Летняя школа по КЛ, 19AP = A(A) | pa(pa) AN= { AP } n<стол,c=nom>30
5-11 июля 2011. [“в”] <AP=N> (N). Язык lspl-шаблонов:
10Gate : шаблоны и правила. Язык JAPE - запись правил0 возможности. Элемент-слово Имя шаблона Экземпляр
преобразования аннотаций Шаблоны для выявляемых шаблона Условия согласования. Элемент-слово Имя шаблона
конструкций, например: Экземпляр шаблона Условия согласования. Альтернативы |
{Morph.SpeechPart="Adjective", Повторение {} Опциональное вхождение []. Альтернативы |
Morph.Case="Nominative"} - шаблон для Повторение {} Опциональное вхождение [] Параметры
выявления прилагательных в именит. падеже Правила для шаблона.
преобразования аннотаций : левая часть – шаблон, правая 20Lspl-шаблоны: примеры. Шаблон типичной структуры0
– преобразование нужных аннотаций выявленной термина: A N1 { N2 <case=gen>} (A=N1) реактивная
конструкции Rule: Second_name сила, немаркированный квантор общности Шаблон типичной
({Token.SemanticType="Name: FName"}):family фразы-определения новых терминов: NP1<c=acc>
{[А-Я]}{Token.Text="."}{[А-Я]}{Token.Text==&q ["мы"] "назовем" NP2<c=ins>
ot;."}) ? <NP1.n = NP2.n> Указанную операцию назовем
family.Family={rule="Second_name"} - правило операцией поиска примеров Шаблон образования
для выявления имен персоналий вида Иванов И. и терминологических вариантов: N1 N2<c=gen>
выделение из них фамилий. 10. Летняя школа по КЛ, 5-11 "," N3<c=gen>
июля 2011. {"и"|"или"} N4<c=gen> #N1
11ИЗВЛЕЧЕНИЕ ТЕРМИНОВ и СВЯЗЕЙ. Терминологические0 N2<c=gen> , N1 N3<c=gen> , N1
слова и словосочетания: называют понятия проблемной N4<c=gen> шинам адреса, данных и управления –
области: общий регистр, число с плавающей точкой шина адреса, шина данных, шина управления.
технология двойной накачки Приложения: индексирование 21Заключение. В основном – извлечение на основе0
текстов навигация по тексту поддержка терминологич. правил (rule-based), все чаще - машинное обучение
редактирования текстов построение глоссариев и Точность и полнота извлечения зависят от набора
предметных указателей создание онтологий и тезаурусов шаблонов зависят друг от друга верхняя граница - до
Часть приложений – обработка отдельного текста, но не 80-90 % Сложность задачи (технологическая): приемлемая
коллекции. 11. Летняя школа по КЛ, 5-11 июля 2011. полнота и точность достигается на больших массивах
12Особенности терминов. Большинство словосочетаний –0 текстов обычно в рамках коммерческих компаний СПАСИБО
несвободные (некомпозиционные), т.е. их смысл не ЗА ВНИМАНИЕ! 21. Летняя школа по КЛ, 5-11 июля 2011.
выводится из смысла компонент: железная дорога, длина
21 «Извлечение информации из текстов» | Извлечение информации из текстов 32
http://900igr.net/fotografii/informatika/Izvlechenie-informatsii-iz-tekstov/Izvlechenie-informatsii-iz-tekstov.html
cсылка на страницу
Урок

Информатика

126 тем
Фото
Презентация: Извлечение информации из текстов | Тема: Работа с текстом | Урок: Информатика | Вид: Фото
900igr.net > Презентации по информатике > Работа с текстом > Извлечение информации из текстов