Текст
<<  Компьютерный анализ естественно-языкового текста Малая на ремесла руси  >>
Компьютерный анализ естественно-языкового текста
Компьютерный анализ естественно-языкового текста
Введение в дисциплину Автоматический анализ текста на морфологическом
Введение в дисциплину Автоматический анализ текста на морфологическом
Автоматический анализ текста на морфологическом уровне Морфологический
Автоматический анализ текста на морфологическом уровне Морфологический
План лекций 9-11
План лекций 9-11
Функциональное назначение предсказания – морфологический анализ слов
Функциональное назначение предсказания – морфологический анализ слов
Алгоритм предсказания в аот: этапы
Алгоритм предсказания в аот: этапы
Предсказание в аот: предсказание префиксального образования
Предсказание в аот: предсказание префиксального образования
Предсказание в аот: предсказание по концовке из известной словоформы
Предсказание в аот: предсказание по концовке из известной словоформы
Предсказание в аот: оценка качества
Предсказание в аот: оценка качества
Частеречная разметка: назначение
Частеречная разметка: назначение
Разметка корпусов текстов Подготовка учебных текстовых материалов (В
Разметка корпусов текстов Подготовка учебных текстовых материалов (В
Фрагмент морфологической разметки в нац
Фрагмент морфологической разметки в нац
www
www
Компьютерный анализ естественно-языкового текста
Компьютерный анализ естественно-языкового текста
Морфологический анализ всех словоформ текста Снятие неоднозначностей
Морфологический анализ всех словоформ текста Снятие неоднозначностей
Автоматический морфологический анализ (Mystem, Dialing) Промежуточная
Автоматический морфологический анализ (Mystem, Dialing) Промежуточная
лексическая – грамматическая на уровне слов (лексем) – на уровне
лексическая – грамматическая на уровне слов (лексем) – на уровне
Лексическая и грамматическая омонимия
Лексическая и грамматическая омонимия
Омонимия на уровне лексем и на уровне словоформ
Омонимия на уровне лексем и на уровне словоформ
Омофония и омография
Омофония и омография
В связи с частеречной разметкой уместно говорить о разрешении:
В связи с частеречной разметкой уместно говорить о разрешении:
Рекомендованная литература
Рекомендованная литература

Презентация на тему: «Компьютерный анализ естественно-языкового текста». Автор: Сергей Коваль. Файл: «Компьютерный анализ естественно-языкового текста.ppt». Размер zip-архива: 100 КБ.

Компьютерный анализ естественно-языкового текста

содержание презентации «Компьютерный анализ естественно-языкового текста.ppt»
СлайдТекст
1 Компьютерный анализ естественно-языкового текста

Компьютерный анализ естественно-языкового текста

Кафедра информационных систем в искусстве и гуманитарных науках

2 Введение в дисциплину Автоматический анализ текста на морфологическом

Введение в дисциплину Автоматический анализ текста на морфологическом

уровне Автоматический анализ текста на синтаксическом уровне Семантический компонент в системах автоматического анализа текста

Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА

3 Автоматический анализ текста на морфологическом уровне Морфологический

Автоматический анализ текста на морфологическом уровне Морфологический

уровень в ЛИТ Основные понятия морфологии в компьютерной морфологии Основные процедуры компьютерной морфологии Компьютерная морфология русского языка Технологии морфологического анализа «Предсказание» (типизация) Вопросы, смежные с синтаксисом

Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА

4 План лекций 9-11

План лекций 9-11

Xerox Tools: альтернативные инструменты операции высокого уровня дополнительные функциональные возможности Резюме по морфологии специальные функции: технология ISpell «предсказание» в АОТ Частеречная разметка разметка в Национальном корпусе типы омонимии данные о русских омоформах методы снятия грамматической неоднозначности

5 Функциональное назначение предсказания – морфологический анализ слов

Функциональное назначение предсказания – морфологический анализ слов

(словоформ), отсутствующих в словаре Метод предсказания – выявление аналогий со словоформами, распознаваемыми имеющимся словарем

Алгоритм предсказания в аот: содержание

6 Алгоритм предсказания в аот: этапы

Алгоритм предсказания в аот: этапы

Предсказание префиксального образования предсказание по концовке, взятой из известных словоформ

7 Предсказание в аот: предсказание префиксального образования

Предсказание в аот: предсказание префиксального образования

попытка найти существующую словоформу языка, которая максимально совпадала бы справа со входным словом. Если левая часть (потенциальный префикс) не длиннее M символов (пяти), а правая часть (совпавшая с известной словоформой) не короче N символов (четырех), то слово разбирается по образцу известной словоформы. [евро]технологию, [супер]коньками

8 Предсказание в аот: предсказание по концовке из известной словоформы

Предсказание в аот: предсказание по концовке из известной словоформы

создается конечный автомат, построенный на строках вида: ReverseSuffix(X)|Annot(X), где ReverseSuffix(Х) – инвертированная концовка известной словоформы длины K (пять букв), Annot(X) – аннотация словоформы X (анкод), например: меина|ед где аннотация «ед» интерпретируется как «ср. род, ед. ч., тв. пад.» Такая строка заносится в исходный лексикон, если она встречается: не менее L раз (трех) и чаще конкурентов (строк с таким же ReverseSuffix(X), но другим Annot(X) ) в пределах одной части речи ВСЕГДА предусматривается разбор именем существительным, хотя бы неизменяемым.

9 Предсказание в аот: оценка качества

Предсказание в аот: оценка качества

В новостных текстах наугад выбраны 150 неповторяющихся предсказанных слов. Исключались слова, у которых все буквы в верхнем регистре (аббревиатуры). Все слова оказались либо существительными, либо прилагательными. Для 131 слова в результатах предсказания был хотя бы один правильный результат (одновременно лемма, часть речи, род, число и падеж). Т.е. точность предсказания – 87%. Результат вполне сравним с известными результатами для английского языка - 85 % или для французского – 88%.

10 Частеречная разметка: назначение

Частеречная разметка: назначение

Частеречная разметка, морфологическая разметка (грамматическая разметка): информация о морфологических (грамматических) характеристиках словоформ текста, включаемая в электронное представление этого текста (в виде тегов) процедура добавления такой информации в электронное представление текста (как правило, частично или – редко – полностью автоматизированная)

11 Разметка корпусов текстов Подготовка учебных текстовых материалов (В

Разметка корпусов текстов Подготовка учебных текстовых материалов (В

некоторых технологиях обработки текстовой информации) формирование результата морфологического этапа обработки входного текста

Частеречная разметка: назначение

12 Фрагмент морфологической разметки в нац

Фрагмент морфологической разметки в нац

Корпусе русского языка

Я сидел на барском сиденье, дышал горячим ветром, бившим в лицо, ощущая в то же время не истребимую никакими сквозняками пыль и легкий запах духов -- катафалк с хорошей скоростью мчался по шоссе на юг. (Ю. Трифонов) <s>Я{я=S,ед,од=им} сидел{сидеть=V,несов=изъяв,прош,ед,муж} на{на=PR} барском{барский=A=ед,сред,пр} сиденье{сиденье=S,сред,неод=ед,пр}, дышал{дышать=V,несов=изъяв,прош,ед,муж} горячим{горячий=A=ед,муж,твор} ветром{ветер=S,муж,неод=ед,твор}, бившим{бить=V,несов=прич,прош,ед,муж,твор} в{в=PR} лицо{лицо=S,сред,неод=ед,вин}, ощущая{ощущать=V=несов,деепр,непрош} в{в=PR} то{тот=A=ед,сред,вин} же{же=PART} время{время=S,сред,неод=ед,вин} не{не=PART} истребимую{истребимый=A=ед,жен,вин} никакими{никакой=A=мн,твор} сквозняками{сквозняк=S,муж,неод=мн,твор} пыль{пыль=S,жен,неод,ед=вин} и{и=CONJ} легкий{легкий=A=ед,муж,вин,неод} запах{запах=S,муж,неод=ед,вин}…

13 www

www

ruscorpora.ru Создавался с 2003 г., публичный доступ открыт с 2004 г. Более 140 млн. словоупотреблений Разметка: морфологическая семантическая

Разметка в национальном корпусе русского языка

14 Компьютерный анализ естественно-языкового текста
15 Морфологический анализ всех словоформ текста Снятие неоднозначностей

Морфологический анализ всех словоформ текста Снятие неоднозначностей

(или исправление ошибок) Добавление информации о результатах в электронное представление текста

Содержание процедуры частеречной разметки

16 Автоматический морфологический анализ (Mystem, Dialing) Промежуточная

Автоматический морфологический анализ (Mystem, Dialing) Промежуточная

обработка – фильтрация маловероятных вариантов, принудительное введение синкретичных вариантов разбора (Grambat) Снятие омонимии – диалоговая утилита (макрос Gramedit)

Процедура разметки в национальном корпусе русского языка

17 лексическая – грамматическая на уровне слов (лексем) – на уровне

лексическая – грамматическая на уровне слов (лексем) – на уровне

словоформ омография – омофония Ни одно из этих противопоставлений не задает жесткого разбиения всего круга явлений омонимии на два непересекающихся класса.

Типы омонимии

18 Лексическая и грамматическая омонимия

Лексическая и грамматическая омонимия

Лексическая (различные лексические значения, могут совпадать грамматические значения): ключ (для открывания замка и родник), топить (обогревать и погружать) грамматическая (различные грамматические значения, могут совпадать лексические значения): новости (р., Д., Пр. П. Ед. Ч. И им., В. П. Мн.Ч.), Течь (гл. И сущ.) Комбинированные формы трём (числительное и глагол), мели (повел. Накл. Гл., Прош. Вр. Гл., Ряд форм сущ.)

19 Омонимия на уровне лексем и на уровне словоформ

Омонимия на уровне лексем и на уровне словоформ

На уровне лексем (как совокупностей словоформ): полная ключ (для открывания замка и родник), бор (лес и для бурения) частичная с включением бор (лес и химический элемент; формы боры, боров … только у первого сущ.), Рабочий (прил. И сущ.; Формы рабочая, рабочей … только у прил.) Частичная с пересечением печь (гл. И сущ. – Пересекаются в нач. Формах), простой (прил. И сущ. – Пересекаются в нач. Формах, а также в форме простою), полк – полка (пересекаются в формах полка, полки, полку, полкам, полками, полках) на уровне словоформ – те же явления могут рассматриваться как отношения не между лексемами, а между отдельными словоформами

20 Омофония и омография

Омофония и омография

Узкое (более распространенное) понимание омофонии и омографии: омофония охватывает только случаи C, омография охватывает только случаи A. Широкое (более практичное) понимание омофонии и омографии: омофония охватывает случаи C и B, омография охватывает случаи A и B.

A. Совпадение в написании, расхождение в звучании

B. Совпадение в звучании и написании

C. Совпадение в звучании, расхождение в написании

З’амок – зам’ок, вп’устите – впуст’ите, б’егу – бег’у

Ключ, бор, печь, трём…

Компания – кампания, (в) течение – (в) течении, странная – странное

21 В связи с частеречной разметкой уместно говорить о разрешении:

В связи с частеречной разметкой уместно говорить о разрешении:

грамматической омонимии на уровне словоформ не являющейся омофонией в узком смысле (= разрешение омографии в широком смысле)

Омонимия как объект обработки при частеречной разметке

22 Рекомендованная литература

Рекомендованная литература

Сокирко А. В. Морфологические модули на сайте www.aot.ru // Компьютерная лингвистика и интеллектуальные технологии. Тр. Междунар. конф. Диалог 2004 (Верхневолжский, 2–6 июня 2004). М., 2004 (http://www.dialog-21.ru/Archive/2004/Sokirko.htm). Сичинава Д. В. К задаче создания корпусов русского языка // Научно-техническая информация. 2002. Сер. 2. Информационные процессы и системы. № 11. (варианты статьи - http://corpora.narod.ru/article.html и http://www.mccme.ru/ling/mitrius/article.html)

«Компьютерный анализ естественно-языкового текста»
http://900igr.net/prezentacija/informatika/kompjuternyj-analiz-estestvenno-jazykovogo-teksta-130181.html
cсылка на страницу

Текст

15 презентаций о тексте
Урок

Информатика

130 тем
Слайды
900igr.net > Презентации по информатике > Текст > Компьютерный анализ естественно-языкового текста