Обработка информации
<<  Автоматическая обработка информации Информационная обработка текста  >>
Автоматическая обработка текста Лекция 5
Автоматическая обработка текста Лекция 5
Автматический морфологический анализ
Автматический морфологический анализ
Морфологическая разметка: проблемы и задачи
Морфологическая разметка: проблемы и задачи
Морфологическая разметка
Морфологическая разметка
Морфологическая разметка: проблемы и задачи
Морфологическая разметка: проблемы и задачи
Морфологическая разметка: проблемы и задачи
Морфологическая разметка: проблемы и задачи
Морфологическая разметка: проблемы и задачи
Морфологическая разметка: проблемы и задачи
Морфологическая разметка: проблемы и задачи
Морфологическая разметка: проблемы и задачи
Морфологическая разметка: проблемы и задачи
Морфологическая разметка: проблемы и задачи
Морфологическая разметка: проблемы и задачи
Морфологическая разметка: проблемы и задачи
Основные типы морфологической обработки
Основные типы морфологической обработки
частеречная аннотация (pos-tagging), т.е. указание части речи для
частеречная аннотация (pos-tagging), т.е. указание части речи для
Морфологическая разметка: проблемы и задачи
Морфологическая разметка: проблемы и задачи
Задача: дать возможность пользователю работать с корпусом со снятой
Задача: дать возможность пользователю работать с корпусом со снятой
Морфологическая разметка
Морфологическая разметка
Морфологическая разметка: основные шаги
Морфологическая разметка: основные шаги
Результат морфологической разметки
Результат морфологической разметки
Пример: Следующий его пример основан на данных, представленных Siegel
Пример: Следующий его пример основан на данных, представленных Siegel
Морфологическая разметка: проблемы и задачи Токенизация
Морфологическая разметка: проблемы и задачи Токенизация
Проблемы морфологической разметки Лемматизация
Проблемы морфологической разметки Лемматизация
Проблемы морфологической разметки Лемматизация
Проблемы морфологической разметки Лемматизация
Проблемы морфологической разметки Лемматизация
Проблемы морфологической разметки Лемматизация
Проблемы морфологической разметки Незнакомые слова
Проблемы морфологической разметки Незнакомые слова
На 25 словоформ – 15 омонимичны, из них только 5 имеют по 2 возможных
На 25 словоформ – 15 омонимичны, из них только 5 имеют по 2 возможных
Проблемы морфологической разметки Омонимия
Проблемы морфологической разметки Омонимия
Ощущая{ощущать=v=непрош,деепр,несов} в{в=pr=} то{то=conj=|тот=a=им,ед
Ощущая{ощущать=v=непрош,деепр,несов} в{в=pr=} то{то=conj=|тот=a=им,ед
Проблемы морфологической разметки Системная омонимия: омоформы
Проблемы морфологической разметки Системная омонимия: омоформы
Проблемы морфологической разметки Идиоматизация (сборка оборотов)
Проблемы морфологической разметки Идиоматизация (сборка оборотов)
Основные этапы морфологической разметки в BNC
Основные этапы морфологической разметки в BNC
Краткий обзор основных методов разметки
Краткий обзор основных методов разметки
SUPERVISED
SUPERVISED
Морфологическая разметка
Морфологическая разметка
Морфологическая разметка Пример 1. Spoken English Corpus
Морфологическая разметка Пример 1. Spoken English Corpus
Список используемых морфологических тэгов
Список используемых морфологических тэгов
Морфологическая разметка Пример 2. Тюбингенский корпус русского языка
Морфологическая разметка Пример 2. Тюбингенский корпус русского языка
Морфологическая разметка Пример 3. Национальный корпус русского языка
Морфологическая разметка Пример 3. Национальный корпус русского языка
Морфологическая разметка Пример 3. Национальный корпус русского языка
Морфологическая разметка Пример 3. Национальный корпус русского языка

Презентация на тему: «Автоматическая обработка текста». Автор: S.T.. Файл: «Автоматическая обработка текста.ppt». Размер zip-архива: 276 КБ.

Автоматическая обработка текста

содержание презентации «Автоматическая обработка текста.ppt»
СлайдТекст
1 Автоматическая обработка текста Лекция 5

Автоматическая обработка текста Лекция 5

Автоматический морфологический анализ Часть 1

2 Автматический морфологический анализ

Автматический морфологический анализ

Введение Примеры Проблемы и задачи Основные этапы и модули Основные методы

3 Морфологическая разметка: проблемы и задачи

Морфологическая разметка: проблемы и задачи

Запрос: Анализ новостного потока

Запрос: Съемки фотографий в условиях города.

Даже простой поиск в Интернете не может обойтись без морфологического анализа, тем более, поиск в корпусе:

Ответ поисковой системы: Анализ методов кластеризации новостного потока © Кондратьев Михаил Е. Санкт-Петербургский Государственный Университет Mikhail.Kondratyev@sun.com. Аннотация В работе анализируется ряд алгоритмов кластеризации новостной коллекции и приводится.. Эффективный анализ новостных информационных потоков в Интернет Программа интернет-трейдинга для работы на FOREX. Включает систему торговли, технический анализ и новостной поток агентства Dow Jones.

Фотография, съемка, фотографическая, съемок

4 Морфологическая разметка

Морфологическая разметка

Введение Проблемы и задачи Основные этапы Основные методы

5 Морфологическая разметка: проблемы и задачи

Морфологическая разметка: проблемы и задачи

Аннотация: каждой единице соответствующего лингвистического уровня приписывается тег (набор характеристик)

Бывают ли единицы без тэгов?

Пример 1. Поезд ИР-276 движется со скоростью 180 км/ч по 3-ему пути

6 Морфологическая разметка: проблемы и задачи

Морфологическая разметка: проблемы и задачи

Морфологическая разметка: каждому словоупотрблению – морфологический тег

Что считать одним словоупотрбелнием?

Пример 2. Найти предложения, которые начинаются с конструкции ‘глагол + сущ. в им. п. типа Посадил дед репку

Пример в выдаче: Т.е. письмо отправлено накануне

7 Морфологическая разметка: проблемы и задачи

Морфологическая разметка: проблемы и задачи

Как употребляется в русском языке глагол стать?

Поиск по корпусу. Пример 3.

ПРИЧЕМ, что важно, доходы стали больше у всех. Поэтому 5% бедных сумели преодолеть черту бедности и перешли в разряд низкообеспеченных, которых теперь стало 29%. Он стал "толще" на 3%. А всего середняков — 22%. Завод должен будет производить до 4,4 млн тонн стали в год. Он будет состоять из двух доменных печей, сталелитейного завода с двумя конверторами и двумя установками непрерывной разливки стали.

8 Морфологическая разметка: проблемы и задачи

Морфологическая разметка: проблемы и задачи

Пример 4. Поиск по корпусу кратких прилагательных

Подлесова Ирина. [Ирина Подлесова. Рабочих удерживали на буровой насильно // "Известия", 2002.07.14] В воскресенье рабочие, которых несколько суток безуспешно разыскивали спасатели МЧС, самостоятельно вышли к одному из населенных пунктов на севере Омской области. [Ирина Подлесова. Рабочих удерживали на буровой насильно // "Известия", 2002.07.14] Рабочие-вахтовики Анатолий Кисин и Азот Сариснудян исчезли со своей буровой еще 9 июля. [Ирина Подлесова. Рабочих удерживали на буровой насильно // "Известия", 2002.07.14] — Об исчезновении людей стало известно сразу, — рассказал "Известиям" оперативный дежурный управления по ГО и ЧС по Омской области Павел Горобец. — На поиски были направлены 6 спасателей из Омской поисково-спасательной службы, подключили местных жителей.

Первые результаты, выданные по запросу, из корпуса с неснятой омонимией:

9 Морфологическая разметка: проблемы и задачи

Морфологическая разметка: проблемы и задачи

Как употребляется в русском языке вопросительное местоимение что?

Поиск по корпусу. Пример 5.

Он мне ничего не ответил, потому что не знал Что он ничего не отвечает Откуда я знаю , что он говорит? Я с детства знаю, что жалость унижает человека, но сейчас я с этим не согласен.

10 Морфологическая разметка: проблемы и задачи

Морфологическая разметка: проблемы и задачи

Выяснить, различается ли семантика глагола знать в разных временах?

Поиск по корпусу. Пример 6.

Он об этом не будет знать Будем знать

11 Основные типы морфологической обработки

Основные типы морфологической обработки

Нормализация словоформ (лемматизация), т.Е. Сведение различных словоформ к некоторому единому представлению - к исходной форме, или лемме); стемминг - другой вид нормализации, когда разные словоформы приводятся к одной основе, точнее "псевдооснове" (для некоторых задач, включая поиск в интернете, достаточно приведения к одной основе различных дериватов; например, прилагательное фотографический и существительное фотография могут быть приведены к одной основе, так как пользовательскому запросу будут удовлетворять и документы, содержащие словосочетание фотографический портрет, и документы, содержащие словосочетание портретная фотография)

12 частеречная аннотация (pos-tagging), т.е. указание части речи для

частеречная аннотация (pos-tagging), т.е. указание части речи для

каждой словоформы в тексте) полный морфологический анализ - приписывание грамматических характеристик словоформе (например, в цепочке словоформ по берегу реки словоформе берегу будут приписаны следующие грамматические характеристики: сущ., неодушевленное, мужского р., единственного числа, дательного падежа) дизамбигуация - разрешение морфологической омонимии Основные проблемы, связанные с любым типом морфологического анализа - это морфологическая омонимия (ср. предложение Эти типы стали есть в цехе, где стали может быть формой глагола стать и формой существительного сталь) «предсказатель»: анализ новых, редких слов или окказионализмов.

13 Морфологическая разметка: проблемы и задачи

Морфологическая разметка: проблемы и задачи

Для точности и полноты поиска необходима лемматизация (нормализация) морфологическая разметка снятие лексической омонимии (ср. уж – Уж свернулся кольцом – Уж небо осенью дышало) снятие морфологической омонимии (бившим в лицо) Сложные конструкции и аналитические формы (потому что, будет писать, не только …, но и)

14 Задача: дать возможность пользователю работать с корпусом со снятой

Задача: дать возможность пользователю работать с корпусом со снятой

морфологической омонимией

Проблемы: ручная разметка очень трудоемка (на снятие омонимии в корпусе объемом 5 млн словоупотреблений ушло несколько лет), а объем корпуса больше 100 млн при автоматическом алгоритмическом снятии омонимии относительно высокий процент ошибок неизбежен

Морфологическая разметка: проблемы и задачи

15 Морфологическая разметка

Морфологическая разметка

Введение Примеры Проблемы и задачи Основные этапы Основные методы

16 Морфологическая разметка: основные шаги

Морфологическая разметка: основные шаги

с помощью дисперсионного анализа ( ANOVA) Фридмана

<ob>c помощью{с_помощью=ПРЕД}</ob>

17 Результат морфологической разметки

Результат морфологической разметки

<gr type="ПГ" mw="4"><ob> с помощью{с_помощью=ПРЕД}</ob> <gr type="П+С"mw="8"> рангового{ранговый=П=мр,ед,рд} дисперсионного{дисперсионный=П=мр,ед,рд} анализа{анализ=С,мр,но=ед,рд} </gr> </gr> (ANOVA) Фридмана{Фридман=С,фам,мр,од=ед,рд}

18 Пример: Следующий его пример основан на данных, представленных Siegel

Пример: Следующий его пример основан на данных, представленных Siegel

(1956, стр.233), и анализируется также с помощью предварительного тэгинга.

Морфологическая разметка: предварительный анализ примера

19 Морфологическая разметка: проблемы и задачи Токенизация

Морфологическая разметка: проблемы и задачи Токенизация

Слова с дефисом: 1) по-моему, по-пушкински, 2) Петербургу-Петрограду-Ленинграду, 3) бело-желтым, штабс-капитана, удовлетворенно-смущенное, штабс-капитан Числа, "шаблоны": 1945г., тел. 555-33-22 сокращения: г., вв. и т.п. ст. особенности расстановки стилей: разрядка: Д О Л Г О дополнительные "внутрисловные" знаки: м-е-е-е-дленно, о'key, he's знаки препинания вкрапления другого алфавита

20 Проблемы морфологической разметки Лемматизация

Проблемы морфологической разметки Лемматизация

Запрос: Организации, выдающие документы

Предприятия, учреждения и организации могут выдавать копии имеющихся у них документов, исходящих от других предприятий, учреждений и организаций

Давайте посмотрим, какие документы должны быть выданы подотчетному лицу, оплачивающему товары (работы, услуги) от имени организации-покупателя по доверенности.

Документы выдаются организациями, …

Ответы:

21 Проблемы морфологической разметки Лемматизация

Проблемы морфологической разметки Лемматизация

Какая лемма у следующих словоформ: вице-президента Моряки-подводники начлага данные Управляемого Давайте-ка Тыс. Прибывали Строю Скока (разг. от сколько)

22 Проблемы морфологической разметки Лемматизация

Проблемы морфологической разметки Лемматизация

Морфонологические чередования (внутренняя флексия): лечь / лягу; лев / льва Супплетивизм я - мне; хороший - лучше; быть - есть К какой исходной основе мы будем приводить данную словоформу Например: пары глаголов исходная форма и страдательный залог на –ся (строить – строиться), подписать - подписывать причастия – как отдельная лемма или вместе с глаголом отглагольные прилагательные

23 Проблемы морфологической разметки Незнакомые слова

Проблемы морфологической разметки Незнакомые слова

имена собственные (Лаврушинском, из нас Ай-Петри , а кто Чатыр-Даг, Кыргызстан) сложные слова (авиабомбами, многочленистая) Сокращения (ДДТ, ПО) построение гипотез: {??|anova? =мр/жр/ср?,мн,ед,им,рд,дт,вн,тв,пр,од/но}

24 На 25 словоформ – 15 омонимичны, из них только 5 имеют по 2 возможных

На 25 словоформ – 15 омонимичны, из них только 5 имеют по 2 возможных

аннотации, у остальных больше 2-х

Морфологическая разметка: проблемы и задачи Омонимия

Я сидел на барском сиденье, дышал горячим ветром, бившим в лицо, ощущая в то же время не истребимую никакими сквозняками пыль и легкий запах духов …. (Ю. Трифонов)

См.

25 Проблемы морфологической разметки Омонимия

Проблемы морфологической разметки Омонимия

Я сидел на барском сиденье, дышал горячим ветром, бившим в лицо, ощущая в то же время не истребимую никакими сквозняками пыль и легкий запах духов -- катафалк с хорошей скоростью мчался по шоссе на юг. (Ю. Трифонов) {\s}Я{я=S,сред,неод=им,ед|я=S,сред,неод=им,мн|я=S,сред,неод=род,ед|я=S,сред,неод=род,мн|я=S,сред,неод=дат,ед|я=S,сред,неод=дат,мн|я=S,сред,неод=вин,ед|я=S,сред,неод=вин,мн|я=S,сред,неод=твор,ед|я=S,сред,неод=твор,мн|я=S,сред,неод=пр,ед|я=S,сред,неод=пр,мн|я=S,ед,од=им,жен|я=S,ед,од=им,муж} сидел{сидеть=V,несов=прош,ед,изъяв,муж} на{на=PART=|на=PR=} барском{барский=A=пр,ед,муж|барский=A=пр,ед,сред} сиденье{сиденье=S,сред,неод=им,ед|сиденье=S,сред,неод=вин,ед|сиденье=S,сред,неод=пр,ед}, дышал{дышать=V,несов=прош,ед,изъяв,муж} горячим{горячий=A=дат,мн|горячий=A=твор,ед,муж|горячий=A=твор,ед,сред|горячее=S,ед,сред,неод=твор|горячить=V,несов=непрош,ед,прич,кр,муж,страд|горячить=V,несов=непрош,мн,изъяв,1-л} ветром{ветер=S,муж,неод=твор,ед}, бившим{бить=V,несов=прош,дат,мн,прич|бить=V,несов=прош,твор,ед,прич,муж|бить=V,несов=прош,твор,ед,прич,сред} в{в=PR=} лицо{лицо=S,сред,неод=им,ед|лицо=S,сред,неод=вин,ед|лицо=S,сред,од=им,ед|лицо=S,сред,од=вин,ед},

26 Ощущая{ощущать=v=непрош,деепр,несов} в{в=pr=} то{то=conj=|тот=a=им,ед

Ощущая{ощущать=v=непрош,деепр,несов} в{в=pr=} то{то=conj=|тот=a=им,ед

сред|тот=a=вин,ед,сред|то=s,ед,сред,неод=им|то=s,ед,сред,неод=вин} же{же=part=|же=s,сред,неод=им,ед|же=s,сред,неод=им,мн|же=s,сред,неод=род,ед|же=s,сред,неод=род,мн|же=s,сред,неод=дат,ед|же=s,сред,неод=дат,мн|же=s,сред,неод=вин,ед|же=s,сред,неод=вин,мн|же=s,сред,неод=твор,ед|же=s,сред,неод=твор,мн|же=s,сред,неод=пр,ед|же=s,сред,неод=пр,мн|же=conj=} время{время=s,сред,неод=им,ед|время=s,сред,неод=вин,ед} не{не=part=} истребимую{истребимый=a=вин,ед,жен} никакими{никакой=a=твор,мн} сквозняками{сквозняк=s,муж,неод=твор,мн} пыль{пыль=s,ед,жен,неод=им|пыль=s,ед,жен,неод=вин} и{и=part=|и=s,сред,неод=им,ед|и=s,сред,неод=им,мн|и=s,сред,неод=род,ед|и=s,сред,неод=род,мн|и=s,сред,неод=дат,ед|и=s,сред,неод=дат,мн|и=s,сред,неод=вин,ед|и=s,сред,неод=вин,мн|и=s,сред,неод=твор,ед|и=s,сред,неод=твор,мн|и=s,сред,неод=пр,ед|и=s,сред,неод=пр,мн|и=intj=|и=conj=} легкий{легкий=a=им,ед,муж|легкий=a=вин,ед,муж,неод} запах{запах=s,муж,неод=им,ед|запах=s,муж,неод=вин,ед|запах=s,муж,неод=им,ед|запах=s,муж,неод=вин,ед|запахнуть=v,сов=прош,ед,изъяв,муж} духов{духов=a=им,ед,муж|духов=a=вин,ед,муж,неод|дух=s,муж,неод=род,мн|дух=s,муж,од=род,мн|дух=s,муж,од=вин,мн|духи=s,мн,муж,неод=род}

27 Проблемы морфологической разметки Системная омонимия: омоформы

Проблемы морфологической разметки Системная омонимия: омоформы

стандартные «утомляющие» типы омонимии, не снимаемые без синтаксического анализа, но очень легко снимаемые вручную, например, им. и вин. сущ., прилагательные глаг. и прилаг, неизменяемые сущ. Более сложные случаи омонимии наречия (местоимения) vs. союзы случаи неразрешимой омонимии: род и вин. м.р. при отрицании «сложные случаи»: наречия vs. частицы, наречия vs. вводные слова

28 Проблемы морфологической разметки Идиоматизация (сборка оборотов)

Проблемы морфологической разметки Идиоматизация (сборка оборотов)

Аналитические формы буду писать Сложные союзы, предлоги и т.п. как бы, потому что, в случае, с помощью, по крайней мере сокращения и т.п. Терминологические словосочетания железная дорога Разрывные союзы не только, но и

29 Основные этапы морфологической разметки в BNC

Основные этапы морфологической разметки в BNC

Tokenization

Initial tag assignment

Tag selection (disambiguation)

Idiomtagging

Template Tagger

Postprocessing: including Ambiguity tagging

A.

B.

C.

D.

E.

F.

30 Краткий обзор основных методов разметки

Краткий обзор основных методов разметки

31 SUPERVISED

SUPERVISED

UNSUPERVISED

selection of tagset/tagged corpus

induction of tagset using untagged training data

creation of dictionaries using tagged corpus

induction of dictionary using training data

calculation of disambiguation tools. may include:

induction of disambiguation tools. may include:

word frequencies

word frequencies

affix frequencies

affix frequencies

tag sequence probabilities

tag sequence probabilities

"formulaic" expressions

tagging of test data using dictionary information

tagging of test data using induced dictionaries

disambiguation using statistical, hybrid or rule based approaches

disambiguation using statistical, hybrid or rule based approaches

calculation of tagger accuracy

calculation of tagger accuracy

32 Морфологическая разметка

Морфологическая разметка

Введение Примеры Проблемы и задачи Основные этапы Основные методы

33 Морфологическая разметка Пример 1. Spoken English Corpus

Морфологическая разметка Пример 1. Spoken English Corpus

Perdita&NN1-NP0; ,&PUN; covering&VVG; the&AT0; bottom&NN1; of&PRF; the&AT0; lorries&NN2; with&PRP; straw&NN1; to&TO0; protect&VVI; the&AT0; ponies&NN2; '&POS; feet&NN2; ,&PUN; suddenly&AV0; heard&VVD-VVN; Alejandro&NN1-NP0; shouting&VVG; that&CJT; she&PNP; better&AV0; dig&VVB; out&AVP; a&AT0; pair&NN0; of&PRF; clean&AJ0; breeches&NN2; and&CJC; polish&VVB; her&DPS; boots&NN2; ,&PUN; as*CJS; she&PNP; 'd&VM0; be&VBI; playing&VVG; in&PRP; the&AT0; match&NN1; that&DT0; afternoon&NN

34 Список используемых морфологических тэгов

Список используемых морфологических тэгов

AJ0: general adjective AT0: article, neutral for number AV0: general adverb AVP: prepositional adverb CJC: co-ordinating conjunction CJS: subordinating conjunction CJT: that conjunction DPS: possessive determiner DT0: singular determiner NN0: common noun, neutral for number NN1: singular common noun NN2: plural common noun

NP0: proper noun POS: genitive marker PNP: pronoun PRF: of PRP: prepostition PUN: punctuation TO0: infintive to VBI: be VM0: modal auxiliary VVB: base form of lexical verb VVD: past tense form of lexical verb VVG: -ing form of lexical verb VVI: infinitive form of lexical verb VVN: past participle form of lexical verb

35 Морфологическая разметка Пример 2. Тюбингенский корпус русского языка

Морфологическая разметка Пример 2. Тюбингенский корпус русского языка

Шофер/substantiv_masc_sg_nom_bel бегал/verb_finit_prt_0_sg_masc_nref_ipf куда-то/adverb ремонтировать/verb_infinitiv_nref_ipf тягу/substantiv_fem_sg_akk_unb ,/satzzeichen_komma а/konj_koor чекист/substantiv_masc_sg_nom_bel

36 Морфологическая разметка Пример 3. Национальный корпус русского языка

Морфологическая разметка Пример 3. Национальный корпус русского языка

<s>Я{я=S,ед,од=им} сидел{сидеть=V,несов=изъяв,прош,ед,муж} на{на=PR} барском{барский=A=ед,сред,пр} сиденье{сиденье=S,сред,неод=ед,пр}, дышал{дышать=V,несов=изъяв,прош,ед,муж} горячим{горячий=A=ед,муж,твор} ветром{ветер=S,муж,неод=ед,твор}, бившим{бить=V,несов=прич,прош,ед,муж,твор} в{в=PR} лицо{лицо=S,сред,неод=ед,вин}, ощущая{ощущать=V=несов,деепр,непрош} в{в=PR} то{тот=A=ед,сред,вин} же{же=PART} время{время=S,сред,неод=ед,вин} не{не=PART} истребимую{истребимый=A=ед,жен,вин} никакими{никакой=A=мн,твор} сквозняками{сквозняк=S,муж,неод=мн,твор} пыль{пыль=S,жен,неод,ед=вин} и{и=CONJ} легкий{легкий=A=ед,муж,вин,неод} запах{запах=S,муж,неод=ед,вин} духов{духи=S,муж,неод,мн=род}

37 Морфологическая разметка Пример 3. Национальный корпус русского языка

Морфологическая разметка Пример 3. Национальный корпус русского языка

<w><ana lex="по" gr="PR"/>По</w> <w><ana lex="сад" gr="S m inan sg at"/>с`аду</w> <w><ana lex="можно” gr="PRAEDIC"/> м`ожно</w> <w><ana lex="гулять" gr="V ipf intr act inf act"/>гул`ять</w> <w><ana lex="час" gr="S m inan pl ins"/>час`ами</w>

«Автоматическая обработка текста»
http://900igr.net/prezentacija/informatika/avtomaticheskaja-obrabotka-teksta-112535.html
cсылка на страницу
Урок

Информатика

130 тем
Слайды
900igr.net > Презентации по информатике > Обработка информации > Автоматическая обработка текста