Шаблоны для презентаций
<<  Шаблон диплома ppt «Крестики-нолики» на примере содержания занятия художественной направленности для детей 10-11 лет  >>
Лексический анализ: от шаблонов к семантике
Лексический анализ: от шаблонов к семантике
Даниил Скатов
Даниил Скатов
Объекты…
Объекты…
Объекты…
Объекты…
Объекты…
Объекты…
Объекты, факты …
Объекты, факты …
Объекты, факты …
Объекты, факты …
Объекты, факты и не только
Объекты, факты и не только
Лексический анализ
Лексический анализ
Лексический анализ
Лексический анализ
Принцип наследования
Принцип наследования
Принцип наследования
Принцип наследования
Принцип наследования
Принцип наследования
Принцип наследования
Принцип наследования
Регулярные выражения as is
Регулярные выражения as is
Регулярные выражения as is
Регулярные выражения as is
Регулярные выражения as is
Регулярные выражения as is
Регулярные выражения as is
Регулярные выражения as is
История
История
DSTL: простой пример
DSTL: простой пример
Наследование
Наследование
Наследование
Наследование
Работа с морфологией
Работа с морфологией
Работа с морфологией
Работа с морфологией
Работа с морфологией
Работа с морфологией
Работа с морфологией
Работа с морфологией
Работа с морфологией
Работа с морфологией
Работа с морфологией
Работа с морфологией
Работа с морфологией
Работа с морфологией
Согласование и нормальная форма
Согласование и нормальная форма
Неоднозначность и конфликты
Неоднозначность и конфликты
Неоднозначность и конфликты
Неоднозначность и конфликты
Сравнение языков
Сравнение языков
Механизм анализа
Механизм анализа
Механизм анализа
Механизм анализа
Механизм анализа
Механизм анализа
Механизм анализа
Механизм анализа
Механизм анализа
Механизм анализа
Механизм анализа
Механизм анализа
Механизм анализа
Механизм анализа
Проблемы и решения
Проблемы и решения
Проблемы и решения
Проблемы и решения
Проблемы и решения
Проблемы и решения
Использование для поиска
Использование для поиска
Использование для поиска
Использование для поиска
Контакты
Контакты

Презентация: «Шаблон зимняя олимпиада». Автор: Fujitsu. Файл: «Шаблон зимняя олимпиада.ppt». Размер zip-архива: 234 КБ.

Шаблон зимняя олимпиада

содержание презентации «Шаблон зимняя олимпиада.ppt»
СлайдТекст
1 Лексический анализ: от шаблонов к семантике

Лексический анализ: от шаблонов к семантике

Даниил Скатов

ООО «Диктум»

г. Нижний Новгород

Поисковые технологии 2010

Яхрома,

26 февраля 2010 г.

2 Даниил Скатов

Даниил Скатов

ООО «Диктум»

г. Нижний Новгород

26 февраля 2010 г.

3 Объекты…

Объекты…

Даниил Скатов

ООО «Диктум»

г. Нижний Новгород

26 февраля 2010 г.

4 Объекты…

Объекты…

Даниил Скатов

ООО «Диктум»

г. Нижний Новгород

26 февраля 2010 г.

Персона

Имя

"Даниил"

Фамилия

"Скатов"

Отчество

?

Организация

Название

"Диктум"

Тип

"Ооо"

Населенный пункт

Имя

Нижний Новгород

Тип

Город

Дата

День

26

Месяц

02

Год

2010

5 Объекты…

Объекты…

Даниил Скатов

Скатов Даниил

; Скатов Д.

Общество с огр. отв-ю «Диктум»

компания «Диктум»

Н. Новгород;

г. Н. Новгород

26.02.2010

; Feb 26, 2010

Даниил Сергеевич Скатов; Скатов Д.С.

ООО «Диктум»

; Dictum Ltd

г. Нижний Новгород

НН; столица Поволжья; город Горький

Двадцать шестое февраля

Даниил Сергеевич; Скатов

Диктум

Горький; НН; Нижний

26 февраля 2010 г.

Последняя пятница февраля 2010 года

Персона

Имя

"Даниил"

Фамилия

"Скатов"

Отчество

?

Организация

Название

"Диктум"

Тип

"Ооо"

Населенный пункт

Имя

Нижний Новгород

Тип

Город

Дата

День

26

Месяц

02

Год

2010

6 Объекты, факты …

Объекты, факты …

Сотрудник ( ) посетил конференцию «Поисковые технологии»

компании «Диктум»

Скатов Даниил

г. Н. Новгород

26.02.2010

7 Объекты, факты …

Объекты, факты …

Сотрудник ( ) посетил конференцию «Поисковые технологии»

компании «Диктум»

Скатов Даниил

г. Н. Новгород

26.02.2010

Факты — отношения между объектами

Даты: 20/03/06, 7 февраля 2007 г., 1991-2006 гг. Персоны: Петров И.С., Иван Петров, Иван Сергеевич, Петров И. Адреса Интернет и e-mail: http://www.dictum.ru Географические адреса: Россия, г. Н.Новгород, пр-т Гагарина, 23, корп. 7 Названия организаций: Университет им. Н.И.Лобачевского, КБ «Квазар», Школа № 7 Спортивные события: Зимняя олимпиада, Кубок УЕФА, Чемпионат мира по хоккею Числа прописью: две тысячи восемьсот единиц техники Результаты измерений: 8 кг., не более 50 км/ч Денежные единицы: 2 000 р., 80 454,2 USD Порядковые числительные: 1-ый, 18-ого Номера телефонов: (831) 278-67-57, +79200459731 Номера кредитных карт, ИНН …

Факт посещения

Должность

8 Объекты, факты и не только

Объекты, факты и не только

Фразы-определения авторских терминов, их синонимов и связанных атрибутов: «Лексический анализ — это …» Нормализация слабоструктурированных источников данных: автоматизированное формирование и коррекция номенклатурных списков (имущества, оборудования и т.д.): «Квартира 2-х комнатная 80 кв. м. …» Прошивка законодательства: извлечение инструкций (связанных с обновлением текстов во времени) для их последующего применения: «Часть первую статьи 41 дополнить словами "или его заместителем"» Графематический анализ: выявление в тексте простых лексических конструкций (ФИО с инициалами, электронные адреса, имена файлов), а также предложений, абзацев, заголовков, примечаний Выявление составных слов — напр.: для того чтобы

9 Лексический анализ

Лексический анализ

Задача: выявить в неразмеченном ЕЯ-тексте лексические конструкции — цепочки слов входного текста (возможно, разрывные), каждая из которых снабжается набором данных определенной структуры:

Это лексический анализ естественного языка (LANL):

имя класса, которому принадлежит конструкция (Дата); нормальная форма конструкции, которая состоит из нормализованного текстового представления (удобного для прочтения человеком) и набора именованных полей с присвоенными значениями (День = 26, Месяц = 2, Год = 2010)

Базовый механизм для выявления объектов (именованные сущности, как правило, являются непрерывными конструкциями) Вспомогательный механизм для выявления фактов (выявление утверждений — разрывных конструкций: «Василий Петров, мечтая о научной карьере, долгое время успешно трудился в НИИ ЧАВО», м. быть установление кореференции объектов, но не логический вывод фактов) Вспомогательный механизм для деления текста на слова (поиск составных слов типа союзов, но не полноценная символьная токенизация — японский, арабский, «первыйвторой»)

10 Лексический анализ

Лексический анализ

11 Принцип наследования

Принцип наследования

Председатель совета директоров ОАО «Газпром нефть» А. Миллер 9 июля 2008 г. посетил г. Нижний Новгород с рабочим визитом

12 Принцип наследования

Принцип наследования

Председатель совета директоров ОАО «Газпром нефть» А. Миллер 9 июля 2008 г. посетил г. Нижний Новгород с рабочим визитом

Organization

Person

Date

Geography

13 Принцип наследования

Принцип наследования

Председатель совета директоров ОАО «Газпром нефть» А. Миллер 9 июля 2008 г. посетил г. Нижний Новгород с рабочим визитом

Job

Organization

Person

Date

Geography

14 Принцип наследования

Принцип наследования

Председатель совета директоров ОАО «Газпром нефть» А. Миллер 9 июля 2008 г. посетил г. Нижний Новгород с рабочим визитом

Attendance

Job

Organization

Person

Date

Geography

15 Регулярные выражения as is

Регулярные выражения as is

Отсутствие механизмов повторного использования уже написанных выражений (наследования): можно лишь подставить одно выражение в другое

Председатель совета директоров ОАО «Газпром нефть» А. Миллер 9 июля 2008 г. посетил г. Нижний Новгород с рабочим визитом

Attendance

Job

Organization

Person

Date

Geography

16 Регулярные выражения as is

Регулярные выражения as is

26/02/2010; ds@dictum.Ru; 85 кг.

Отсутствие механизмов повторного использования уже написанных выражений (наследования): можно лишь подставить одно выражение в другое

Хорошо, но…

Вчера заместителю управляющего делами президента Российской Федерации Павлу Бородину …

?!

17 Регулярные выражения as is

Регулярные выражения as is

26/02/2010; ds@dictum.Ru; 85 кг.

Отсутствие механизмов повторного использования уже написанных выражений (наследования): можно лишь подставить одно выражение в другое Отсутствие специфических возможностей: проверка вхождения слов и их цепочек в заданные множества, работа с грамматическими значениями слова…

Хорошо, но…

Вчера заместителю управляющего делами президента Российской Федерации Павлу Бородину …

?!

18 Регулярные выражения as is

Регулярные выражения as is

Машинное обучение? ? Об этом позже

Отсутствие механизмов повторного использования уже написанных выражений (наследования): можно лишь подставить одно выражение в другое Отсутствие специфических возможностей: проверка вхождения слов и их цепочек в заданные множества, работа с грамматическими значениями слова… Быстрый рост сложности выражений (для их составителя) Нетривиальная обработка разделителей (переносы строк, пробелы) и их сочетаний Увеличение времени анализа с ростом количества описаний: каждое описание (регулярное выражение) приходится применять к тексту отдельно

19 История

История

DSTL = Шаблоны + Наследование + Предикаты

20 DSTL: простой пример

DSTL: простой пример

21 Наследование

Наследование

22 Наследование

Наследование

23 Работа с морфологией

Работа с морфологией

Механика

{«механик», Сущ, Од, Муж, Род, Ед} {«механик», Сущ, Од, Муж, Вин, Ед} {«механика», Сущ, Неодуш, Жен, Им, Ед}

24 Работа с морфологией

Работа с морфологией

Механика

1. Одноместные функции: проверка существования грамматической формы с заданными характеристиками

V

HasGrammarForm (V, PartOfSpeech_, Noun_, Gender_, Masc_)

{«механик», Сущ, Од, Муж, Род, Ед} {«механик», Сущ, Од, Муж, Вин, Ед} {«механика», Сущ, Неодуш, Жен, Им, Ед}

25 Работа с морфологией

Работа с морфологией

Механика

1. Одноместные функции: проверка существования грамматической формы с заданными характеристиками

V

HasGrammarForm (V, PartOfSpeech_, Noun_, Gender_, Masc_)

{«механик», Сущ, Од, Муж, Род, Ед} {«механик», Сущ, Од, Муж, Вин, Ед} {«механика», Сущ, Неодуш, Жен, Им, Ед}

26 Работа с морфологией

Работа с морфологией

Механика

Александра

1. Одноместные функции: проверка существования грамматической формы с заданными характеристиками

V

HasGrammarForm (V, PartOfSpeech_, Noun_, Gender_, Masc_)

{«механик», Сущ, Од, Муж, Род, Ед} {«механик», Сущ, Од, Муж, Вин, Ед} {«механика», Сущ, Неодуш, Жен, Им, Ед}

{«Александр», Сущ, Имя, Муж, Род, Ед} {«Александр», Сущ, Имя, Муж, Вин, Ед} {«Александра», Сущ, Имя, Жен, Им, Ед}

27 Работа с морфологией

Работа с морфологией

Механика

Александра

1. Одноместные функции: проверка существования грамматической формы с заданными характеристиками

2. Двуместные функции: (1) из первого и второго слова выбираются подмножества S1 и S2 грамматических форм с заданными характеристиками, (2) проверяется, существует ли пара (v1,v2) такая, что v1?S1, v2?S2, и обе формы имеют требуемый набор характеристик с попарно совпадающими значениями

V

W

HasGrammarForm (V, PartOfSpeech_, Noun_, Gender_, Masc_)

AreConcordant (Case_, Number_, V, PartOfSpeech_, Noun_, Gender_, Masc_, W, PartOfSpeech_, Noun_, Gender_, Masc_)

{«механик», Сущ, Од, Муж, Род, Ед} {«механик», Сущ, Од, Муж, Вин, Ед} {«механика», Сущ, Неодуш, Жен, Им, Ед}

{«Александр», Сущ, Имя, Муж, Род, Ед} {«Александр», Сущ, Имя, Муж, Вин, Ед} {«Александра», Сущ, Имя, Жен, Им, Ед}

28 Работа с морфологией

Работа с морфологией

Механика

Александра

1. Одноместные функции: проверка существования грамматической формы с заданными характеристиками

2. Двуместные функции: (1) из первого и второго слова выбираются подмножества S1 и S2 грамматических форм с заданными характеристиками, (2) проверяется, существует ли пара (v1,v2) такая, что v1?S1, v2?S2, и обе формы имеют требуемый набор характеристик с попарно совпадающими значениями

V

W

HasGrammarForm (V, PartOfSpeech_, Noun_, Gender_, Masc_)

AreConcordant (Case_, Number_, V, PartOfSpeech_, Noun_, Gender_, Masc_, W, PartOfSpeech_, Noun_, Gender_, Masc_)

{«механик», Сущ, Од, Муж, Род, Ед} {«механик», Сущ, Од, Муж, Вин, Ед} {«механика», Сущ, Неодуш, Жен, Им, Ед}

{«Александр», Сущ, Имя, Муж, Род, Ед} {«Александр», Сущ, Имя, Муж, Вин, Ед} {«Александра», Сущ, Имя, Жен, Им, Ед}

29 Работа с морфологией

Работа с морфологией

Механика

Александра

1. Одноместные функции: проверка существования грамматической формы с заданными характеристиками

2. Двуместные функции: (1) из первого и второго слова выбираются подмножества S1 и S2 грамматических форм с заданными характеристиками, (2) проверяется, существует ли пара (v1,v2) такая, что v1?S1, v2?S2, и обе формы имеют требуемый набор характеристик с попарно совпадающими значениями

V

W

HasGrammarForm (V, PartOfSpeech_, Noun_, Gender_, Masc_)

AreConcordant (Case_, Number_, V, PartOfSpeech_, Noun_, Gender_, Masc_, W, PartOfSpeech_, Noun_, Gender_, Masc_)

{«механик», Сущ, Од, Муж, Род, Ед} {«механик», Сущ, Од, Муж, Вин, Ед} {«механика», Сущ, Неодуш, Жен, Им, Ед}

{«Александр», Сущ, Имя, Муж, Род, Ед} {«Александр», Сущ, Имя, Муж, Вин, Ед} {«Александра», Сущ, Имя, Жен, Им, Ед}

30 Согласование и нормальная форма

Согласование и нормальная форма

31 Неоднозначность и конфликты

Неоднозначность и конфликты

Пушкин А.С. Поэмы

В г. Сочи В.В. Путин

SN { T := SName; C := IsCapitalized (SName) & Length (SName) >= 2; A := { CW := 1 - (IsVoc (SName) & !IsPOS (SName, Surname_));}; }; NP { T := N \. P \.; C := Length (N) = 1 & Length (P) = 1; A := { CW := 1; }; }; Person_1 { T := [SN][NP]; A := {CW := NP.CW + SN.CW; };}; Person_2 { T := [NP][SN]; A := {CW := NP.CW + SN.CW + 0.5;};};

Person_2

Person_1

Person_2

Person_1

CW=1.5

CW=2

CW=2.5

CW=1.5

32 Неоднозначность и конфликты

Неоднозначность и конфликты

33 Сравнение языков

Сравнение языков

34 Механизм анализа

Механизм анализа

Задача: найти все вхождения образцов из в

35 Механизм анализа

Механизм анализа

Задача: найти все вхождения образцов из в

36 Механизм анализа

Механизм анализа

Задача: найти все вхождения образцов из в

37 Механизм анализа

Механизм анализа

Задача: найти все вхождения образцов из в

38 Механизм анализа

Механизм анализа

Задача: найти все вхождения образцов из в

39 Механизм анализа

Механизм анализа

Задача: найти все вхождения образцов из в

40 Механизм анализа

Механизм анализа

Задача: найти все вхождения образцов из в

41 Проблемы и решения

Проблемы и решения

Правила, составляемые экспертом, дают лучший результат в сравнении с результатом применения машинного обучения (обучение с учителем, распознавание образов …) Проблема: высокая трудоемкость работы эксперта Машинное обучение: Хорошо применимо для распознавания узких классов (напр., в Named Entities Recognition — имена людей — популярно у зарубежных исследователей) Позволяет распознать текстовый фрагмент и приписать класс, но не заполнить поля или отразить структуру наследования (следствие — трудность разрешения конфликтов) Обучение — возможно, не менее трудоемко, чем составление правил, и результат иногда недетерминирован для учителя Неполнота обучающей выборки Возможное решение: возьмем лучшее из обоих подходов

42 Проблемы и решения

Проблемы и решения

Машинное обучение

Система правил

Обучающая выборка

Правила

Механизм анализа

Механизм анализа

Текст

Текст

Результат анализа

Результат анализа

43 Проблемы и решения

Проблемы и решения

Механизм анализа не меняется Эксперт формирует набор атрибутов, система выявляет в текстах корпуса устойчивые сочетания

Корпус

Набор атрибутов

Правила

Механизм анализа

Текст

Результат анализа

44 Использование для поиска

Использование для поиска

Запрос: «февраль 2010»

Вхождения образца из запроса в текст

Образцы

День

Месяц

Год

Февраль 2010

?

2

2010

4 февраля 2010

4

2

2010

25-02-2010

25

2

2010

25.02.10

25

2

10

2010 год

?

?

2010

Feb 6, 2010

6

2

2010

06-03-2009

6

3

2009

45 Использование для поиска

Использование для поиска

Проблема — сравнение объектов сложнее сравнения слов: Частичное совпадение («2 февраля 2010» и «февраль 2010») Частичное несовпадение («февраль 2010» и «февраль 2009») «Семантическая» близость («3 февраля 2010» и «4 февраля 2010» ближе, чем «3 февраля 2010» и «3 февраля 2009») Пусть вместе с базой правил определена функция d(x,y): d(x,y) = 0 для одинаковых объектов d(x,y) = ? для объектов разных классов Частичное совпадение «лучше» частичного несовпадения Решение — степень схожести вместо булевского равенства:

46 Контакты

Контакты

Адрес: 603950 Россия, Нижний Новгород, Проспект Гагарина 23, корпус 7 Тел (факс): +7 (831) 278-67-57 e-mail: ds@dictum.ru web: www.dictum.ru

«Шаблон зимняя олимпиада»
http://900igr.net/prezentacija/informatika/shablon-zimnjaja-olimpiada-247999.html
cсылка на страницу
Урок

Информатика

130 тем
Слайды