Лексика
<<  Некодифицированная лексика молодежной среды: арго, жаргон или сленг Влияние SMS-сообщений на лексику школьников  >>
Семинар по корпусной лингвистике ИЛИ РАН 26 февраля 2007 г
Семинар по корпусной лингвистике ИЛИ РАН 26 февраля 2007 г
1. Постановка проблемы АКЛ = > данные об иерархической структуре
1. Постановка проблемы АКЛ = > данные об иерархической структуре
Специализированные ресурсы АКЛ: Решается задача > выделения кластеров
Специализированные ресурсы АКЛ: Решается задача > выделения кластеров
2. Цели исследования Обсуждаемый проект направлен на построение
2. Цели исследования Обсуждаемый проект направлен на построение
3. Этапы реализации проекта I. Создание инструмента АКЛ для работы с
3. Этапы реализации проекта I. Создание инструмента АКЛ для работы с
4. Используемые методы и процедуры Кластерный анализ Возможные методы
4. Используемые методы и процедуры Кластерный анализ Возможные методы
Латентный семантический анализ ЛСА = > представление множества
Латентный семантический анализ ЛСА = > представление множества
5. Компьютерная реализация инструмента АКЛ Программа АКЛ, созданная на
5. Компьютерная реализация инструмента АКЛ Программа АКЛ, созданная на
Параметры, определяемые при активизации программы: > имя файла,
Параметры, определяемые при активизации программы: > имя файла,
Блок I. Предварительная обработка текста и вычисление расстояний между
Блок I. Предварительная обработка текста и вычисление расстояний между
Блок II
Блок II
Блок III
Блок III
Результаты работы программы: > данные о частотности исследуемых лексем
Результаты работы программы: > данные о частотности исследуемых лексем
5. Эксперименты по АКЛ – автоматическая классификация
5. Эксперименты по АКЛ – автоматическая классификация
5.1. Автоматическая классификация терминов-дескрипторов в научных
5.1. Автоматическая классификация терминов-дескрипторов в научных
В ходе экспериментов выполнены следующие процедуры: – определение
В ходе экспериментов выполнены следующие процедуры: – определение
Пример: результаты обработки текста Т1, описываемого
Пример: результаты обработки текста Т1, описываемого
Результаты кластеризации в тексте Т1 с использованием иерархического
Результаты кластеризации в тексте Т1 с использованием иерархического
Результаты кластеризации в тексте Т1 с использованием метода К-средних
Результаты кластеризации в тексте Т1 с использованием метода К-средних
Эксперименты с текстами, для которых наблюдается частичное совпадение
Эксперименты с текстами, для которых наблюдается частичное совпадение
Результаты кластеризации различны: Т1 – (формат (разметка (поиск
Результаты кластеризации различны: Т1 – (формат (разметка (поиск
Итог: АКЛ в корпусе по корпусной лингвистике с учётом
Итог: АКЛ в корпусе по корпусной лингвистике с учётом
5.2. Автоматическая классификация глагольной лексики в
5.2. Автоматическая классификация глагольной лексики в
Объект исследования: 14 высокочастотных глаголов русского языка,
Объект исследования: 14 высокочастотных глаголов русского языка,
Эксперименты по иерархической кластеризации четвёрок глаголов при
Эксперименты по иерархической кластеризации четвёрок глаголов при
Отдельные случаи: Глаголы, относящиеся к одному лексико-семантическому
Отдельные случаи: Глаголы, относящиеся к одному лексико-семантическому
Итог: в ходе экспериментов с четвёрками глаголов из экспериментальной
Итог: в ходе экспериментов с четвёрками глаголов из экспериментальной
5.3. Автоматическая классификация лексики в параллельных текстах
5.3. Автоматическая классификация лексики в параллельных текстах
Эксперименты по иерархической кластеризации лексем проводились при
Эксперименты по иерархической кластеризации лексем проводились при
Основные результаты: Осуществлено разграничение микрогрупп в пределах
Основные результаты: Осуществлено разграничение микрогрупп в пределах
Для русских и для английских видовых наименований родовое имя
Для русских и для английских видовых наименований родовое имя
Случаи несовпадения результатов кластеризации, например: (кобыла
Случаи несовпадения результатов кластеризации, например: (кобыла
Особенности кластеризации в четвёрках (птица (человек, животное)
Особенности кластеризации в четвёрках (птица (человек, животное)
Итог: проведённые эксперименты подтверждают перспективность
Итог: проведённые эксперименты подтверждают перспективность
6. Перспективы развития исследования Осуществление первого этапа
6. Перспективы развития исследования Осуществление первого этапа
Работа по техническому совершенствованию инструмента АКЛ: – введение
Работа по техническому совершенствованию инструмента АКЛ: – введение
Проведение лингвистических экспериментов с более сложными параметрами:
Проведение лингвистических экспериментов с более сложными параметрами:
7. Благодарности: В.П.Захарову И.В.Азаровой А.С.Мариной В.С.Савицкому
7. Благодарности: В.П.Захарову И.В.Азаровой А.С.Мариной В.С.Савицкому

Презентация: «Автоматическая классификация лексики в неразмеченных русскоязычных текстах». Автор: A. Файл: «Автоматическая классификация лексики в неразмеченных русскоязычных текстах.ppt». Размер zip-архива: 46 КБ.

Автоматическая классификация лексики в неразмеченных русскоязычных текстах

содержание презентации «Автоматическая классификация лексики в неразмеченных русскоязычных текстах.ppt»
СлайдТекст
1 Семинар по корпусной лингвистике ИЛИ РАН 26 февраля 2007 г

Семинар по корпусной лингвистике ИЛИ РАН 26 февраля 2007 г

Автоматическая классификация лексики в неразмеченных русскоязычных текстах

О.А. Митрофанова, А.С. Мухин, П.В. Паничева (кафедра математической лингвистики СПбГУ)

2 1. Постановка проблемы АКЛ = > данные об иерархической структуре

1. Постановка проблемы АКЛ = > данные об иерархической структуре

. Постановка проблемы АКЛ = > данные об иерархической структуре лексикона, > формальные онтологии, словарная поддержка АОТ, > автоматическое индексирование текстов, > тематическое упорядочение документов в корпусах, > повышение качества информационного поиска > … и многое другое. Создание открытых модулей АКЛ для русского языка необходимо. Ресурсы, которые выполняют процедуру АКЛ и смежные с ней операции на основе русскоязычных текстов и лексикографических баз, – редкость.

3 Специализированные ресурсы АКЛ: Решается задача > выделения кластеров

Специализированные ресурсы АКЛ: Решается задача > выделения кластеров

близких по значению слов > из корпусов англоязычных текстов > на основе сходства дистрибуций: COALS (http://dlt4.mit.edu/~dr/COALS/) InfoMap (http://infomap.stanford.edu) Google-Sets (http://labs.google.com/sets) SenseClusters (http://senseclusters.­sourceforge.net/) LexSem (http://www.isi.edu/~pantel/Content/Demos/LexSem/cbc.htm) DSM (http://clg.wlv.ac.uk/demos/similarity/)

4 2. Цели исследования Обсуждаемый проект направлен на построение

2. Цели исследования Обсуждаемый проект направлен на построение

. Цели исследования Обсуждаемый проект направлен на построение русскоязычного ресурса АКЛ, который – позволяет качественно выделять лексико-семантические классы слов из текстов разных объемов и разных типов, – допускает классификацию лексики с различными условиями, – открывает возможность использования результатов классификации в других системах автоматической обработки текста.

5 3. Этапы реализации проекта I. Создание инструмента АКЛ для работы с

3. Этапы реализации проекта I. Создание инструмента АКЛ для работы с

неразмеченными текстами. II. Усовершенствование инструмента АКЛ для обработки размеченных текстов. III. Усовершенствование инструмента АКЛ для обработки корпусов параллельных текстов.

6 4. Используемые методы и процедуры Кластерный анализ Возможные методы

4. Используемые методы и процедуры Кластерный анализ Возможные методы

кластеризации: – иерархические (аггломеративные, дивизимные), – неиерархические (итеративные – К-средних, К-медианы…), – гибридные методы… Выбор метода кластеризации определяется условиями эксперимента: умеренный/значительный объем корпуса; наличие/отсутствие ограничений на число итоговых кластеров... Реализация: иерархический (аггломеративный) метод и неиерерархический метод (К-средних).

7 Латентный семантический анализ ЛСА = > представление множества

Латентный семантический анализ ЛСА = > представление множества

контекстов употребления исследуемых лексем как точек или векторов дистрибуций в N-мерном пространстве, > вычисление расстояния между точками или сравнение векторов дистрибуций. Меры: мера Евклида, мера Хэмминга…, вычисление значения косинуса угла между векторами дистрибуций… Результаты измерений, сохраняемые в матрице расстояний, используются при кластеризации.

8 5. Компьютерная реализация инструмента АКЛ Программа АКЛ, созданная на

5. Компьютерная реализация инструмента АКЛ Программа АКЛ, созданная на

. Компьютерная реализация инструмента АКЛ Программа АКЛ, созданная на языке Python, предусматривает три блока. Блок I. Предварительная обработка текста и вычисление расстояний между исследуемыми лексемами. Блок II. Иерархический кластерный анализ. Блок III. Кластерный анализ методом К-средних. Программирование: П.В.Паничева, А.С.Мухин.

9 Параметры, определяемые при активизации программы: > имя файла,

Параметры, определяемые при активизации программы: > имя файла,

содержащего анализируемый текст (text.txt); > имя файла, содержащего лексемы, отношения между которыми требуется исследовать (words.txt); > ширина контекстного окна (± s); > наличие/отсутствие весовых значений для ближних/удаленных элементов контекстов (yes / no); > метод кластеризации (иерархический или К-средних); > количество кластеров, которое необходимо получить (C).

10 Блок I. Предварительная обработка текста и вычисление расстояний между

Блок I. Предварительная обработка текста и вычисление расстояний между

исследуемыми лексемами: 1) обнаружение всех вхождений исследуемых лексем в текст, 2) автоматическое выделение границ контекстов в соответствии с заданной шириной контекстного окна, 3) автоматическое определение весов элементов контекста, 4) формирование множества контекстов употребления для каждой лексемы l, представление множества контекстов в виде вектора дистрибуции в N-мерном пространстве, 5) сравнение векторов дистрибуций всех исследуемых лексем применительно к обрабатываемому тексту с использованием меры Евклида. Итог: матрица расстояний между векторами дистрибуций для каждой пары исследуемых лексем.

11 Блок II

Блок II

Иерархический кластерный анализ: 1) пошаговое формирование совокупностей двух и более лексем, имеющих близкую дистрибуцию и образующих кластеры, 2) повторение процедуры до тех пор, пока все лексемы не объединятся последовательно в один кластер, или пока количество промежуточных кластеров (фактически, глубина иерархии) не достигнет числа, указанного пользователем. Итог: построение иерархической структуры, отражающей сходства и различия дистрибуций лексем.

12 Блок III

Блок III

Кластерный анализ методом К-средних: 1) предварительное задание итогового числа кластеров, 2) назначение элементов кластеров случайным образом, вычисление центров кластеров, 3) поиск ближайшего кластера – на каждом шаге итерации для каждого элемента, вычисление центров кластеров заново, 4) повторение процедуры до тех пор, пока элементы не перестанут менять своё местоположение в структуре, т.е. пока центры кластеров не стабилизируются. Итог: построение классификации с заданным числом классов.

13 Результаты работы программы: > данные о частотности исследуемых лексем

Результаты работы программы: > данные о частотности исследуемых лексем

в обрабатываемом тексте, > значения расстояний во всевозможных парах лексем из анализируемого набора, > результаты кластеризации – многоуровневый список слов в скобочной записи.

14 5. Эксперименты по АКЛ – автоматическая классификация

5. Эксперименты по АКЛ – автоматическая классификация

. Эксперименты по АКЛ – автоматическая классификация терминов-дескрипторов в научных текстах > на материале статей из русскоязычного корпуса по корпусной лингвистике; – автоматическая классификация глагольной лексики в экспериментальном корпусе > на материале базовых глаголов русского языка и корпуса глагольных контекстов; – автоматическая классификация лексики в параллельных текстах > на материале текстов оригинала и перевода повести-притчи Дж. Оруэлла «Скотный двор».

15 5.1. Автоматическая классификация терминов-дескрипторов в научных

5.1. Автоматическая классификация терминов-дескрипторов в научных

текстах Материал: русскоязычные тексты статей из корпуса по корпусной лингвистике (руководитель проекта В.П.Захаров). Экспериментальные тексты: 10 статей из корпуса (Т1–Т10). Предварительная обработка: для Т1–Т10 определены по 10 терминов-дескрипторов, позволяющих диагностировать тематическую принадлежность текста. Термины-дескрипторы представлены в нормализованном виде: корпус (корпус, корпусов, корпусе, корпуса, корпусы, корпусах, корпусом, корпусу)

16 В ходе экспериментов выполнены следующие процедуры: – определение

В ходе экспериментов выполнены следующие процедуры: – определение

частоты встречаемости каждого термина-дескриптора в тексте; – вычисление расстояний между парами терминов-дескрипторов в наборах (при ширине контекстного окна [-5…+5] и с учетом весов элементов контекстов); – осуществление кластеризации терминов-дескрипторов для каждого текста иерархическим методом и методом К-средних с различными параметрами (при глубине иерархии / конечном числе кластеров С = 3, 5, 7, 9).

17 Пример: результаты обработки текста Т1, описываемого

Пример: результаты обработки текста Т1, описываемого

терминами-дескрипторами (архив, банк, данные, корпус, массив, поиск, разметка, текст, формат, чешский) Частота употребления терминов-дескрипторов в тексте Т1: корпус (f = 43), текст (f = 25), данные (f =13), поиск (f = 8), чешский (f = 6), разметка (f = 4), массив (f = 2), формат (f = 2), архив (f = 1), банк (f = 1). Расстояния между парами терминов-дескрипторов: корпус–корпус = 0,0 корпус–разметка = 0,984 корпус–текст = 0,344 корпус–массив = 1,477 корпус–данные = 0,509 корпус–формат = 1,492 корпус–поиск = 0,6739 корпус–архив = 1,848 корпус–чешский = 0,737 корпус–банк = 2,088

18 Результаты кластеризации в тексте Т1 с использованием иерархического

Результаты кластеризации в тексте Т1 с использованием иерархического

метода (глубина иерархии С = 3, 5, 7, 9): С = 3 (архив, банк, массив, разметка, формат, чешский, (поиск ((текст, корпус) данные))) С = 5 (архив, банк, массив, формат (разметка (чешский (поиск ((текст, корпус) данные))))) С = 7 (архив, банк, (массив ((разметка (чешский (поиск ((текст, корпус) данные)))) формат))) С = 9 (банк (архив (массив ((разметка (чешский (поиск ((текст, корпус) данные)))) формат)))

19 Результаты кластеризации в тексте Т1 с использованием метода К-средних

Результаты кластеризации в тексте Т1 с использованием метода К-средних

(конечное число кластеров С = 3, 5, 7, 9): С = 3 ((архив) (банк) (данные, корпус, массив, поиск, разметка, текст, формат, чешский)) С = 5 ((архив) (банк) (разметка) (данные, корпус, поиск, текст, формат, чешский) (массив)) С = 7 ((архив) (банк) (данные, корпус, текст) (формат, чешский) (массив) (поиск) (разметка) С = 9 ((архив) (банк) (данные) (чешский) (массив) (поиск) (разметка) (корпус, текст) (формат))

20 Эксперименты с текстами, для которых наблюдается частичное совпадение

Эксперименты с текстами, для которых наблюдается частичное совпадение

наборов дескрипторов Кластеризация совпадающих элементов в наборах терминов-дескрипторов производилась с помощью иерархического метода. Результаты кластеризации идентичны: Т1 и Т2 – (массив (данные (корпус, текст))) Т4 и Т5 – (словарь (корпус, текст)) Т4 и Т9 – (частота (корпус, текстов))

21 Результаты кластеризации различны: Т1 – (формат (разметка (поиск

Результаты кластеризации различны: Т1 – (формат (разметка (поиск

езультаты кластеризации различны: Т1 – (формат (разметка (поиск (текст, корпус)))) Т10 – (разметка (((корпус, текст) формат) (поиск)) Т9 – (поиск (слово (текст, корпус))) Т10 – (поиск (корпус (слово, текст))) Т6 – (лингвистика (разметка, корпус)) Т8 – (корпус (лингвистика, разметка))

22 Итог: АКЛ в корпусе по корпусной лингвистике с учётом

Итог: АКЛ в корпусе по корпусной лингвистике с учётом

терминов-дескрипторов способствует решению ряда задач: – структурирование знаний в предметной области КЛ: > упорядочение терминологии, > выявление понятийных категорий и их связей; – подготовка данных для создания онтологии КЛ: > выявление основных тематических областей, > классификацию текстов внутри этих областей; – разработка инструментов для > определения количественных оценок близости текстов, > осуществления процедуры автоматической классификации текстов.

23 5.2. Автоматическая классификация глагольной лексики в

5.2. Автоматическая классификация глагольной лексики в

.2. Автоматическая классификация глагольной лексики в экспериментальном корпусе Экспериментальный корпус: сформирован на основе случайных выборок контекстов употребления глаголов русского языка из корпуса Бокрёнок (руководитель проекта И.В.Азарова, разработчик экспериментального корпуса А.С.Марина). Объём корпуса: свыше 100 тыс. с/у. В ходе эксперимента использовалась версия корпуса глагольных контекстов без морфологической разметки.

24 Объект исследования: 14 высокочастотных глаголов русского языка,

Объект исследования: 14 высокочастотных глаголов русского языка,

думать, понимать, брать, дать, видеть, смотреть, делать, работать, стоять, лежать, держать, бросать, идти, ехать представляющих основные лексико-семантические классы: интеллектуальная деятельность, восприятие, владение, созидательная деятельность, социальная деятельность, физическое воздействие, перемещение / местоположение в пространстве...

25 Эксперименты по иерархической кластеризации четвёрок глаголов при

Эксперименты по иерархической кластеризации четвёрок глаголов при

ширине контекстного окна [-5…+5] c учётом весов элементов контекстов. Кластеры в следующих наборах глагольных лексем сформированы корректно: (идти, ехать (видеть, смотреть)) (идти, ехать (делать, работать)) (брать, дать (видеть, смотреть)) (держать, бросать (думать, понимать)) (стоять, лежать (думать, понимать))

26 Отдельные случаи: Глаголы, относящиеся к одному лексико-семантическому

Отдельные случаи: Глаголы, относящиеся к одному лексико-семантическому

классу, проявляют высокое сходство дистрибуций: думать–понимать = 0,107 делать–работать = 0,117 Глаголы, представляющие разные лексико-семантические классы, отличаются по своим сочетаемостным способностям: понимать–лежать = 0,152 видеть–идти = 0,151 Различие дистрибуций наблюдается у глаголов, принадлежащих к из одному лексико-семантическому классу, но находящихся в отношениях контраста: брать–дать = 0,131.

27 Итог: в ходе экспериментов с четвёрками глаголов из экспериментальной

Итог: в ходе экспериментов с четвёрками глаголов из экспериментальной

группы получены положительные результаты. Хотя при решении задач АКЛ применительно к глагольной лексике предпочтительна работа с размеченными корпусами значительного объема и осуществление кластеризации по тегам, есть аргументы в пользу того, что желаемая цель может быть достигнута и при обращении к неразмеченному корпусу текстов.

28 5.3. Автоматическая классификация лексики в параллельных текстах

5.3. Автоматическая классификация лексики в параллельных текстах

Материал: тексты оригинала и перевода повести-притчи Дж. Оруэлла «Скотный двор» – G. Orwell «Animal Farm» (версия электронной библиотеки М.Мошкова). Объем текстов: ~ 24 тыс. с/у (русский текст), ~ 30 тыс. с/у (английский текст). Объект исследования: тематическая группа «Живые существа», объединяющая существительные, которые обозначают человека, животных и птиц. Экспериментальный набор лексем: более 50 имён, присутствующих в оригинальном и переводном текстах и релевантных с точки зрения сюжета.

29 Эксперименты по иерархической кластеризации лексем проводились при

Эксперименты по иерархической кластеризации лексем проводились при

ширине контекстного окна [-5…+5] с учётом весов контекстных элементов. Обработка текстов позволила получить данные – о частотности лексических единиц, – о расстояниях между исследуемыми словами в пределах текстов оригинала и перевода, – о вариантах их кластеризации.

30 Основные результаты: Осуществлено разграничение микрогрупп в пределах

Основные результаты: Осуществлено разграничение микрогрупп в пределах

заданной тематической группы. Кластеризация позволяет противопоставлять имена животных и птиц: (ворон (овца, животное)) (raven (animal, sheep)) (цыплята (животное, кошка)) (chickens (cat, animal)) (осел (утка, птица)) (donkey (duck, bird)) (коза (утята, птица)) (goat (ducklings, bird))

31 Для русских и для английских видовых наименований родовое имя

Для русских и для английских видовых наименований родовое имя

определяется корректно: ((голубь, утка) птица) (bird (duck, raven)). Осуществлена кластеризация существительных, обозначающих представителей одного вида. В ряде случаев иерархия имён для русского и английского текстов является идентичной: (цыплята (курица, петух)) (chickens (hen, cockerel)).

32 Случаи несовпадения результатов кластеризации, например: (кобыла

Случаи несовпадения результатов кластеризации, например: (кобыла

(жеребята, лошадь)) (foal (horse, mare)). Возможные причины: – асимметрия переводческих соответствий; – различная частота употребления элементов пары «лексема языка оригинала – лексема языка перевода». лошадь (f = 20); кобыла (f = 2), кобылка (f = 2); жеребята (f = 2), жеребец (f = 2)); horse (f = 25); mare (f = 4); foal (f = 2))

33 Особенности кластеризации в четвёрках (птица (человек, животное)

Особенности кластеризации в четвёрках (птица (человек, животное)

боров) (bird (boar (man, animal))). Причины отступления от логического соотношения родовых имён и видового наименования: – специфика употребления существительных боров и boar в тексте повести-притчи, – специфика сюжетной линии. Данные о расстояниях между парами лексем: аnimal–boar = 0,783 животное–боров = 0,817 animal–human = 0,206 животное–человек = 0,224 animal–bird = 0,950 животное–птица = 0,838

34 Итог: проведённые эксперименты подтверждают перспективность

Итог: проведённые эксперименты подтверждают перспективность

совершенствования инструмента АКЛ для дальнейшей работы с корпусами параллельных текстов.

35 6. Перспективы развития исследования Осуществление первого этапа

6. Перспективы развития исследования Осуществление первого этапа

проекта по созданию и практическому применению инструмента АКЛ, рассчитанного на работу с неразмеченными русскоязычными текстами, привело к желаемым результатам. В дальнейшем планируется: – работа по техническому совершенствованию инструмента АКЛ; – проведение лингвистических экспериментов с более сложными параметрами.

36 Работа по техническому совершенствованию инструмента АКЛ: – введение

Работа по техническому совершенствованию инструмента АКЛ: – введение

дополнительных возможностей: > при кластеризации: использование новых методов кластеризации; > при измерении расстояний между лексемами: добавление метрик; – модернизация пользовательского интерфейса: > добавление режима визуализации результатов.

37 Проведение лингвистических экспериментов с более сложными параметрами:

Проведение лингвистических экспериментов с более сложными параметрами:

– обработка > размеченных текстов, > текстов различной тематической принадлежности, > разнообъёмных текстов, > параллельных текстов; – кластеризация > в наборах лексем при различных условиях.

38 7. Благодарности: В.П.Захарову И.В.Азаровой А.С.Мариной В.С.Савицкому

7. Благодарности: В.П.Захарову И.В.Азаровой А.С.Мариной В.С.Савицкому

М.А.Александрову и всем нашим коллегам, поддержавшим проект.

«Автоматическая классификация лексики в неразмеченных русскоязычных текстах»
http://900igr.net/prezentacija/russkij-jazyk/avtomaticheskaja-klassifikatsija-leksiki-v-nerazmechennykh-russkojazychnykh-tekstakh-134411.html
cсылка на страницу

Лексика

20 презентаций о лексике
Урок

Русский язык

100 тем
Слайды
900igr.net > Презентации по русскому языку > Лексика > Автоматическая классификация лексики в неразмеченных русскоязычных текстах