Текст
<<  Комментарий к тексту и аргументация Урок русского языка в 4 классе по теме: «Текст- описание»  >>
Автоматическая рубрикация текстов
Автоматическая рубрикация текстов
Задачи классификации
Задачи классификации
Рубрикация текстов
Рубрикация текстов
Примеры рубрикаторов
Примеры рубрикаторов
Каталог Яндекс – Фасетная классификация
Каталог Яндекс – Фасетная классификация
Рубрикатор нормативно-правовых актов
Рубрикатор нормативно-правовых актов
Методы рубрицирования текстов
Методы рубрицирования текстов
Тестирование автоматической рубрикации: Точность P и полнота R
Тестирование автоматической рубрикации: Точность P и полнота R
Комбинированная мера: F
Комбинированная мера: F
Усреднение: Micro vs
Усреднение: Micro vs
Коллекция и рубрикатор Reuters для тестирования автоматического
Коллекция и рубрикатор Reuters для тестирования автоматического
Ручное рубрицирование
Ручное рубрицирование
Автоматическая рубрикация: Инженерный подход
Автоматическая рубрикация: Инженерный подход
Reuters: пример описания рубрики
Reuters: пример описания рубрики
Автоматическая рубрикация: Методы машинного обучения
Автоматическая рубрикация: Методы машинного обучения
Методы машинного для задачи автоматической рубрикации
Методы машинного для задачи автоматической рубрикации
Классификаторы на основе пространства векторов
Классификаторы на основе пространства векторов
Векторная модель
Векторная модель
Вычисление весов слов
Вычисление весов слов
Классификация на основе пространства векторов
Классификация на основе пространства векторов
Документы в векторном пространстве
Документы в векторном пространстве
Документ относится к какому классу
Документ относится к какому классу
Тема документа - Правительство
Тема документа - Правительство
Положительные и отрицательные примеры: как лучше отделить
Положительные и отрицательные примеры: как лучше отделить
Метод Rocchio в автоматической рубрикации
Метод Rocchio в автоматической рубрикации
Метод Rocchio (relevance feedback)
Метод Rocchio (relevance feedback)
Начальный запрос/результаты
Начальный запрос/результаты
Расширенный запрос после учета слов в релевантных документах
Расширенный запрос после учета слов в релевантных документах
Использование Rocchio для классификации текстов
Использование Rocchio для классификации текстов
Иллюстрация метода Rocchio
Иллюстрация метода Rocchio
Автоматическая рубрикация текстов
Автоматическая рубрикация текстов
Автоматическая рубрикация текстов
Автоматическая рубрикация текстов
Автоматическая рубрикация текстов
Автоматическая рубрикация текстов
Аномалия метода Rocchio
Аномалия метода Rocchio
Свойства метода Rocchio
Свойства метода Rocchio
Метод ближайших соседей (KNN)
Метод ближайших соседей (KNN)
Метод k ближайших соседей
Метод k ближайших соседей
Пример: k=6 (6NN)
Пример: k=6 (6NN)
Алгоритм: k ближайших соседей
Алгоритм: k ближайших соседей
Knn границы классов
Knn границы классов
Иллюстрация 3NN для текста в векторном пространстве
Иллюстрация 3NN для текста в векторном пространстве
3 NN vs
3 NN vs
Линейные классификаторы
Линейные классификаторы
Линейные классификаторы
Линейные классификаторы
Разделение гиперплоскостями
Разделение гиперплоскостями
Линейные классификаторы: Какая гиперплоскость
Линейные классификаторы: Какая гиперплоскость
Другая интуиция
Другая интуиция
Метод опорных векторов (SVM)
Метод опорных векторов (SVM)
Результаты на коллекции Reuters
Результаты на коллекции Reuters
Байесовская классификация
Байесовская классификация
На практике мы заинтересованы лишь в числителе этой дроби, так как
На практике мы заинтересованы лишь в числителе этой дроби, так как
и т. д. Теперь начинаем использовать «наивные» предположения условной
и т. д. Теперь начинаем использовать «наивные» предположения условной
предположим, что каждое свойство Fi условно независимо от любого
предположим, что каждое свойство Fi условно независимо от любого
Оценка параметров Все параметры модели могут быть аппроксимированы
Оценка параметров Все параметры модели могут быть аппроксимированы
Построение классификатора по вероятностной модели Наивный байесовский
Построение классификатора по вероятностной модели Наивный байесовский
Заключение
Заключение

Презентация: «Автоматическая рубрикация текстов». Автор: boris. Файл: «Автоматическая рубрикация текстов.ppt». Размер zip-архива: 560 КБ.

Автоматическая рубрикация текстов

содержание презентации «Автоматическая рубрикация текстов.ppt»
СлайдТекст
1 Автоматическая рубрикация текстов

Автоматическая рубрикация текстов

Text categorization Manning и др. Введение в информационный поиск гл. 13, 14

2 Задачи классификации

Задачи классификации

3 Рубрикация текстов

Рубрикация текстов

Классификация/рубрикация информации – отнесение порции информации к одной или нескольким категориям из конечного множества рубрик Применение: Навигация по коллекции документов Поиск информации Замена сложного запроса Иерархическое упорядочение знаний предметной области Анализ распределения документов по тематике Фильтрация потока текстов: Тематический сбор новостей Персонализированная фильтация потока текстов Фильтрация спама Тематический сбор информации из интернет

4 Примеры рубрикаторов

Примеры рубрикаторов

Каталог Интернет-сайтов: Open Directory Project – dmoz.org 4,830,584 sites, 75,151 editors, over 590,000 categories Сетевая структура, ссылки между рубриками

5 Каталог Яндекс – Фасетная классификация

Каталог Яндекс – Фасетная классификация

Тематическая Иерархический классификатор, имеет порядка 600 значений и описывает предметную область интернет-ресурса Регион 230 географических областей. Определяется географическим расположением представляемого объекта, сферой управления и влияния, потенциальной аудиторией информации или информационным содержанием ресурса Жанр художественная литература; научно-техническая литература; научно-популярная литература; нормативные документы; советы; публицистика Источник информации Официальный, СМИ, Неформальный, Персональный Анонимный Адресат информации Партнеры, Инвесторы, Потребители, Коллеги Сектор экономики Государственный, Коммерческий, Некоммерческий

6 Рубрикатор нормативно-правовых актов

Рубрикатор нормативно-правовых актов

Президентский классификатор (Указ №511 15.03.2000) Иерархия рубрик - 1168 рубрик Все НПА рубрицируются экспертами в обязательном порядке

7 Методы рубрицирования текстов

Методы рубрицирования текстов

Ручное рубрицирование Полуавтоматическое Автоматическое Инженерный подход (=методы, основанные на знаниях, экспертные методы) Методы машинного обучения

8 Тестирование автоматической рубрикации: Точность P и полнота R

Тестирование автоматической рубрикации: Точность P и полнота R

P = TP / ( TP + FP) R = TP / ( TP + FN)

8

8

9 Комбинированная мера: F

Комбинированная мера: F

9

9

10 Усреднение: Micro vs

Усреднение: Micro vs

Macro

Посчитали меру оценки (F1) for one class. Как агрегировать оценки F1 для многих классов. Macroaveraging - макроусреднение Посчитать F1 для каждого из C классов Среднее арифметическое для этих C чисел Microaveraging - микроусреднение Посчитать TP, FP, FN для каждого из C classes Суммировать эти С чисел для каждого показателя Посчитать F1 для суммированных TP, FP, FN

10

10

11 Коллекция и рубрикатор Reuters для тестирования автоматического

Коллекция и рубрикатор Reuters для тестирования автоматического

рубрицирования

Более 21 тысячи информационных сообщений из области биржевой торговли и слияния предприятий Массив разделен на две части: документы для обучения, документы для тестирования Большинство текстов имеют рубрики, проставленные людьми Основные рубрики: 135 без иерархии Примеры рубрик: Золото (товар), Свинец (товар), Кофе и др. товары, Торговля Средняя длина текста - 133 слова

12 Ручное рубрицирование

Ручное рубрицирование

Высокая точность рубрицирования Обычно процент документов, в которых проставлена явно неправильная рубрика, чрезвычайно мал (если работают специалисты) Могут быть существенные различия между специалистами в рубрицировании близких документов Низкая скорость обработки документов Используется: Парламентские службы, Looksmart, about.com, ODP, PubMed Библиотеки (УДК)

13 Автоматическая рубрикация: Инженерный подход

Автоматическая рубрикация: Инженерный подход

Основное предположение: рубрикатор создается осмысленно, содержание рубрики можно выразить ограниченным количеством понятий в виде формулы Эксперты описывают смысл рубрики в виде булевских выражений, правил продукции Construe system (Hayes) Reuter news story 674 рубрики: 135 тематических рубрик + география… 4 человеко-года 94 % полноты и 84 % точности на 723 текстах

14 Reuters: пример описания рубрики

Reuters: пример описания рубрики

if (wheat & farm) or (wheat & commodity) or (bushels & export) or (wheat & tonnes) or (wheat & winter and (¬ soft)) then WHEAT else (not WHEAT)

15 Автоматическая рубрикация: Методы машинного обучения

Автоматическая рубрикация: Методы машинного обучения

Имеется коллекция отрубрицированных людьми текстов. Для каждой рубрики имеется множество положительных и отрицательных примеров

16 Методы машинного для задачи автоматической рубрикации

Методы машинного для задачи автоматической рубрикации

Метод Байеса (Naive Bayes ) Метод Roccio Метод ближайшего соседа (k-Nearest Neighbors – knn) Метод опорных векторов (Support-vector machines – SVM) !!Должно быть размечено достаточное количество данных.

17 Классификаторы на основе пространства векторов

Классификаторы на основе пространства векторов

18 Векторная модель

Векторная модель

Преобразование множества текстов в векторы пространства Rn Пословная модель – bag of words Удаление стоп-слов (предлоги, союзы…), которые заданы списком Приведение к нормальной морфологической форме (stemming, лемматизация – приведение к словарной форме) Определение весов слов Построение вектора слов документа

19 Вычисление весов слов

Вычисление весов слов

Частота встречаемости слова в документе Количество документов коллекции, содержащих данное слово Длина документа, средняя длина документов коллекции => формула TF*IDF tfD(t) = freqD(t) idf(t) = log( |c|/df(t) )

20 Классификация на основе пространства векторов

Классификация на основе пространства векторов

Документы – вектора, точки в векторном пространстве Предположения: Документы одного класса находятся в одной области пространства Документы из разных классов находятся в непересекающихся областях Таким образом: нужно найти разделяющую поверхность

21 Документы в векторном пространстве

Документы в векторном пространстве

Government

Science

Arts

Sec.14.1

21

22 Документ относится к какому классу

Документ относится к какому классу

Government

Science

Arts

Sec.14.1

22

23 Тема документа - Правительство

Тема документа - Правительство

Верна ли гипотеза

Как найти хорошие разделяющие поверхности?

Government

Science

Arts

Sec.14.1

23

24 Положительные и отрицательные примеры: как лучше отделить

Положительные и отрицательные примеры: как лучше отделить

25 Метод Rocchio в автоматической рубрикации

Метод Rocchio в автоматической рубрикации

Manning et al. Introduction to information retrieval Гл. 14

26 Метод Rocchio (relevance feedback)

Метод Rocchio (relevance feedback)

Применяется для расширения запроса пользователя Пользователь задает запрос Система выдает документы Пользователь отмечает релевантные (нерелевантные) документы Слова из релевантных документов вносятся в запрос Имеющиеся примеры для рубрики – это как бы релевантные документы

27 Начальный запрос/результаты

Начальный запрос/результаты

Initial query: New space satellite applications 1. 0.539, 08/13/91, NASA Hasn’t Scrapped Imaging Spectrometer 2. 0.533, 07/09/91, NASA Scratches Environment Gear From Satellite Plan 3. 0.528, 04/04/90, Science Panel Backs NASA Satellite Plan, But Urges Launches of Smaller Probes 4. 0.526, 09/09/91, A NASA Satellite Project Accomplishes Incredible Feat: Staying Within Budget 5. 0.525, 07/24/90, Scientist Who Exposed Global Warming Proposes Satellites for Climate Research 6. 0.524, 08/22/90, Report Provides Support for the Critics Of Using Big Satellites to Study Climate 7. 0.516, 04/13/87, Arianespace Receives Satellite Launch Pact From Telesat Canada 8. 0.509, 12/02/87, Telecommunications Tale of Two Companies User then marks relevant documents with “+”.

Sec. 9.1.1

28 Расширенный запрос после учета слов в релевантных документах

Расширенный запрос после учета слов в релевантных документах

2.074 new 15.106 space 30.816 satellite 5.660 application 5.991 nasa 5.196 eos 4.196 launch 3.972 aster 3.516 instrument 3.446 arianespace 3.004 bundespost 2.806 ss 2.790 rocket 2.053 scientist 2.003 broadcast 1.172 earth 0.836 oil 0.646 measure

Sec. 9.1.1

29 Использование Rocchio для классификации текстов

Использование Rocchio для классификации текстов

Для документов в каждой категории вычисляем вектор-прототип: суммируем вектора всех примеров документов в категории Прототип = центроид документов категории где Dc – множество документов, отнесенных к категории С, v(d) - векторное представление документа Присваиваем тестовым документам категорию ближайшего по косинусной мере вектора-прототипа

Sec.14.2

29

30 Иллюстрация метода Rocchio

Иллюстрация метода Rocchio

Sec.14.2

30

31 Автоматическая рубрикация текстов
32 Автоматическая рубрикация текстов
33 Автоматическая рубрикация текстов
34 Аномалия метода Rocchio

Аномалия метода Rocchio

Prototype models have problems with polymorphic (disjunctive) categories.

Sec.14.2

34

35 Свойства метода Rocchio

Свойства метода Rocchio

Формирует простое обобщение примеров в данном классе (прототип). Вектор прототипа не нужно нормализовывать по длине, поскольку косинусная близость нечувствительна к длине вектора Классификация основана на сходстве с векторами-прототипами Не гарантируется, что классификации буду хорошо соответствовать обучающим данным Мало используется вне текстовой классификации - но может быть вполне эффективным при классификации текстов Дешевый метод для обучения и тестирования классификации

Sec.14.2

35

36 Метод ближайших соседей (KNN)

Метод ближайших соседей (KNN)

37 Метод k ближайших соседей

Метод k ближайших соседей

kNN = k Nearest Neighbor Чтобы классифицировать документ в класс c: определяем k-ближайших соседей документа d Для каждого класса С вычисляем количество документов i среди соседей, которые принадлежат С Оцениваем P(c|d) as i/k Выбираем класс: argmaxc P(c|d) [ = majority class]

Sec.14.3

37

38 Пример: k=6 (6NN)

Пример: k=6 (6NN)

P(science| )?

Government

Science

Arts

Sec.14.3

38

39 Алгоритм: k ближайших соседей

Алгоритм: k ближайших соседей

Использование только одного ближайшего соседа (1NN) ведет к ошибкам из-за: нетипичных примеров ошибок в ручной привязке единственного обучающего примера. Более устойчивой альтернативой является k наиболее похожих примеров и определение большинства Величина k is типично нечетная: 3, 5 (наиболее распространенные величины)

Sec.14.3

39

40 Knn границы классов

Knn границы классов

kNN gives locally defined decision boundaries between classes – far away points do not influence each classification decision (unlike in Na?ve Bayes, Rocchio, etc.)

Boundaries are in principle arbitrary surfaces – but usually polyhedra

Government

Science

Arts

Sec.14.3

40

41 Иллюстрация 3NN для текста в векторном пространстве

Иллюстрация 3NN для текста в векторном пространстве

Sec.14.3

41

42 3 NN vs

3 NN vs

Rocchio

Ближайшие соседи справляются с полиморфными категриями лучше, чем Rocchio

42

43 Линейные классификаторы

Линейные классификаторы

Классификатор SVM

44 Линейные классификаторы

Линейные классификаторы

Проблема разделения документов на 2 класса например, government and non-government one-versus-rest классификация Как правильно определить разделяющую поверхность Как решить, к какой области относится тестовый документ?

Sec.14.4

44

45 Разделение гиперплоскостями

Разделение гиперплоскостями

Сильное предположение – линейная разделимость (linear separability): в двух измерения – линия В больших измерениях – гиперплоскость Сепаратор может быть выражен как ax + by = c

Sec.14.4

45

46 Линейные классификаторы: Какая гиперплоскость

Линейные классификаторы: Какая гиперплоскость

Множество возможностей для a, b, c. Некоторые методы ищут разделяющую гиперплоскость, но не оптимально Метод опорных векторов (SVM) находит оптимальное решение Максимизирует расстояние между гиперплоскостью и трудными точками, близкими к границе раздела Интуитивно: если нет точек около границы раздела, то нет и сложных (неопределенных) примеров

This line represents the decision boundary: ax + by ? c = 0

Ch. 15

46

47 Другая интуиция

Другая интуиция

С «толстым сепаратором» меньше вариантов поворота

Sec. 15.1

47

48 Метод опорных векторов (SVM)

Метод опорных векторов (SVM)

SVMs maximize the margin around the separating hyperplane. A.k.a. large margin classifiers The decision function is fully specified by a subset of training samples, the support vectors. Solving SVMs is a quadratic programming problem Currently widely seen as as the best text classification method.

Sec. 15.1

48

49 Результаты на коллекции Reuters

Результаты на коллекции Reuters

Sec. 15.2.4

49

50 Байесовская классификация

Байесовская классификация

Наивный байесовский классификатор — простой вероятностный классификатор, основанный на применении Теоремы Байеса со строгими (наивными) предположениями о независимости. Абстрактно, вероятностная модель для классификатора — это условная модель

51 На практике мы заинтересованы лишь в числителе этой дроби, так как

На практике мы заинтересованы лишь в числителе этой дроби, так как

знаменатель не зависит от C и значения свойств Fi даны, так что знаменатель — константа. Числитель эквивалентен совместной вероятности модели

52 и т. д. Теперь начинаем использовать «наивные» предположения условной

и т. д. Теперь начинаем использовать «наивные» предположения условной

независимости:

53 предположим, что каждое свойство Fi условно независимо от любого

предположим, что каждое свойство Fi условно независимо от любого

другого свойства Fj при . Это означает

54 Оценка параметров Все параметры модели могут быть аппроксимированы

Оценка параметров Все параметры модели могут быть аппроксимированы

относительными частотами из набора данных обучения. Это оценки максимального правдоподобия вероятностей. Не дискретные свойства должны быть сначала дискретизированы. Если данный класс и значений свойства никогда не встречаются вместе в наборе обучения, тогда оценка, основанная на вероятностях, будет равна нулю. Это проблема, так как при перемножении нулевая оценка приведет к потере информации о других вероятностях. Поэтому предпочтительно проводить небольшие поправки во все оценки вероятностей так, чтобы никакая вероятность не была строго равна нулю.

55 Построение классификатора по вероятностной модели Наивный байесовский

Построение классификатора по вероятностной модели Наивный байесовский

классификатор объединяет модель с правилом решения. Одно общее правило должно выбрать наиболее вероятную гипотезу; оно известно как апостериорное правило принятия решения (MAP). Соответствующий классификатор — это функция classify, определённая следующим образом:

56 Заключение

Заключение

Задача автоматической классификации (рубрикации) Методы классификации Методы машинного обучения Требуют последовательно размеченной коллекции примеров Такую коллекцию непросто обеспечить при большом сложном рубрикаторе

«Автоматическая рубрикация текстов»
http://900igr.net/prezentacija/literatura/avtomaticheskaja-rubrikatsija-tekstov-108928.html
cсылка на страницу
Урок

Литература

183 темы
Слайды
900igr.net > Презентации по литературе > Текст > Автоматическая рубрикация текстов