Поисковые системы
<<  Новые возможности по поиску и верификации документов в ПП «ПАРУС – Предприятие 8» с использованием QR – кодов Просмотр индекса и результатов поиска; формирование отчета  >>
Ранжирование документов в системе поиска, основанной на применении
Ранжирование документов в системе поиска, основанной на применении
В отличие от традиционно используемой для целей индексирования и
В отличие от традиционно используемой для целей индексирования и
СИСТЕМАТИЗАЦИЯ включает ПРЕДМЕТИЗАЦИЮ и ИНДЕКСАЦИЮ электронных
СИСТЕМАТИЗАЦИЯ включает ПРЕДМЕТИЗАЦИЮ и ИНДЕКСАЦИЮ электронных
Фрагменты таксономий: по экологии растений (слева); по водным объектам
Фрагменты таксономий: по экологии растений (слева); по водным объектам
34
34
Индексация
Индексация
Ранжирование документов в системе поиска, основанной на применении
Ранжирование документов в системе поиска, основанной на применении
1. массив электронных публикаций, в котором осуществляется поиск,
1. массив электронных публикаций, в котором осуществляется поиск,
4. наиболее эффективной схемой взаимодействия пользователя с
4. наиболее эффективной схемой взаимодействия пользователя с
Ранжирование
Ранжирование
Первоначально, схема ранжирования документов основывалась на
Первоначально, схема ранжирования документов основывалась на
РАНЖИРОВАНИЕ ПУБЛИКАЦИЙ (основные предположения, положенные в основу
РАНЖИРОВАНИЕ ПУБЛИКАЦИЙ (основные предположения, положенные в основу
Вычисление веса публикации
Вычисление веса публикации
n 3 w =
n 3 w =
Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием
Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием
Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием
Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием
Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием
Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием
Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием
Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием
Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием
Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием
Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием
Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием
Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием
Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием
Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием
Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием
Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием
Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием
Результаты ранжирования по запросу «68
Результаты ранжирования по запросу «68
Заключение
Заключение
Спасибо за внимание
Спасибо за внимание
Ранжирование документов в системе поиска, основанной на применении
Ранжирование документов в системе поиска, основанной на применении
Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием
Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием
АРХИТЕКТУРА ИАС «Природные ресурсы Карелии»
АРХИТЕКТУРА ИАС «Природные ресурсы Карелии»
Miriam fernandez, ivan cantador, vanesa lуpez, david vallet, pablo
Miriam fernandez, ivan cantador, vanesa lуpez, david vallet, pablo

Презентация на тему: «Ранжирование документов в системе поиска, основанной на применении онтологии». Автор: math. Файл: «Ранжирование документов в системе поиска, основанной на применении онтологии.ppt». Размер zip-архива: 764 КБ.

Ранжирование документов в системе поиска, основанной на применении онтологии

содержание презентации «Ранжирование документов в системе поиска, основанной на применении онтологии.ppt»
СлайдТекст
1 Ранжирование документов в системе поиска, основанной на применении

Ранжирование документов в системе поиска, основанной на применении

онтологии

© В.Т. Вдовицын, В.А. Лебедев Институт прикладных математических исследований Карельского научного центра РАН, Петрозаводск vdov@krc.karelia.ru

RCDL’2012, Переславль-Залесский, 15–18 октября 2012 г.

2 В отличие от традиционно используемой для целей индексирования и

В отличие от традиционно используемой для целей индексирования и

поиска публикаций модели текста как «набор слов» («bag of words» model) мы используем в качестве модели текста публикации «набор упорядоченных терминов». В нашем случае индекс публикации формируется не на наборе слов, а на основе онтологии, моделирующей содержание определенного тематического множества публикаций. Онтология включает: рубрикатор (в нашем случае ГРНТИ), таксономию терминов определенной научной предметной области и набор логических условий предметизации (правил отнесения публикаций к определенным рубрикам ГРНТИ). Концептуальное индексирование (многозначные термины «разведены» по разным рубрикам; синонимы «учитываются» при выполнении запроса; отношения между терминами используются для расширения или уточнения запроса).

3 СИСТЕМАТИЗАЦИЯ включает ПРЕДМЕТИЗАЦИЮ и ИНДЕКСАЦИЮ электронных

СИСТЕМАТИЗАЦИЯ включает ПРЕДМЕТИЗАЦИЮ и ИНДЕКСАЦИЮ электронных

публикаций. ПРЕДМЕТИЗАЦИЯ электронной публикации осуществляется на основе анализа ее названия и ключевых слов с помощью специально разработанных логических условий предметизации. В результате выполняется предварительное отнесение публикации к соответствующим рубрикам ГРНТИ. На этапе ИНДЕКСАЦИИ текст публикации, с целью выявления имеющейся в их составе терминологии, сопоставляется с фрагментом таксономии терминов, отнесенном к соответствующей рубрике ГРНТИ. При этом происходит уточнение ранее выполненной предметизации и формирование индекса публикации.

4 Фрагменты таксономий: по экологии растений (слева); по водным объектам

Фрагменты таксономий: по экологии растений (слева); по водным объектам

(справа)

термины в таксономии связаны типами отношений классификации (род-вид), агрегации (часть-целое) и синонимии. Два первых типа формируют иерархическую структуру таксономии. Синонимия терминов образует отдельную таблицу, записи которой - синонимические гнезда по отношению к доминантному термину.

5 34

34

29.35. Растительность. Фитоценология. фитогеография ? фитоценология ? ((растительность ? сообщество ? фитоценоз ? экосистема ) ? (лес ? луг ? болото ? вырубки ? окрестность ? тайга ? водосбор ? остров ? приморский ? пригород ? динамика ? развитие))?

37.27.27. Физические свойства вод суши. Гидрохимия. гидрохимия ? (<список классов объектов вод суши> ? донные отложения) ? ! ( море ? морской) ? (химия ? физика ? оптика ? плотность ? прозрачность ? цвет ? мутность ? электропроводность ? <газ> ? ион ? <катион> ? <анион> ? <биоген> ? закисление ? загрязнение ? <элемент>))

Примеры логических условий предметизации

6 Индексация

Индексация

для каждой публикации находим первую по порядку рубрику ГРНТИ, к которой она была отнесена на этапе предметизации; 2. выделяем соответствующий фрагмент таксономии для этой рубрики; 3. осуществляем подготовку текста публикации и фрагмента онтологии для индексирования (переводим в текстовый формат, удаляем из текста слова, не несущие смысловую нагрузку, к тексту и терминам выделенного фрагмента таксономии применяется стеммер Портера); 4. последовательно сравниваем слова текста публикации с терминами выделенного фрагмента таксономии (включая синонимы терминов) и определяем совокупность терминов, входящих в текст публикации. ИНДЕКС представляет собой ряд строк (ветвей таксономии), начиная с названия рубрики (корня) и включая все термины таксономии вплоть до найденного термина. В результате индексации массива публикаций формируется БАЗА ИНДЕКСОВ, которая используется для поиска публикаций по запросам.

7 Ранжирование документов в системе поиска, основанной на применении
8 1. массив электронных публикаций, в котором осуществляется поиск,

1. массив электронных публикаций, в котором осуществляется поиск,

предварительно систематизирован по предметному рубрикатору (в нашем случае по ГРНТИ) – уменьшается время поиска

2. индекс каждой публикации автоматически формируется с использованием таксономии терминов и на наш взгляд более детально характеризует ее содержание по сравнению со списком ключевых слов (пользователь, как правило, указывает в запросе 2 – 3 ключевых слова, не всегда владеет терминологией предметной области; в нашем случае система АВТОМАТИЧЕСКИ вставляет в запрос «связанные» в рамках таксономии термины)

3. Поиск может осуществляться как по таксономии терминов, так и по ключевым словам (в последнем случае требуется «показать» пользователю те разделы таксономии, в которых встречаются указанные термины запроса).

Преимущества подхода

9 4. наиболее эффективной схемой взаимодействия пользователя с

4. наиболее эффективной схемой взаимодействия пользователя с

информационной системой – указание своих информационных потребностей (с помощью таксономии терминов) и автоматическое пополнение релевантными публикациями своего «личного кабинета»; 5. в системе предусмотрена (с использованием терминов таксономии) возможность автоматического уточнения смысла многозначных терминов запроса (например, полисемия терминов устраняется в процессе построения запроса за счет «отсечения» других предметных областей); 6. фактически, пользователь сам управляет ПОЛНОТОЙ и ТОЧНОСТЬЮ результатов поиска информации.

10 Ранжирование

Ранжирование

Оценка меры схожести запроса и документов из коллекции с целью построения отсортированного списка результатов поиска, которая зависит только от текста запроса и документов.

N wij = tfij * log – DF N – общее количество документов в коллекции; DF – количество документов содержащих термин i ; tfij – количество появлений термина i в документе j .

Okapi BM25F – учитывает зоны документа

Существует ряд подходов к ранжированию публикаций, например, - TF*IDF

11 Первоначально, схема ранжирования документов основывалась на

Первоначально, схема ранжирования документов основывалась на

традиционном (статистическом) подходе. Первый ранг назначался документам, в которых полный набор терминов запроса входит в его название и аннотацию. Далее определялась частота вхождения терминов запроса в тексте документов, и вычислялось отношение этого числа к числу страниц текста. Если это отношение было не меньше половины, то документу присваивался второй ранг, а если это отношение получалось меньше 0.5 – третий ранг. После чего выполнялось упорядочивание документов, полученных системой при формировании ответа на запрос, в соответствии с назначенными рангами.

12 РАНЖИРОВАНИЕ ПУБЛИКАЦИЙ (основные предположения, положенные в основу

РАНЖИРОВАНИЕ ПУБЛИКАЦИЙ (основные предположения, положенные в основу

алгоритма)

Термины, расположенные на «нижних» уровнях древовидной структуры (представляющей таксономию), в большей степени определяют для него «ценность» публикации, чем термины, расположенные на «верхних» уровнях этого дерева. «Ценность» публикации для пользователя во многом определяется и тем, в какой зоне текста публикации наиболее часто появляется термины запроса (например, в научных статьях можно выделить следующие зоны: название, ключевые слова, аннотация, основной текст и т.п.).

13 Вычисление веса публикации

Вычисление веса публикации

T = (Tn,Тn-1,…,T1) – расширенный вектор терминов (таких векторов может быть несколько, все они упорядочиваются по длине, чем «длиннее» вектор, тем «ценнее» должны быть найденные системой на основе данных терминов публикации); (vn, vn-1, … , v1) – веса компонент вектора (vn > vn-1 > … > v1 , значения весов можно вычислить, например, по следующему правилу: vi = log210*i, i = 1,2, …, n); (?1, ?2, …, ?m) – веса, приписанные определенным зонам публикации, куда могут входить термины запроса (например, если мы учитываем вхождение термина в название публикации, список ключевых слов, аннотацию, основной текст публикации, то в этом случае m = 4). Для научных публикаций логично предположить, что ?1 > ?2, > ?3 > ?4 (т.е. термины запроса, входящие в название публикации, являются более значимыми при ранжировании); {xij} – число вхождений данного термина в соответствующее поле публикации, j = 1, … , m; i = 1, … , n; w – вес публикации, вычисленный с помощью функции ранжирования.

n 4 w = ? vi *? ?j * xji (1) i=1 j=1

14 n 3 w =

n 3 w =

vi * (? ?j * xji + ?4 * ?4i) (2) i=1 j=1

Обозначим через ?4i (вес термина i в 4 зоне – в тексте публикации) и определим его следующим образом: ?4i = 1 + log10 x4i, если x4i > 0; и 0 – в противном случае.

?1 = 0.4 ?2 = 0.3 ?3 = 0.2 ?4 = 0.1

ВЫЧИСЛЕНИЕ ВЕСА ПУБЛИКАЦИИ (с учетом зоны публикации, куда входят термины запроса)

15 Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием

Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием

найденных публикаций

16 Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием

Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием

найденных публикаций

17 Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием

Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием

найденных публикаций

18 Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием

Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием

найденных публикаций

19 Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием

Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием

найденных публикаций

20 Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием

Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием

найденных публикаций

21 Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием

Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием

найденных публикаций

22 Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием

Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием

найденных публикаций

23 Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием

Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием

найденных публикаций

24 Результаты ранжирования по запросу «68

Результаты ранжирования по запросу «68

47.29. Лесопользование. Заготовка древесины»

Название публикации (весовой коэффициент по поиску по таксономии) Запрос: 68.47.29. Лесопользование. Заготовка древесины.

Название публикации (весовой коэффициент по поиску по таксономии) Запрос: 68.47.29. Лесопользование. Заготовка древесины.

Поиск по таксономии

1

3

2

1

3

4

4

7

5

2

6

5

7

11

8

9

9

8

10

13

11

14

12

10

13

6

14

12

№ П/п

№ П/п

Ранг публикации в списке

Ранг публикации в списке

Яндекс

1

Лесные ресурсы таежной зоны России: проблемы лесопользования и лесовосстановления: Материалы Всеросс. науч. конф. с международ. участием (Петрозаводск 30.09-03.10.2009 г.) (70)

2

Основы лесного хозяйства для лесопользователей (56)

3

Рекомендации по устойчивому лесопользованию на осушаемых землях (44)

4

Динамика лесопользования и состояние лесного фонда Карелии (42)

5

Механизация восстановления леса в системе интенсивного лесопользования (37)

6

Структура лесного фонда, динамика и перспективы лесопользования в Карелии (36)

7

Проблемы интенсификации лесопользования в Республике Карелия (36)

8

Социальные институты лесного хозяйства, их влияние на эффективность лесопользования (вопросы теории и практики) (33)

9

Пространственно-временная динамика лесного фонда и лесопользования европейской части РФ (32)

10

Научные разработки Института леса КарНЦ РАН и их реализация в области лесопользования и лесовосстановления (30)

11

Системный подход к ключевым проблемам развития экономики лесопромышленного комплекса Республики Карелия (26)

12

Выбор технологии лесозаготовок на основе экологической совместимости с лесной средой (23)

13

Освоение заболоченных лесов как фактор интенсификации лесопользования в Республике Коми (17)

14

Противоречия интеграционных процессов в лесопромышленном комплексе (13)

25 Заключение

Заключение

1. Как зависит ПОЛНОТА поиска от «полноты» онтологии? 2. Насколько адекватно отражаются информационные потребности пользователя с помощью онтологии? 3. При РАНЖИРОВАНИИ публикаций целесообразно предусмотреть пересчет РАНГА публикации в зависимости от ИНДЕКСА ЦИТИРОВАНИЯ, ИМПАКТ-ФАКТОРА издания и ВРЕМЕНИ «устаревания» публикации.

26 Спасибо за внимание

Спасибо за внимание

Авторы благодарны за помощь в разработке и реализации программного обеспечения ИАС «Природные ресурсы Карелии» Н.Б. Луговой, В.Г. Старковой, М.В. Гушкалову Демонстрационный прототип системы представлен в сети Интернет – http://ias.krc.karelia.ru Работа частично поддержана грантами РФФИ № 09-07-12074 офи_м, № 12-07-00070а, а также - the projekt CoReLib saported by the Swedish Institude by grant № 00760-2010

27 Ранжирование документов в системе поиска, основанной на применении
28 Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием

Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием

найденных публикаций

29 АРХИТЕКТУРА ИАС «Природные ресурсы Карелии»

АРХИТЕКТУРА ИАС «Природные ресурсы Карелии»

30 Miriam fernandez, ivan cantador, vanesa lуpez, david vallet, pablo

Miriam fernandez, ivan cantador, vanesa lуpez, david vallet, pablo

castells, enrico motta semantically enhanced information retrieval: an ontology-based approach //web semantics: science, services and agents on the world wide web 9 (2011) 434–452

Добров Б.В., Лукашевич Н.В. Онтология по естественным наукам и технологиям ОЕНТ: структура, состав и современное состояние /Российский научный электронный журнал «Электронные библиотеки», 2008–Том11–Выпуск 1.

Raquel Trillo, Laura Po, Sergio Ilarri, Sonia Bergamaschi, Eduardo Mena Using semantic techniques to access web data //Information Systems. 36 (2011). P. 117–133.

Mauro dragoni, cйlia da costa pereira, andrea G.B. Tettamanzi A conceptual representation of documents and queries for information retrieval system by using light ontologies /expert systems with applications 39 (2012) 10376–10388.

«Ранжирование документов в системе поиска, основанной на применении онтологии»
http://900igr.net/prezentacija/informatika/ranzhirovanie-dokumentov-v-sisteme-poiska-osnovannoj-na-primenenii-ontologii-192410.html
cсылка на страницу
Урок

Информатика

130 тем
Слайды
900igr.net > Презентации по информатике > Поисковые системы > Ранжирование документов в системе поиска, основанной на применении онтологии