Образование России
<<  Ресурсы Москвы для школьников и родителей Шоркистринская средняя общеобразовательная школа Урмарского района Чувашской Республики  >>
Оценка эффективности технологий систематизации и поиска электронной
Оценка эффективности технологий систематизации и поиска электронной
Создание информационно-аналитической системы для поддержки научной,
Создание информационно-аналитической системы для поддержки научной,
Архитектура ИАС «Природные ресурсы Карелии»
Архитектура ИАС «Природные ресурсы Карелии»
Технологии систематизации и поиска электронных публикаций
Технологии систематизации и поиска электронных публикаций
Процедура систематизации включает предметизацию и индексацию
Процедура систематизации включает предметизацию и индексацию
Фрагменты таксономий терминов: по экологии растений; по водным
Фрагменты таксономий терминов: по экологии растений; по водным
Нами выделены следующие типы научных публикаций: описание результатов
Нами выделены следующие типы научных публикаций: описание результатов
Пример логического условия предметизации, представленный в виде
Пример логического условия предметизации, представленный в виде
RCDL’2011, Воронеж, 19-22 октября 2011 г
RCDL’2011, Воронеж, 19-22 октября 2011 г
на этапе индексации - для каждой публикации и рубрики ГРНТИ
на этапе индексации - для каждой публикации и рубрики ГРНТИ
RCDL’2011, Воронеж, 19-22 октября 2011 г
RCDL’2011, Воронеж, 19-22 октября 2011 г
RCDL’2011, Воронеж, 19-22 октября 2011 г
RCDL’2011, Воронеж, 19-22 октября 2011 г
RCDL’2011, Воронеж, 19-22 октября 2011 г
RCDL’2011, Воронеж, 19-22 октября 2011 г
RCDL’2011, Воронеж, 19-22 октября 2011 г
RCDL’2011, Воронеж, 19-22 октября 2011 г
Выбор терминов из таксономии и формирование запроса пользователем
Выбор терминов из таксономии и формирование запроса пользователем
Выбор терминов из таксономии и автоматическое формирование запроса
Выбор терминов из таксономии и автоматическое формирование запроса
RCDL’2011, Воронеж, 19-22 октября 2011 г
RCDL’2011, Воронеж, 19-22 октября 2011 г
В настоящее время ранжирование документов в отклике на запрос будет
В настоящее время ранжирование документов в отклике на запрос будет
ПОЛНОТА означает, что найдены все релевантные запросу публикации,
ПОЛНОТА означает, что найдены все релевантные запросу публикации,
Для измерения эффективности методов информационного поиска тестовую
Для измерения эффективности методов информационного поиска тестовую
Результаты проведенных экспериментов сведены в следующей таблице
Результаты проведенных экспериментов сведены в следующей таблице
Перспективность предлагаемого подхода обусловлена следующими причинами
Перспективность предлагаемого подхода обусловлена следующими причинами
Пример
Пример
ПРИМЕР (продолжение)
ПРИМЕР (продолжение)
ПРИМЕР (продолжение)
ПРИМЕР (продолжение)
Наиболее близкими по теме наших исследований являются подходы,
Наиболее близкими по теме наших исследований являются подходы,
Некоторые перспективные направления дальнейших исследований и
Некоторые перспективные направления дальнейших исследований и
{ИНДЕКС публикации} :: [содержательный индекс] & [ГЕОГРАФИЧЕСКИЙ
{ИНДЕКС публикации} :: [содержательный индекс] & [ГЕОГРАФИЧЕСКИЙ
ГИС-клиент: выделяет на карте интересующую его область (например, в
ГИС-клиент: выделяет на карте интересующую его область (например, в
Авторы благодарны за помощь в разработке и реализации программного
Авторы благодарны за помощь в разработке и реализации программного

Презентация на тему: «Оценка эффективности технологий систематизации и поиска электронной научной информации в ИАС «Природные ресурсы Карелии»». Автор: math. Файл: «Оценка эффективности технологий систематизации и поиска электронной научной информации в ИАС «Природные ресурсы Карелии».ppt». Размер zip-архива: 2415 КБ.

Оценка эффективности технологий систематизации и поиска электронной научной информации в ИАС «Природные ресурсы Карелии»

содержание презентации «Оценка эффективности технологий систематизации и поиска электронной научной информации в ИАС «Природные ресурсы Карелии».ppt»
СлайдТекст
1 Оценка эффективности технологий систематизации и поиска электронной

Оценка эффективности технологий систематизации и поиска электронной

научной информации в ИАС «Природные ресурсы Карелии»

© Вдовицын В.Т., Лебедев В.А. Институт прикладных математических исследований Карельского научного центра РАН г. Петрозаводск

RCDL’2011, Воронеж, 19-22 октября 2011 г.

2 Создание информационно-аналитической системы для поддержки научной,

Создание информационно-аналитической системы для поддержки научной,

аналитической и управленческой деятельности по природным ресурсам и окружающей среде Карелии необходимо для координации и проведения междисциплинарных научных исследований, выполняемых институтами КарНЦ РАН в рамках задач инвентаризации природных ресурсов, при оценке состояния окружающей среды и экологических последствий планируемых и проводимых на территории Карелии и сопредельных регионов мероприятий в сфере промышленности, лесного, сельского и рыбного хозяйства. Для достижения поставленной цели на наш взгляд следует в первую очередь обеспечить автоматизированный сбор, систематизацию и эффективный доступ ученых и специалистов к необходимой научной информации. Система разрабатывается с применением современных ГИС и Веб-технологий, а также методов онтологического моделирования и включает разнообразную научную информацию по природным ресурсам Карелии, полученную в результате проведения многолетних исследований в КарНЦ РАН.

RCDL’2011, Воронеж, 19-22 октября 2011 г.

3 Архитектура ИАС «Природные ресурсы Карелии»

Архитектура ИАС «Природные ресурсы Карелии»

RCDL’2011, Воронеж, 19-22 октября 2011 г.

4 Технологии систематизации и поиска электронных публикаций

Технологии систематизации и поиска электронных публикаций

Проблема рационального использования огромных хранилищ электронной информации в интересах науки, образования, разработки и развития высокотехнологичных производств остается актуальной.

Традиционные методы информационного поиска, основанные на использовании ключевых слов, обладают рядом недостатков, связанных, например, с многозначностью (polysemous) используемых в запросе терминов, а также недостаточным знанием пользователями терминологии самой предметной области.

Одним из перспективных направлений исследований и разработок в плане повышения эффективности информационного поиска является применение методов онтологического моделирования (ontology-based information retrieval). Такие системы информационного поиска учитывают смысловое содержание терминов запроса, используют онтологии, как для индексации информационных ресурсов, так и для организации семантического поиска.

RCDL’2011, Воронеж, 19-22 октября 2011 г.

5 Процедура систематизации включает предметизацию и индексацию

Процедура систематизации включает предметизацию и индексацию

электронных публикаций. Предметизация публикации осуществляется на основе анализа ее названия и ключевых слов. В результате выполняется предварительное отнесение публикации к соответствующим рубрикам ГРНТИ. На этапе индексации текст публикации, с целью выявления имеющейся в их составе терминологии, сопоставляется с фрагментом таксономии терминов, отнесенном к соответствующей рубрике ГРНТИ. При этом происходит уточнение предметизации и формирование индекса публикации.

RCDL’2011, Воронеж, 19-22 октября 2011 г.

6 Фрагменты таксономий терминов: по экологии растений; по водным

Фрагменты таксономий терминов: по экологии растений; по водным

объектам

термины в таксономии связаны типами отношений классификации (род-вид), агрегации (часть-целое) и синонимии. Два первых типа формируют иерархическую структуру таксономии. Синонимия терминов образует отдельную таблицу, записи которой - синонимические гнезда по отношению к доминантному термину.

RCDL’2011, Воронеж, 19-22 октября 2011 г.

7 Нами выделены следующие типы научных публикаций: описание результатов

Нами выделены следующие типы научных публикаций: описание результатов

экспериментов, наблюдений, мониторинга и технологий; обобщенное описание объектов исследований, разработок; состояние, проблемы и перспективы научных дисциплин, междисциплинарных исследований (общие вопросы по дисциплинам, наукам). Для каждого типа публикаций разработана обобщенная схема логического условия: < объект эксперимента> AND (<объект его целое> OR <объект его часть> OR <действующий фактор> OR <действие> OR <результат>) AND <границы, ограничения>; <объект описания> AND (<тема> OR <пусто>); <дисциплина> AND (<характеристика> OR <пусто>)

RCDL’2011, Воронеж, 19-22 октября 2011 г.

8 Пример логического условия предметизации, представленный в виде

Пример логического условия предметизации, представленный в виде

правила-продукции ЭС IF (фитогеография OR фитоценология OR геоботаника OR растительность OR сообщество OR фитоценоз OR ценофлора) THEN рубрика ГРНТИ – 34.29.35. Растительность. Фитоценологии;

RCDL’2011, Воронеж, 19-22 октября 2011 г.

9 RCDL’2011, Воронеж, 19-22 октября 2011 г

RCDL’2011, Воронеж, 19-22 октября 2011 г

10 на этапе индексации - для каждой публикации и рубрики ГРНТИ

на этапе индексации - для каждой публикации и рубрики ГРНТИ

осуществляем следующие действия:

для публикации находим первую по порядку рубрику ГРНТИ, к которой она отнесена на этапе предметизации; выделяем соответствующий фрагмент онтологии для этой рубрики; осуществляем подготовку текста публикации и фрагмента онтологии для индексирования (переводим в текстовый формат, удаляем из текста слова, не несущие смысловую нагрузку); 3. последовательно сравниваем слова текста публикации с терминами выделенного фрагмента онтологии (включая синонимы терминов) и формируем совокупность терминов онтологии, входящих в текст публикации. В результате индексации массива публикаций формируется база индексов, которая используется для поиска данных по запросам. Индекс представляет собой ряд строк (ветвей таксономии), начиная с названия рубрики (корня) и включая все термины таксономии вплоть до найденного термина

RCDL’2011, Воронеж, 19-22 октября 2011 г.

11 RCDL’2011, Воронеж, 19-22 октября 2011 г

RCDL’2011, Воронеж, 19-22 октября 2011 г

12 RCDL’2011, Воронеж, 19-22 октября 2011 г

RCDL’2011, Воронеж, 19-22 октября 2011 г

13 RCDL’2011, Воронеж, 19-22 октября 2011 г

RCDL’2011, Воронеж, 19-22 октября 2011 г

14 RCDL’2011, Воронеж, 19-22 октября 2011 г

RCDL’2011, Воронеж, 19-22 октября 2011 г

15 Выбор терминов из таксономии и формирование запроса пользователем

Выбор терминов из таксономии и формирование запроса пользователем

RCDL’2011, Воронеж, 19-22 октября 2011 г.

16 Выбор терминов из таксономии и автоматическое формирование запроса

Выбор терминов из таксономии и автоматическое формирование запроса

RCDL’2011, Воронеж, 19-22 октября 2011 г.

17 RCDL’2011, Воронеж, 19-22 октября 2011 г

RCDL’2011, Воронеж, 19-22 октября 2011 г

18 В настоящее время ранжирование документов в отклике на запрос будет

В настоящее время ранжирование документов в отклике на запрос будет

выполняется по следующим правилам. Первый ранг назначается документам, в которых полный набор терминов запроса встречается в его заголовке и аннотации. Далее определяется встречаемость набора терминов запроса в тексте документов и вычисляется отношение этого числа к числу страниц текста. Если это отношение не меньше половины, то документу присваивается второй ранг, а если это отношение меньше 0.5 – третий ранг. После чего выполняется упорядочивание документов отклика в соответствии с назначенными рангами.

RCDL’2011, Воронеж, 19-22 октября 2011 г.

19 ПОЛНОТА означает, что найдены все релевантные запросу публикации,

ПОЛНОТА означает, что найдены все релевантные запросу публикации,

имеющиеся в массиве (Однако, сплошной просмотр всех публикаций в массиве приводит к существенному увеличению времени поиска; для уменьшения этого времени целесообразно систематизировать массив публикаций так, чтобы поиск выполнялся только в определенной части массива)

ТОЧНОСТЬ означает, что в отклике на запрос присутствуют именно те публикации, которые соответствуют указанным в запросе требованиям пользователя, и в нем отсутствуют публикации из других предметных областей (одним из главных средств борьбы за точность поиска также является систематизация публикаций).

ПЕРТИНЕНТНОСТЬ означает, что отобранные релевантные запросу публикации соответствуют информационным потребностям пользователя, его специальности, области интересов и, в идеальном случае, не содержат публикации из других предметных областей.

Эффективность поиска характеризуют, в частности, следующие показатели:

RCDL’2011, Воронеж, 19-22 октября 2011 г.

20 Для измерения эффективности методов информационного поиска тестовую

Для измерения эффективности методов информационного поиска тестовую

коллекцию документов (1000 научных публикаций в области биологических наук); тестовое множество информационных потребностей пользователя, выражаемых в виде запросов (выбрали 7 запросов); набор бинарных оценок для каждого найденного документа, характеризующих релевантность или нерелевантность данных документов к запросам (привлекли экспертов).

Для исследования качества предлагаемых методов систематизации и поиска информации в ИАС использовались традиционные метрики: полнота – r = a/(a+c); точность – p = a/(a+b) (где: a – найденные релевантные документы, b – найденные нерелевантные документы, c – ненайденные релевантные документы); пертинентность – P = a1/(a+b), где: a1 – количество пертинентных документов, (a+b) – общее количество документов в отклике на запрос.

RCDL’2011, Воронеж, 19-22 октября 2011 г.

21 Результаты проведенных экспериментов сведены в следующей таблице

Результаты проведенных экспериментов сведены в следующей таблице

Запрос

Запрос

Недревесные лесные ресурсы

Альгофлора

Лекарственные растения

Паразиты рыб

Действие физических факторов на растения

Лесоводство. Методы ухода

Наземные позвоночные. Болезни, паразиты

Поиск по Яндексу

Поиск по Яндексу

Поиск по Яндексу

Поиск по онтологии

Поиск по онтологии

Поиск по онтологии

r

p

P

r

p

P

0,40

0,47

0,30

0,74

0,94

0,78

0,41

0,68

0,61

0,89

0,77

0,77

0,60

1,00

1,00

1,00

1,00

1,00

0,90

0,91

0,91

0,91

0,98

0,98

0,68

0,42

0,35

0,68

0,93

0,86

0,71

0,63

0,53

0,82

1,00

1,00

0,46

0,41

0,4

0,88

0,95

0,95

1

2

3

4

5

6

7

RCDL’2011, Воронеж, 19-22 октября 2011 г.

22 Перспективность предлагаемого подхода обусловлена следующими причинами

Перспективность предлагаемого подхода обусловлена следующими причинами

1. массив электронных публикаций, в котором осуществляется поиск, предварительно систематизирован по предметному рубрикатору (в нашем случае по ГРНТИ) – уменьшается время поиска

3. В системе предусмотрена возможность (с использованием таксономии терминов) автоматического уточнения смысла многозначных терминов запроса (например, полисемия терминов устраняется в процессе построения запроса за счет «отсечения» других предметных областей).

2. индекс каждой публикации автоматически формируется с использованием таксономии терминов и на наш взгляд более детально характеризует ее содержание по сравнению со списком ключевых слов (пользователь, как правило, указывает в запросе 2-3 ключевых слова, не всегда владеет терминологией предметной области; в нашем случае система АВТОМАТИЧЕСКИ вставляет в запрос «связанные» в рамках онтологии дополнительные ключевые слова)

RCDL’2011, Воронеж, 19-22 октября 2011 г.

23 Пример

Пример

По запросу «лекарственные AND растения» сформирована выборка релевантных статей

RCDL’2011, Воронеж, 19-22 октября 2011 г.

24 ПРИМЕР (продолжение)

ПРИМЕР (продолжение)

Тексты некоторых статей не содержат термина «лекарственные», например, статья «Василек луговой». Однако, там содержатся термины «желчегонное», «противовоспалительное», «ревматизм»

RCDL’2011, Воронеж, 19-22 октября 2011 г.

25 ПРИМЕР (продолжение)

ПРИМЕР (продолжение)

В результате индексирования в индекс статьи включены термины предыдущих уровней таксономии, в частности, термин «лекарственное»

RCDL’2011, Воронеж, 19-22 октября 2011 г.

26 Наиболее близкими по теме наших исследований являются подходы,

Наиболее близкими по теме наших исследований являются подходы,

представленные в работах:

Hans-Michael Muller, Eimear E. Kenny, Paul W. Sternber Textpresso: An ontology-based information retrieval and extraction system for biological literature / PLoS Biology 2 (11) (2004).

Ontology-based Information Retrieval. Henrik Bulkov Styltsvig, A diss. … Roskilde University … Degree of Doctor of Philosophy. 2006.

Добров Б.В., Лукашевич Н.В. и др. Разработка лингвистической онтологии по естественным наукам для решения задач информационного поиска //Труды Седьмой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» – RCDL’2005, Ярославль, Россия, 2005 С. 70–79.

Д.Е. Пальчунов Решение задачи поиска информации на основе онтологий //Бизнес информатика № 1–2008 г. С. 3–13. и др.

RCDL’2011, Воронеж, 19-22 октября 2011 г.

27 Некоторые перспективные направления дальнейших исследований и

Некоторые перспективные направления дальнейших исследований и

разработок

Оценить зависимость показателей качества поиска от «полноты» онтологии и логических условий предметизации. Для пополнения хранилищ информации в ИАС предполагается разработать сервис автоматического поиска тематической научной информации в сети Интернет, основанный на применении технологии web crawling, с систематизацией найденной научной информации и пополнением информационных хранилищ системы. Исследовать возможности технологии систематизации и поиска для решения проблемы интеграции информационной компоненты ИАС с ГИС-компонентой системы (в текстах научных публикаций часто встречаются географические названия …).

RCDL’2011, Воронеж, 19-22 октября 2011 г.

28 {ИНДЕКС публикации} :: [содержательный индекс] & [ГЕОГРАФИЧЕСКИЙ

{ИНДЕКС публикации} :: [содержательный индекс] & [ГЕОГРАФИЧЕСКИЙ

ИНДЕКС] ______________________________

! ПРИМЕР онтологии географических названий ! ! Республика Карелия ! Петрозаводск ! Районы ! … ! Кемский ! Города ! Кемь ! Поселки ! Юма ! Шомба ! … ! Реки ! Кемь ! Шомба ! … ! Озера ! Болота

ГЕОГРАФИЧЕСКИЙ ИНДЕКС формируется по разработанной технологии систематизации и поиска электронных публикаций с использованием ОНТОЛОГИИ ГЕОГРАФИЧЕСКИХ НАЗВАНИЙ РЕГИОНА

29 ГИС-клиент: выделяет на карте интересующую его область (например, в

ГИС-клиент: выделяет на карте интересующую его область (например, в

виде прямоугольника); СИСТЕМА: осуществляет обратное геокодирование (запрос всех имен объектов по заданным координатам с использованием ТЕЗАУРУСА ГЕОГРАФИЧЕСКИХ НАИМЕНОВАНИЙ); поиск ПО ГЕОГРАФИЧЕСКИМ ИНДЕКСАМ тех публикаций, в которых присутствуют соответствующие имена объектов; обращение к поисковой машине ИАС, формирование запроса с автоматическим ДОБАВЛЕНИЕМ дизъюнкции соответствующих имен объектов. ЭБ-клиент: с помощью поисковой машины ИАС находит по запросу ряд публикаций; Для каждой публикации СИСТЕМА может (по ГЕОГРАФИЧЕСКОМУ ИНДЕКСУ и с использованием ТЕЗАУРУСА ГЕОГРАФИЧЕСКИХ НАИМЕНОВАНИЙ) автоматически указать соответствующий участок КАРТЫ.

30 Авторы благодарны за помощь в разработке и реализации программного

Авторы благодарны за помощь в разработке и реализации программного

обеспечения ИАС «Природные ресурсы Карелии» Н.Б. Луговой, В.Г. Старковой, М.В. Гушкалову Демонстрационный прототип системы представлен в сети Интернет – http://ias.krc.karelia.ru Работа частично поддержана грантами РФФИ № 08-07-00085а, № 09-07-12074 офи_м, а также - the projekt CoReLib saported by the Swedish Institude by grant № 00760-2010

Спасибо за внимание

RCDL’2011, Воронеж, 19-22 октября 2011 г.

«Оценка эффективности технологий систематизации и поиска электронной научной информации в ИАС «Природные ресурсы Карелии»»
http://900igr.net/prezentacija/pedagogika/otsenka-effektivnosti-tekhnologij-sistematizatsii-i-poiska-elektronnoj-nauchnoj-informatsii-v-ias-prirodnye-resursy-karelii-131144.html
cсылка на страницу

Образование России

9 презентаций об образовании России
Урок

Педагогика

135 тем
Слайды
900igr.net > Презентации по педагогике > Образование России > Оценка эффективности технологий систематизации и поиска электронной научной информации в ИАС «Природные ресурсы Карелии»