Без темы
<<  Как встречают Новый год в разных странах мира Как называется этот мир  >>
Как мы побеждаем вьетнамскую лингвистику
Как мы побеждаем вьетнамскую лингвистику
WADA
WADA
Вьетнамский язык: графика
Вьетнамский язык: графика
Кодировка и нормализация
Кодировка и нормализация
Восстановление диакритики
Восстановление диакритики
Ошибки восстановления диакритики
Ошибки восстановления диакритики
Вьетнамский язык: слоговой
Вьетнамский язык: слоговой
Немного примеров
Немного примеров
Еще примеры
Еще примеры
И еще
И еще
Конфликты
Конфликты
Разрешение конфликтов
Разрешение конфликтов
Синонимия
Синонимия
Заимствования: большая вариативность
Заимствования: большая вариативность
Словари
Словари
Источники словарей
Источники словарей
Что еще
Что еще
Спасибо
Спасибо

Презентация на тему: «Как мы побеждаем вьетнамскую лингвистику». Автор: Михаил Волович. Файл: «Как мы побеждаем вьетнамскую лингвистику.ppt». Размер zip-архива: 1232 КБ.

Как мы побеждаем вьетнамскую лингвистику

содержание презентации «Как мы побеждаем вьетнамскую лингвистику.ppt»
СлайдТекст
1 Как мы побеждаем вьетнамскую лингвистику

Как мы побеждаем вьетнамскую лингвистику

Wada.Vn: ПЕРВЫЕ ШАГИ НАЦИОНАЛЬНОГО ПОИСКОВИКА

16.02.12

2 WADA

WADA

vnb

Бета-версия запущена в октябре 2011. Боевая версия — в год золотого дракона :) Весь «Вьетнет»: зона .vn, + вьетнамоязычные сайты в других зонах, + про Вьетнам 200 тысяч сайтов, 350 млн документов, 36 Тб Один конкурент (но очень большой) + Itim.vn (Нигма) – пока не опубликован + кладбище вьетнамских поисковиков Весной Google искал очень плохо. Мы лучше, чем он тогда, но пока хуже, чем он сейчас

2

16.02.12

3 Вьетнамский язык: графика

Вьетнамский язык: графика

Латинский алфавит: создан в XVII веке о. Александром де Род (Alexandre de Rhodes, вьет. A-L?ch-S?n ??c-L?); до того были иероглифы Жесткая структура слога: truy?n (tr-u-y?-n) используется системой ввода Telex 6 тонов: a ? ? ? ? ? «Двуслойная» диакритика: ? ? ?

3

16.02.12

4 Кодировка и нормализация

Кодировка и нормализация

К счастью, почти только UTF-8 Может собираться по частям: ? = ? + ’ = a + ^ + ’ Место тона – жесткие правила, + кое-где «старый» и «новый» стиль h?y / hu? Орфографическая вариативность: b?c s? / b?c s?

4

16.02.12

5 Восстановление диакритики

Восстановление диакритики

Бывают запросы без тонов (текстов без тонов мало) Веб-мастера даже добавляют ключевые слова без тонов (иногда прямо в <title>): Recruitment - tuyen dung - tuy?n d?ng- viec lam, vi?c l?m lao dong, lao ??ng vi?t nam Запросы без тонов предварительно восстанавливаются; искать «пониженные» варианты мало смысла Восстановление тонов – статистика с небольшой примесью словарей Проблемы в основном на стыке с английским: ?n ??

5

16.02.12

6 Ошибки восстановления диакритики

Ошибки восстановления диакритики

6

16.02.12

7 Вьетнамский язык: слоговой

Вьетнамский язык: слоговой

~ 8000 слогов, из них ~ 3000 только в составных словах Огромная омонимия Большинство слов составные Вместо проблемы отождествления слов – проблема деления на слова «Развалившиеся» слова – провал поиска Пока выделяем слова в запросах

7

16.02.12

8 Немного примеров

Немного примеров

8

Словарик nh? – дом m?y – механизм, машина xe – повозка, транспорт n??c – вода, страна ??t – земля tr? – чай l? – лист(ья) thu?c – яд, лекарство mua – покупать b?n – продавать bay – летать h?t – вдыхать ?m – обнимать

Что это значит? l? tr? – ? tr? l? – ? n??c tr? – ? nh? tr? – ? m?y bay – ? nh? m?y – ? nh? thu?c – ? nh? n??c – ? ??t n??c – ? mua b?n – ? b?n n??c – ? xe m?y – ? xe ?m – ? h?t thu?c – ?

16.02.12

9 Еще примеры

Еще примеры

..

9

Словарик m?y – механизм, машина xe – повозка, транспорт thu?c – яд, лекарство ?m – обнимать h?t – вдыхать Что это значит? xe m?y – мотоцикл, устар. велосипед xe ?m – см. фото h?t thu?c – ?

16.02.12

10 И еще

И еще

..

10

Словарик thu?c – яд, лекарство h?t – вдыхать Что это значит? h?t thu?c – см. фото

16.02.12

11 Конфликты

Конфликты

n??c tr? – чай b?n n??c – предатель (Родины) b?n n??c tr? – ? Слова могут вкладываться и пересекаться Если в словаре есть АВ и ВС, а в тексте АВС, то, скорее всего, в этом тексте нет хотя бы одного из слов АВ и ВС

11

16.02.12

12 Разрешение конфликтов

Разрешение конфликтов

Вложения c?ng t?c / ?? b? t?ng Максимальное покрытие 1000 / n?m / th?ng long / h? n?i «Связанные» слоги long «Слабые» слова b?n n??c «Префиксы» и «суффиксы» 121 / n?m / (ng?y (sinh nh?t)) / h? ch? minh

12

16.02.12

13 Синонимия

Синонимия

Сокращения th?nh ph? H? Ch? Minh = TP H? Ch? Minh = TP.HCM с?ng ty c? ph?n = с?ng ty cp = ctcp = cty cp = ct cp = cty c? ph?n Орфографические варианты «Переводы» S?i G?n = Saigon TP.HCM = HCMC Заимствования

13

16.02.12

14 Заимствования: большая вариативность

Заимствования: большая вариативность

M?t-xc?-va Mat-xc?-va M?txc?va Matxc?va Matxcova Mat-x?-c?-va M?t-x?-c?-va Mat-x-c?-va M?t-x-c?-va Matxcva M?t-sc?-va M?tc?va

Moskva Moscova M?c T? Khoa Moscow Moscou

14

16.02.12

15 Словари

Словари

Составные слова Коллокации («выражения») m?y t?nh ?i?n t? - электронно-вычислительная машина «Префиксные» и «постфиксные выражения» chim g? l?i – фазан, c?y tre – бамбук, con c? – рыба (con c? s?u – крокодил) Стоп-слова «Префиксы» и «постфиксы» (в основном грамматика): c?i, c?c (? t?) Связанные слоги Словарь разрешения конфликтов b?i ??u xe bu?t = [b?i ??u {xe}] [xe bu?t] Словари синонимов (заимствования, сокращения, ...) Словари преобразования запросов ...и др.

15

16.02.12

16 Источники словарей

Источники словарей

Толковый словарь VietLex (44000 слов) Вьетнамско-английские словари (70 тыс. слов, 126 тыс. слов) Специальные словари, словарь новых слов География, имена (из разных источников) Википедия Статистика устойчивости словосочетаний Разбор конфликтов, ...

16

16.02.12

17 Что еще

Что еще

Исправление опечаток «Префиксы» и «суффиксы» запросов: c?ch s? d?ng ... – способы использования ... ngh?a l? g? – что означает Деление доменных имен на слова (с повышением тонов): http://thutuchanhchinh.vn = Th? t?c h?nh ch?nh.vn Отбор навигационных запросов Варианты навигационных запросов ...и др.

17

16.02.12

18 Спасибо

Спасибо

Михаил Волович Руководитель лингвистического отдела mv@ashmanov.com Вьетнамский поиск (beta) www.wada.vn Информация о компании, услугах и технологиях www.ashmanov.com Анализаторы качества поиска www.analyzethis.ru

16.02.12

«Как мы побеждаем вьетнамскую лингвистику»
http://900igr.net/prezentacija/literatura/kak-my-pobezhdaem-vetnamskuju-lingvistiku-104883.html
cсылка на страницу

Без темы

1073 презентации
Урок

Литература

183 темы
Слайды
900igr.net > Презентации по литературе > Без темы > Как мы побеждаем вьетнамскую лингвистику