Текст Скачать
презентацию
<<  Работа с текстом Проблема текста  >>
Лекция 4. Экстралингвистическая разметка
Лекция 4. Экстралингвистическая разметка
Метаразметка
Метаразметка
Экстралингвистическая разметка
Экстралингвистическая разметка
"Внешняя", "интеллектуальная" разметка
"Внешняя", "интеллектуальная" разметка
"Внешняя", "интеллектуальная" разметка (продолжение)
"Внешняя", "интеллектуальная" разметка (продолжение)
Набор метаданных в «Национальном корпусе русского языка»
Набор метаданных в «Национальном корпусе русского языка»
Художественные тексты (в НКРЯ):
Художественные тексты (в НКРЯ):
Нехудожественные тексты (в НКРЯ):
Нехудожественные тексты (в НКРЯ):
Служебная, или «имплицитная» метаразметка (в НКРЯ)
Служебная, или «имплицитная» метаразметка (в НКРЯ)
Программа метаразметки Systemic Coder
Программа метаразметки Systemic Coder
Деление текста на отдельные сегменты
Деление текста на отдельные сегменты
Классификационная схема
Классификационная схема
Создание и изменение классификационной схемы
Создание и изменение классификационной схемы
Режим разметки
Режим разметки
Интерфейс пользователя для поиска по метаданным:
Интерфейс пользователя для поиска по метаданным:
Интерфейс пользователя для поиска по метаданным:
Интерфейс пользователя для поиска по метаданным:
Слайды из презентации «Разметка текста» к уроку литературы на тему «Текст»

Автор: Maria. Чтобы увеличить слайд, нажмите на его эскиз. Чтобы использовать презентацию на уроке, скачайте файл «Разметка текста.ppt» бесплатно в zip-архиве размером 453 КБ.

Скачать презентацию

Разметка текста

содержание презентации «Разметка текста.ppt»
СлайдТекст
1 Лекция 4. Экстралингвистическая разметка

Лекция 4. Экстралингвистическая разметка

Метаданные.

В.П. Захаров Санкт-Петербургский государственный университет

2 Метаразметка

Метаразметка

? Метаданные – структурированные данные о данных: помогают установить порядок среди хаоса, позволяют осуществить автоматическое обнаружение и обработку данных.

Лекция 4

Корпусная лингвистика

2

3 Экстралингвистическая разметка

Экстралингвистическая разметка

"Внешняя", "интеллектуальная" разметка библиографические характеристики типологические характеристики тематические характеристики социологические характеристики …………………………. "формальная" структурная разметка текст, раздел, глава, часть, абзац, предложение … технико-технологическая разметка кодировка даты обработки исполнители источник электронной версии …………………………

Лекция 4

Корпусная лингвистика

3

4 "Внешняя", "интеллектуальная" разметка

"Внешняя", "интеллектуальная" разметка

Нужна: для выявления взаимосвязи языка и условий его существования; для изучения отдельных подмножеств языка. Выделяют два класса факторов, влияющих на язык текстов: внешние, внеязыковые факторы (E - external); внутренние факторы (I - internal). ( См. Sinclair (1996). Preliminary recommendations on text typology. EAGLES Document EAG-TCWG-TTYP/P. http://www.ilc.pi.cnr.it/EAGLES96/texttyp/texttyp.html)

Лекция 4

Корпусная лингвистика

4

5 "Внешняя", "интеллектуальная" разметка (продолжение)

"Внешняя", "интеллектуальная" разметка (продолжение)

Синклер выделяет: три группы E-факторов: Е1 (origin) - факторы, относящиеся к созданию текста автором; E2 (state) - факторы, относящиеся к внешним признакам текста (включая устную или письменную речь); Е3 (aims) - факторы, относящиеся к причинам создания текста и его влиянию на аудиторию. и две группы I-факторов: I1 (topic) - предметная область текста; I2 (style) - стилистические особенности (стиль, жанр).

Лекция 4

Корпусная лингвистика

5

6 Набор метаданных в «Национальном корпусе русского языка»

Набор метаданных в «Национальном корпусе русского языка»

Первый блок: автор текста: имя, пол, дата рождения (или примерный возраст); название текста; время и место создания текста (может указываться точно или приблизительно); объем текста: для художественных произведений принято, что обычная длина рассказа – менее 5 тыс. слов; обычная длина повести – от 5 до 15 тыс. слов; обычная длина романа – более 15 тыс. слов. Второй блок: параметры метаописания трех основных массивов текстов корпуса: художественных текстов; нехудожественных текстов; драматургии.

Лекция 4

Корпусная лингвистика

6

7 Художественные тексты (в НКРЯ):

Художественные тексты (в НКРЯ):

жанр текста нежанровая проза, автобиографическая проза, детектив, детская литература, историческая проза, криминальная литература, приключения, фантастика, юмор и сатира тип текста автобиографическая проза, анекдот, ассоциа­тивная проза, боевик, детектив, очерк, литературное письмо, повесть, притча, пьеса, рассказ, роман, сказка, триллер, эпопея, эссе и др.; хронотоп текста приблизительное указание на место и время описываемых в тексте событий Реально предлагается следующее: древний Восток; Россия XVII в.; Россия XIX в.; Россия/СССР: советский период в целом; Россия, советский период – Германия 1920–1940-е годы; Россия/СССР – Европа 1960-1980-е годы; Россия/СССР: перестройка; Россия/СССР: советский и постсоветский период; Америка: современная жизнь; Израиль: современная жизнь; Средняя Азия: современная жизнь; ирреальный мир и др. Также может быть «хронотоп не определен».

Лекция 4

Корпусная лингвистика

7

8 Нехудожественные тексты (в НКРЯ):

Нехудожественные тексты (в НКРЯ):

Тип текста автобиография, акт, дневник, договор, доку­мент, закон, заметка, заявление, инструкция, информационное сообщение, кодекс, комментарий, листовка, обзор, объявление, отзыв, отчет, очерк, письмо, постановление, проповедь, путево­дитель, резюме, реклама, рекомендация, рецензия, рецепт, сочи­нение, справочник, статья, учебник, характеристика, хроника, эссе, юридический документ (включается также помета «тип не определен») и пр. (Всего 62 параметра); тематика текста открытый список в 5 подмножествах: бизнес, коммерция, экономика, финансы; война и вооруженные конфликты; дом и домашнее хозяйство; здоровье и медицина; зрелища и развлечения; искусство; криминал; наука (по разделам и отраслям); политика и общественная жизнь; право; производ­ство; сельское хозяйство; спорт; природа; частная жизнь и т.П.

Лекция 4

Корпусная лингвистика

8

9 Служебная, или «имплицитная» метаразметка (в НКРЯ)

Служебная, или «имплицитная» метаразметка (в НКРЯ)

«Текст-стиль», при этом выделяются академический, научно-популярный, официально-деловой, нейтральный, сниженный, сниженный с элементами грубого просторечия и жаргона, архаизованный, индивидуально-авторский, диалектный и пр. (Всего 21); аудитория-возраст; аудитория-уровень образования; аудитория-размер.

Лекция 4

Корпусная лингвистика

9

10 Программа метаразметки Systemic Coder

Программа метаразметки Systemic Coder

Systemic Coder - программа, облегчающая процесс метаописания корпуса текстов. Метаданные задаются на основе классификационной схемы. Программа состоит из 5 интерфейсов. Text Segmentation: разметка границ между сегментами текста; Scheme Management: настройка классификационной схемы; Coding: разметка текста; Review: просмотр размеченного текста; Statistics: интерфейс, позволяющий получить описательную статистику о тексте, или разделить его на две или более совокупности и статистически их сравнить.

Лекция 4

Корпусная лингвистика

10

11 Деление текста на отдельные сегменты

Деление текста на отдельные сегменты

Интерфейс Разметки текста. Текст, представлен в основном диалоговом окне - текстовое окно, слева расположен набор кнопок (панель инструментов). Интерфейс метаразметки текста позволяет разделить загруженный текстовый файл на сегменты.

Лекция 4

Корпусная лингвистика

11

12 Классификационная схема

Классификационная схема

Классификация состоит из 3 частей: имя (system name): идентификатор схемы; признаки (features): варианты выбора; условия ввода (entry-condition). Расширенная классификационная схема:

Лекция 4

Корпусная лингвистика

12

13 Создание и изменение классификационной схемы

Создание и изменение классификационной схемы

Управление классификационной схемой Добавить признак (Add Feature): добавление нового признака в схему. Переименование классификационной схемы (Rename System): изменение имени схемы. Удаление классификации (Delete System): удаление классификации из схемы. Примечание: все признаки принадлежащие схеме и любая классификация, зависящая от нее будут также удалены. В настоящее время функция “Отменить” отсутствует. Изменение условия ввода (Change Entry Condition): изменение условия ввода классификации с одного признака на другой. Игнорировать/Не игнорировать подсхему (Ignore/Unignore Subnet): [New] Отключение классификации. Отключенная классификация выделена серым цветом. Она будет проигнорирована в кодировке и статистическом анализе. Управление признаками Добавить классификацию (Add System): создание макета классификации Переименовать признак (Rename Feature): изменение имени признака Удалить признак (Delete Feature): удаление признака. Примечание: все признаки, принадлежащие классификации и любая классификация, зависящая от нее будут также удалены. В настоящее время функция “Отменить” отсутствует Редактирование примеров (Edit Realisations): [New] Вы можете добавить примеров, прикрепленных за признаками Показать примеры (Show Examples): [New] Выбрав эту опцию вы перемещаетесь в интерфейс Просмотра.

Лекция 4

Корпусная лингвистика

13

14 Режим разметки

Режим разметки

Лекция 4

Корпусная лингвистика

14

15 Интерфейс пользователя для поиска по метаданным:

Интерфейс пользователя для поиска по метаданным:

Запросная форма НКРЯ для поиска по жанру текста: нежанровая проза автобиографическая проза детектив детская литература историческая проза криминальная литература приключения фантастика юмор и сатира

Лекция 4

Корпусная лингвистика

15

16 Интерфейс пользователя для поиска по метаданным:

Интерфейс пользователя для поиска по метаданным:

Запросная формы НКРЯ для поиска по автору текста: Автор текста Пол: мужской женский любой Год рождения: от … до …

Лекция 4

Корпусная лингвистика

16

«Разметка текста»
http://900igr.net/prezentatsii/literatura/Razmetka-teksta/Razmetka-teksta.html
cсылка на страницу
Урок

Литература

177 тем
Слайды
Презентация: Разметка текста.ppt | Тема: Текст | Урок: Литература | Вид: Слайды