Речь
<<  Развитие речи и мышления с помощью русской классики Обобщение и закрепление пройденного о частях речи  >>
Н. А. Коротаев Центр лингвистической типологии Опыт создания корпуса
Н. А. Коротаев Центр лингвистической типологии Опыт создания корпуса
Корпуса и устная речь
Корпуса и устная речь
Корпусных устных данных меньше, чем письменных
Корпусных устных данных меньше, чем письменных
Устный подкорпус НКРЯ
Устный подкорпус НКРЯ
Пример: конструкции с то что
Пример: конструкции с то что
Пример: конструкции с то что
Пример: конструкции с то что
Корпус звучащей речи
Корпус звучащей речи
Примеры корпусов
Примеры корпусов
Примеры корпусов
Примеры корпусов
Рассказы о сновидениях и другие корпуса звучащей речи
Рассказы о сновидениях и другие корпуса звучащей речи
Важные особенности
Важные особенности
Дискурсивная транскрипция
Дискурсивная транскрипция
Основные явления, отмечаемые в «нашей» системе транскрипции
Основные явления, отмечаемые в «нашей» системе транскрипции
Элементарная дискурсивная единица (ЭДЕ)
Элементарная дискурсивная единица (ЭДЕ)
Типология ЭДЕ
Типология ЭДЕ
Парцелляция / приращение (тип субклаузальных ЭДЕ)
Парцелляция / приращение (тип субклаузальных ЭДЕ)
Интонационная разметка
Интонационная разметка
Интонация и «предложение»
Интонация и «предложение»
Осложнения картины
Осложнения картины
Нефинальные падения
Нефинальные падения
Нефинальные падения
Нефинальные падения
Акцентные схемы в сложноподчиненных конструкциях
Акцентные схемы в сложноподчиненных конструкциях
Акцентные схемы в сложноподчиненных конструкциях
Акцентные схемы в сложноподчиненных конструкциях
Разметка пауз (временная разметка)
Разметка пауз (временная разметка)
Паузы и границы ЭДЕ
Паузы и границы ЭДЕ
Пограничные паузы в сложноподчиненных конструкциях
Пограничные паузы в сложноподчиненных конструкциях
Речевые сбои (самоисправления)
Речевые сбои (самоисправления)
Пример «слабого фальстарта»
Пример «слабого фальстарта»
Пример «сильного фальстарта»
Пример «сильного фальстарта»
Закономерность
Закономерность
Другие размечаемые явления
Другие размечаемые явления
Файлы ELAN
Файлы ELAN
Поиск на сайте (в разработке)
Поиск на сайте (в разработке)
Выводы
Выводы
Выводы
Выводы

Презентация на тему: «Опыт создания корпуса звучащей речи: зачем это нужно и как этим заниматься». Автор: Kibrik. Файл: «Опыт создания корпуса звучащей речи: зачем это нужно и как этим заниматься.ppt». Размер zip-архива: 908 КБ.

Опыт создания корпуса звучащей речи: зачем это нужно и как этим заниматься

содержание презентации «Опыт создания корпуса звучащей речи: зачем это нужно и как этим заниматься.ppt»
СлайдТекст
1 Н. А. Коротаев Центр лингвистической типологии Опыт создания корпуса

Н. А. Коротаев Центр лингвистической типологии Опыт создания корпуса

звучащей речи: зачем это нужно и как этим заниматься?

1

2 Корпуса и устная речь

Корпуса и устная речь

Что такое корпус Реальные тексты Разметка Поиск Казалось бы, устная речь – это идеальный объект корпусной лингвистики Но в жизни всё «не совсем так»

2

3 Корпусных устных данных меньше, чем письменных

Корпусных устных данных меньше, чем письменных

Национальный корпус русского языка

Подкорпус

Словоупотреблений

Основной корпус

230 млн

Газетный подкорпус

173 млн

Устный подкорпус

11 млн

Мультимедийный подкорпус

4 млн

3

4 Устный подкорпус НКРЯ

Устный подкорпус НКРЯ

Самый крупный корпусный ресурс по изучению устной русской речи Доступна та же разметка, что и для основного корпуса Не доступен исходный аудиосигнал Практически отсутствует специальная «устная» разметка

4

5 Пример: конструкции с то что

Пример: конструкции с то что

«Рассказы о сновидениях» ??(0.4) и когда я= ???(0.6) с-сам /\просыпаюсь, мне как бы /\кажется, ???(0.6) то что й-я ??(0.1) во /–\сне-е ещё. Устный подкорпус НКРЯ Потом ещё… Люди говорят / то что эмо режут вены и много плачут.

5

6 Пример: конструкции с то что

Пример: конструкции с то что

Устный подкорпус НКРЯ Он боится то / что я скроюсь и не расплачусь с ним и он будет выплачивать за меня деньги // Почему ты считаешь то / что ты помнишь / а я не помню. Вот все говорят то / что российские шампуни там дешевые. Слеши в расшифровках необязательно соответствуют просодической реальности

6

7 Корпус звучащей речи

Корпус звучащей речи

Должен быть доступен исходный звуковой сигнал Никакая разметка не может полностью заменить звук; она только дополняет его Желательно иметь специальную «устную» разметку: Сегментация Интонация Паузы ......... Чем подробнее разметка, тем меньше объем корпуса

7

8 Примеры корпусов

Примеры корпусов

МУРКО (http://ruscorpora.ru/search-murco.html) есть аудио и видео («кликсты») преимущественно фрагменты кинофильмов графическая запись – как в устном подкорпусе НКРЯ Русскоязычный эмоциональный корпус (http://www.harpia.ru/rec/) есть аудио и видео (файлы ELAN) нет открытого доступа

8

9 Примеры корпусов

Примеры корпусов

«Один речевой день» (http://model.org.spbu.ru/) доступна демо-версия есть аудио (файлы ELAN) специальные правила графической записи Звуковой корпус говора Устьянского района Архангельской области (http://www.parasolcorpus.org/Pushkino/) есть аудио удобная выдача по поисковому запросу графическая запись – примерно как в НКРЯ

9

10 Рассказы о сновидениях и другие корпуса звучащей речи

Рассказы о сновидениях и другие корпуса звучащей речи

http://spokencorpora.ru/ А. А. Кибрик, В. И. Подлесская Н. А. Коротаев, А. О. Литвиненко, … Монологические тексты нарративных жанров: Рассказы о снах Истории из жизни Рассказы по картинкам и пересказы тех же сюжетов по памяти В русской части: 226 рассказов Чуть более 4 часов звучания Чуть более 30 тысяч словоупотреблений

10

11 Важные особенности

Важные особенности

Полные версии звуковых файлов Детальная система нотации Дискурсивная транскрипция нескольких уровней подробности Система выравнивания звука и транскрипта «Пошаговое» проигрывание фрагментов рассказа Доступны для скачивания файлы ELAN Система поиска (в разработке)

11

12 Дискурсивная транскрипция

Дискурсивная транскрипция

Графическая запись, преимущественно учитывающая локальную дискурсивную структуру Две главные задачи: Редукция Интерпретация Ключевые характеристики: Систематичность Подробная инструкция по транскрибированию Непредвзятость

12

13 Основные явления, отмечаемые в «нашей» системе транскрипции

Основные явления, отмечаемые в «нашей» системе транскрипции

Сегментация речевого потока на элементарные дискурсивные единицы Разбиение транскриптов на строки Сегментация на «предложения» Пунктуационные знаки в конце строк Паузы Акценты и движения тона Иконические слеши и стрелки Речевые сбои

13

14 Элементарная дискурсивная единица (ЭДЕ)

Элементарная дискурсивная единица (ЭДЕ)

Минимальный квант в порождении речи Когнитивная перспектива «Фокус сознания» (У. Чейф) Физиологическая перспектива Координация с дыханием Просодико-коммуникативная перспектива Единый интонационный контур Стандартная роль в коммуникативной структуре высказывания Семантико-синтаксическая перспектива Описание одной ситуации Синтаксический формат простой клаузы (около 2/3 случаев)

14

15 Типология ЭДЕ

Типология ЭДЕ

Один из возможных параметров классификации ЭДЕ – степень соответствия синтаксическому формату простой клаузы Клаузальные («канонические») ЭДЕ «Малые» ЭДЕ Регуляторные (вот) Субклаузальные .................... «Большие» ЭДЕ Глагольные редупликации Контексты с грамматикализованными глаголами речи или эпистемической оценки (кажется) ...................

15

16 Парцелляция / приращение (тип субклаузальных ЭДЕ)

Парцелляция / приращение (тип субклаузальных ЭДЕ)

Парцелляция - запланированное разделение простой клаузы на две или более ЭДЕ Приращение – постпозитивное «присоединение» к уже произнесенной клаузе непредикативного фрагмента В обоих случаях: Синтаксически вроде бы одна клауза Интонационно – две отдельных коммуникативно-просодических составляющих В «Рассказах о сновидениях» более 6% ЭДЕ являются парцелляциями или приращениями

16

17 Интонационная разметка

Интонационная разметка

Основная разметка Расположение акцентов (? фразовых / логических ударений) Движения тона на ударных (а иногда – и заударных) слогах акцентированных словоформ Дополнительная разметка Разметка в терминах ИК (по Брызгуновой – Янко)

17

18 Интонация и «предложение»

Интонация и «предложение»

«Предложение» - последовательность ЭДЕ, заключительная из которых характеризуется иллокутивной завершенностью «точка» - конец предложения-сообщения «запятая» - не-конец предложения Канонические соответствия: «точка» - нисходящий акцент типа ИК-1 «запятая» - восходящий акцент типа ИК-3

18

19 Осложнения картины

Осложнения картины

Особые типы незавершенности «Открытый список» (ИК-6) «Рассказ по порядку» (ИК-4) Раздельное выражение ремы и незавершенности Нефинальное падение

19

20 Нефинальные падения

Нефинальные падения

Наблюдается нисходящее движение тона в главном акценте, но завершения предложения не усматривается Предположительно, основной критерий – целевой уровень падения при нисходящем акценте Отличие от финального падения – в 2-4 полутона Необходимо иметь «просодические портреты» говорящих

20

21 Нефинальные падения

Нефинальные падения

«Рассказы о сновидениях»

«Точка с падением»

748

«Запятая с подъемом»

960

«Запятая с падением»

557

21

22 Акцентные схемы в сложноподчиненных конструкциях

Акцентные схемы в сложноподчиненных конструкциях

Какие движения тона реализуются в главных акцентах ЭДЕ, составляющих сложную конструкцию «Дефолтная» схема ’’(0.3) ??(0.2) делаю такие /движения, которые /наяву я не \могу-у –де-елать, «Дезинтегрированная» схема ????(1.4) Тогда ??(0.1) мой /кома-андир /меня /наградил /золот-той \меда-алью. ??(0.3) Которая /стоил-ла /двести \долларов.

22

23 Акцентные схемы в сложноподчиненных конструкциях

Акцентные схемы в сложноподчиненных конструкциях

«Рассказы о сновидениях»

Дефолтная

Дезинтегри-рованная

Другие схемы

Объектные

60%

26%

14%

Определи-тельные

39%

45%

16%

Обстоятель-ственные

37%

50%

13%

23

24 Разметка пауз (временная разметка)

Разметка пауз (временная разметка)

Абсолютные паузы Заполненные паузы «эканья» «мэканья» гортанный скрип Смешанные паузы Паузы локализуются в звуковом файле при помощи модуля Annotations в среде Praat В этом же модуле размечаются и границы ЭДЕ (и именно это позволяет проигрывать отдельные строки транскриптов на сайте)

24

25 Паузы и границы ЭДЕ

Паузы и границы ЭДЕ

«Рассказы о сновидениях»

Тип пауз

Тип пауз

Абсол.

Абсол.

Заполненные

Заполненные

Заполненные

Простые

Смешан.

Итого

Пограничные

2021

52

228

280

Внутренние

960

105

155

260

25

26 Пограничные паузы в сложноподчиненных конструкциях

Пограничные паузы в сложноподчиненных конструкциях

«Рассказы о сновидениях»

Ср. знач.

Доля нулевых пауз

Доля пауз от 0.5 с

Объекты (постпоз.)

0.14

74.7%

11.5%

Обстоятельства (постпоз.)

0.20

66.0%

15.1%

Определения (постпоз.)

0.24

55.8%

19.2%

Обстоятельства (препоз.)

0.38

49.0%

28.6%

26

27 Речевые сбои (самоисправления)

Речевые сбои (самоисправления)

Одна из ключевых особенностей неподготовленной устной речи Степень «травматичности» самоисправления «Слабый фальстарт» Реализуя самоисправление, говорящий «спасает» текущую ЭДЕ «Сильный фальстарт» Реализуя самоисправление, говорящий «бросает» текущую ЭДЕ и, возможно, довольно значительно перестраивает локальную структуру

27

28 Пример «слабого фальстарта»

Пример «слабого фальстарта»

«Весёлые истории из жизни» ??? ’А /тётка?а — ?? ээ ??? которая ??? эти \щи самые ??? /кладёт, — ??? не к= || не /кладёт мне в них \сметану.

28

29 Пример «сильного фальстарта»

Пример «сильного фальстарта»

«Истории сибиряков о жизни» ээ Так \вот, когда мы ?? всё это дело /проверили, ??? ээ ночью?у ?? /подготовили ?? мм ээ ’’ всё /открыли, ??? но на всякий случай взяли ?? с собой == ??? ээ \а!, \нет, эээ всё мы п= || ээ /открыли-/приготовили, ?? и?и полезли — ?? эээ уже на следующее /утро, ?? эээ в /костюмах в парадных, ээ с /цветами, — ??? ээ в соседний \подъезд.

29

30 Закономерность

Закономерность

В целом менее травматичные самоисправления встречаются чаще, чем более травматичные Самый частотный тип самоисправлений – это повтор оборванного небольшого фрагмента в начале или середине ЭДЕ (см. пример со сметаной)

30

31 Другие размечаемые явления

Другие размечаемые явления

Фазово-иллокутивные значения Не только «точки» и «запятые» Скобочные структуры («вставки») Ускоренный темп Сниженный регистр Цитации Прямые vs. косвенные vs. полупрямые ..........

31

32 Файлы ELAN

Файлы ELAN

Доступны для скачивания и дальнейшей оффлайн-работы Широко используемый формат для аннотирования аудио- и видеофайлов «Плоская» транскрипция преобразуется в аналог базы данных Встроенная система поиска

32

33 Поиск на сайте (в разработке)

Поиск на сайте (в разработке)

Задача – использовать информацию, уникальную для данных корпусов Основная единица поискового запроса – ЭДЕ Можно задавать свойства в следующих вкладах: Тип ЭДЕ Фазово-иллокутивное значение Слова и паузы Акценты Выдача по запросу будет производиться в формате «звук + транскрипт»

33

34 Выводы

Выводы

Корпус звучащей речи должен иметь два тесно связанных между собой компонента: фрагменты / полные версии исходных звуковых файлов транскрипты Разметка таких корпусов должна учитывать базовые явления устной речи В зависимости от задач предполагаемых исследований может выбираться разная степень детальности разметки А соответственно, и разный реалистично доступный объем корпуса

34

35 Выводы

Выводы

При любом уровне детализации необходимо обеспечить систематичность и непредвзятость нотации Тогда, даже если корпус невелик, при наличии «уникальной» разметки с его помощью можно получать значимые результаты

35

«Опыт создания корпуса звучащей речи: зачем это нужно и как этим заниматься»
http://900igr.net/prezentacija/russkij-jazyk/opyt-sozdanija-korpusa-zvuchaschej-rechi-zachem-eto-nuzhno-i-kak-etim-zanimatsja-118318.html
cсылка на страницу

Речь

17 презентаций о речи
Урок

Русский язык

100 тем
Слайды
900igr.net > Презентации по русскому языку > Речь > Опыт создания корпуса звучащей речи: зачем это нужно и как этим заниматься