№ | Слайд | Текст |
1 |
 |
Methodology of the Research\Методология исследования доцКасимовская Е.Н Выбор методов исследования |
2 |
 |
Выбор методики исследованияНа этапе сбора данных следует выделить несколько главных вопросов: для каких целей собираются данные? что именно нужно измерять? с какой точностью нужно измерять? какое количество данных нам требуется? каким способом следует выбирать данные? Ответы на первые три вопроса должны быть даны на стадии формулирования проблемы, гипотез и\или вопросов исследования Стадия операционализации проблемы |
3 |
 |
Задача построения информационного запросаСоставление структурной схемы показателей предмета (предметов) исследования. Оценка возможности измерения каждого из показателей конкретным индикатором. Поиск структурных субпоказателей. Доведение конкретизации показателей до такой ступени, чтобы каждому из них мог соответствовать вопрос анкеты (или переменная). |
4 |
 |
Масштаб исследованияОсновные черты зависимости между переменными: (1) Величина (2) Надежность ("истинность") Соотношение между значимостью и количеством испытаний (выполненных анализов)? Слабые связи могут быть значимо доказаны только на больших выборках |
5 |
 |
Генеральная совокупность и выборкаКакое количество данных нам требуется? Определение 1: Исследуемая совокупность единиц называется генеральной совокупностью. Определение 2: Выборка – подмножество единиц генеральной совокупности. |
6 |
 |
Генеральная совокупность и выборкаГенеральная совокупность Выборка Наилучший подход: каждый участник генеральной совокупности имеет равную вероятность быть включенным в выборку |
7 |
 |
Понятие «выборка»(sample)Синоним понятия «выборочная совокупность» — часть населения (популяции, population), которая, подвергается опросу\исследуется, с тем чтобы полученные результаты могли быть распространены на изучаемую популяцию в целом Процесс отбора единиц наблюдения (технология, способы и методы такого отбора определяют тип выборки) |
8 |
 |
Построение выборкиОпределение объема выборки (например, количества человек, которых следует опросить для получения качественной информации) Определение типа выборки — построение конкретной схемы процедуры отбора Оценка качества выборки — определение, с какой вероятностью и степенью точности результаты опроса выборочной совокупности можно будет переносить на ту или иную часть популяции (генеральной совокупности) |
9 |
 |
Основной вопрос – как велика она должна бытьАбсолютные размеры выборки. Важнее именно абсолютный размер, а не относительный. Чем больше выборка, тем больше вероятность отразить характеристики генеральной совокупности ( меньше вероятность сделать ошибку, это следует из закона больших чисел). Статистики и Central Limit Theorem: чем больше размер выборки, тем ближе распределение к нормальному типу. Минимальный размер стат. Выборки – более 30 наблюдений. Пределы ошибки ( margin error): ожидаемая ошибка связана с размерами выборки. Считается, что ошибка в 5% ( т.е. 95%-ная вероятность) – это допустимый максимум для аккуратного исследования ( больше нельзя!!!) |
10 |
 |
Продолжение– как велика она должна бытьВремя и затраты. Большая выборка требует больше времени и затрат, результат задерживается, маленькая выборка может оказаться нерепрезентативной и не отражать основные закономерности исследуемой совокупности. «Безответность» респондентов. Часть опрашиваемых не заполняет анкеты, другие запоняют неправильно и т.д. Важно определить актуальный уровень ответов и рассчитать размер необходимой выборки с учетом этого. Вариации ( различия) в изучаемой совокупности. Если различия велики, то размер выборки должен быть больше. |
11 |
 |
Качество информацииРепрезентативность - свойство выборочной совокупности воспроизводить характеристики генеральной Надежность - определенная гарантия того, что полученный результат правильно отражает изучаемую действительность Валидность (обоснованность) информации - подтверждение (доказательство), что исследовались (измерялись) именно те явления, которые предполагалось исследовать Проверка устойчивости - основная и контрольная группы |
12 |
 |
Репрезентативность выборкиРепрезентативная выборка (representative sample) - одно из ключевых понятий анализа данных. Репрезентативная выборка - это выборка из генеральной совокупности с распределением F(x), представляющая основные особенности генеральной совокупности. ПРИМЕР: если в городе проживает 100 000 человек, половина из которых мужчины и половина женщины, то выборка 1000 человек из которых 10 мужчин и 990 женщин, конечно, не будет репрезентативной. Построенный на ее основе опрос общественного мнения, конечно, будет содержать смещение оценок и приводит к фальсификации результатов. Необходимым условием построения репрезентативной выборки является равная вероятность включения в нее каждого элемента генеральной совокупности. |
13 |
 |
Репрезентативность выборки: как посчитать?? Формула для расчета учитывает доверительный интервал и вероятность ошибки ( обычно на уровне 0.05, т.е. Ошибка 5%) Он лайн калькуляторы: www.allcalc.ru и пр Пример: |
14 |
 |
Каким способом следует выбирать данныеВыборка имеет больше шансов быть репрезентативной, если она построена таким образом, что (1) каждый объект генеральной совокупности имеет одинаковую вероятность быть отобранным и (2) объекты отбираются независимо друг от друга. Есть несколько методов извлечения выборки: применение таблиц случайных чисел, метод перемешивания генеральной совокупности, стратифицированная случайная выборка, систематическая выборка. |
15 |
 |
Типы выборокОсновной принцип – принцип рандомизации случайности Случайная выборка -Random Sampling=Probability sampling ( на основе таблицы случайных чисел) Систематическая случайная выборка – Systemic Sample Стратифицированная случайная выборка – Stratified sampling ( учитывает конкретные характеристики\переменные в выборке, например, пол, возраст и пр) |
16 |
 |
ПримерыСистематическая выборка: Население: 300 Величина выборки: 10 300\10=30 Начинаем со случайного выбора числа в промежутке от 1 до 30. Например, 23. Затем берем каждое 30е показание, пока не наберем 10: 23, 53, 83,113,143,173, 203, 233, 263, 293 |
17 |
 |
Пример:метод перемешивания генеральной совокупности (с использованиемExcel) Шаг 1. Пронумеруйте все элементы генеральной совокупности от 1 до N и введите эти порядковые номера в первый столбец таблицы Excel. Шаг 2. В верхнюю ячейку второго столбца введите формулу =СЛЧИС() и скопируйте эту ячейку вниз по столбцу, чтобы получить случайное число напротив каждого номера. Шаг 3. Выделив оба столбца (с номером элементов в основе выборки и со случайными числами), выполните команду Данные->Сортировка из меню Excel. Сортировка по столбцу со случайными числами. После этого, числа в первом столбце будут упорядочены случайным образом, и для получения искомой случайной выборки достаточно будет взять первые n элементов. |
18 |
 |
Примеры: стратифицированная выборкаНаселение: 850(580 женщин и 270 мужчин) Величина выборки: 100 580/850 Х 100=68 женщин 270/850 Х 100=32 мужчин |
19 |
 |
Другие типы выборокConvenience Sampling(«до кого легче добраться», слабо репрезентативна, исп. При пилотных исследованиях) Snowball Sampling Multi-stage cluster sampling ( случайная выборка + геогр.кластеры) Purposive Sampling ( на основе суждения исследователя) Non-Probability Sample И т.д. |
20 |
 |
Классификация исследованийПо типу собранных данных методы исследований можно подразделить на Качественные Количественные |
21 |
 |
Качественное исследованиеКак? Почему? Зачем? Рекомендуется, когда необходимо качественное описание какого-либо процесса. Примеры: Как потребитель осуществляет выбор того или иного товара? Каковы мотивы поведения избирателей? |
22 |
 |
Примеры качественных исследованийОпросы анкетирование интервью Фокус-группы ( обычно 6-8 человек) Case Studies Action Research Наблюдение ( структурированное) Дневник участника Этнографические исследования Эксперимент |
23 |
 |
Типы интервьюStructured – на основе опросника ( довольно строго) semi-structured – на основе опросника, но можно отклоняться + личные впечатления unstructured (= in-depth interview) |
24 |
 |
Компоненты «отношения»Эмоциональная (чувства, эмоции) Осознанная (знания и уверенность (вера)) Поведенческая - предрасположенность (готовность) к действиям - намерения - поведенческие ожидания |
25 |
 |
Мнения и отношенияСуждения Отношение Ценности Индивидуальность Социум |
26 |
 |
Способы измерения «отношения»Ранжирование Рейтингование Сортировка Выбор |
27 |
 |
Способы измерения «отношения»Ранжирование – требуется, чтобы опрашиваемые выстроили по порядку небольшое количество объектов на основе какого-то указанного им принципа Рейтинг - требуется, чтобы опрашиваемые определили положение объекта на предложенной им шкале в соответствии с своим восприятием свойств (качеств) объекта. Сортировка – требуется сгруппировать объекты на основе определенного критерия или экспертного знания Выбор – требуется выбрать из двух или более альтернатив Психологические способы измерения – определение отношения без вербального ответа опрашиваемого (например, по изменению кровяного давления) |
28 |
 |
Требования к анкете- Целенаправленность; - простота (четкость, понятность, краткость вопросов, по возможности допускающая ответы «да» или «нет»); - однозначность понимания вопросов, что предполагает однозначные на них ответы; - нейтральность (невозможность практического использования ответов против опрашиваемого); - логическая последовательность (от простого к сложному, от общего к частному, конкретизирующему) |
29 |
 |
Типы анкет\вопросов с вариантами ( close-end): общиеСписочные– выбрать любой ответ Категориальные – выбрать ОДИН ответ ( multiple choice) Ранжирование ( ranking) – расставить по порядку Рейтингование (rating) – оценить, раставить оценки ответам Количественные – ответить числом\величиной Табличные (grid) – заполнить матрицу с более чем одним ответом |
30 |
 |
ДопВопросы и техники Вопросы по персональным данным – возраст, образование, пол, соц. Статус и пр. Рейтинговая шкала Ликерта: сила ответа ( strongly agree – strongly disagree) в кол.выражении Рейтинговая шкала Ликерта: то же самое в вербальной форме Семантический дифференциал – противоположные характеристики на противополжных концах численной шкалы Шкала частот – вербальная или численая- между «всегда» и «никогда» Да\нет Верно\неверно |
31 |
 |
ПРИМЕР: шкала Ликерта |
32 |
 |
|
33 |
 |
Open question format«Открытый лист» - неск.вопросов без вариантов ответов. Ответ дается в свободной форме Open essay – комментарий в свободной форме. Обычно – в заключение анкеты Вопрос о личном мнении Вопрос о личном поведении Vignette or scenario – вопрос включен в контекст, описание ситуации. Дается в свободной форме |
34 |
 |
Общие правила анкетированияОбъясните цель анкетирования участникам Старайтесь, чтобы вопросы были максимально простыми Не используйте слэнг или профессиональный жаргон Избегайте двусмысленности и вопросов в негативной форме Избегайте неконкретных определений типа «большой. Маленький» Задавайте вопросы, ТОЛЬКО связанные с темой ( а не все, которые пришли Вам в голову) Включайте вопросы, которые являются проверочными для ответов на другие вопросы Избегайте вопросов, требующих расчетов Избегайте наводящих вопросов, обидных и агрессивных вопросов Постарайтесь, чтобы список вопросов был как можно короче, но включал все необходимые для достижения цели |
35 |
 |
Полезные ресурсыwww.surveymonkey.com (www. zoomerang.com) Базовый пакет ( 10 вопросов в анкете, 100 ответов/опрос) – бесплатно www.qualtrics.com www.surveysystem.com www.statsoft.ru Электронный учебник по статистике и эконометрике |
36 |
 |
Программные пакеты для анализа данных качественных исследованийCAQDAS – computer-assisted qualitative data analysis software NVivo – www.qsrinternational.com AQUAD 7 – www.aquad.de |
37 |
 |
Количественное исследованиеСколько? Каков вид взаимосвязи? Связано с операционализацией проблемы\гипотезы Рекомендуется, когда необходима ( и возможна) количественная оценка существующих взаимосвязей |
38 |
 |
Количественный анализ данныхСтатистика - это набор методов и теорий, применяемых для количественного анализа данных ( для принятия решения в условиях неопределенности) Позволяет распознать и оценить ошибки количественного измерения параметров Два типа кол.анализа: разведочный анализ данных ( или описательная статистика) используется для обобщения и представления данных подтверждающий анализ ( confirmatory data analysis) позволяет обработать данные ,сделать выводы и построить прогнозы |
39 |
 |
Confirmatory data analysis: основные техники (методы)Параметрические методы применяются в случае, когда данные характеризуются нормальным распределением ( Normal Distribution) Непараметрические методы применяются в случае возможного искажения данных ( отсутствие нормального распределения), например, при нерепрезентативной выборке |
40 |
 |
Основные моменты, влияющие на выбор методаТип (вид, форма) данных (разведывательный или подтверждающий) Характер выборки ( нормальное распределение или искаженное): соответственно параметрические или непараметрические инструменты Количество переменных исследования: одномерные и многомерные Шкалы ( типы) измерения: номинальные, порядковые, интервальные, относительные |
41 |
 |
Тип данных ( шкалы измерения)Интервальные ( абс. И относ): 70 кг, 80 кг.... Равные промежутки Порядковые ( ordinal) – можно расставить по порядку, но промежутки разные Номинальные – не могут быть упорядочены ( холодный-горячий) Дихотомные – да-нет, муж-жен |
42 |
 |
Тип данныхCross-section - данные по к-л показателю для разных однотипных объектов ( страны, регионы) Time series –данные, описывающие один и тот же объект во времени ( инфляция,темпы роста...) Характеризуются опр. Тенденциями\зависимостями Могут быть временные лаги |
43 |
 |
Собственное исследование: выбор методовВопрос 1. Какой тип данных рассматривается? Вопрос 2. Сколько переменных? |
44 |
 |
|
45 |
 |
Интервальные данные |
46 |
 |
Порядковые и номинальные данные |
47 |
 |
Метод анализа: что хотим увидетьОдна переменная ( univariante analysis) Описываем конкретное значение Разброс в значениях Основную тенденцию ( графики, гистограммы) Отклонение от среднего ( дисперсию) Смотрим на данные во временном промежутке ( графики) Смотрим на долю в массиве данных ( диаграммы, гистограммы) |
48 |
 |
Одномерный анализ: оснИнструменты и формы представления данных Таблицы частоты Графики, гистограммы, диаграммы Имеряем основную тенденцию: Среднее ( mean) Медиана (ср. Значение в упорядоч. Списке) Мода Измеряем дисперсию: Range (размах, разрыв между мин и макс) Inter-quartile range ( данные д.б. Проранжированы) Standard Deviation ( чем больше значение, тем больше вариация в данных) Коэф. Вариации ( показывает однородность\неоднородность массива данных\выборки) |
49 |
 |
|
50 |
 |
Разведывательный анализ: частота наблюдений и распределениеMean – (истинное) среднее (х) Медиана (М) – то значение, которое располагается строго посередине массива упорядоченных данных Мода (m) – наиболее часто встречающееся значение Позволяют выявить центральную тенденцию и сделать выводы о характере распределения |
51 |
 |
Нормальное распределениеЧастота Среднее, мода и медиана Значение переменной |
52 |
 |
ВыводыКогда кривая распределения симметрична, значения трех показателей совпадают. Это называется нормальным распределением. Когда кривая искажена, средняя, медиана и мода имеют разные значения При положительном характере искажения данных «хвост» кривой распределения вытянут вправо и большая часть данных концентрируется в диапазоне меньших значений При отрицательном - наоборот |
53 |
 |
Выводы ( продолжение)В случае мономодальности кривой ( т.е. один пик) и ее относительно слабой искаженности, соотношение показателей выражается: Среднее – Мода = 3(Среднее – Медиана) |
54 |
 |
Измерение дисперсииПозволяет описать разброс данных (spread of values) При использовании одновременно с показателями частоты распределения позволяет получить адекватное представление о массиве данных в двух измерениях Два простейших показателя дисперсии данных – range and interquartile range |
55 |
 |
Измерение дисперсииRange ( размах) это разница между наибольшим и наименьшим значением параметра Range = Eu – EL Interquartile range = Q3 – Q1 Semi-interquartile range = (Q3 – Q1)\2 Стандартное отклонение ( Standard Deviation) |
56 |
 |
Пример: потребление нефти, 19 периодов (n=19)1 40.6 11 38.5 2 34.6 12 37 3 38.8 13 36 4 39.7 14 29.8 5 38.3 15 32.6 6 39.2 16 35.3 7 38.3 17 34.7 8 36.4 18 30.2 9 35.3 19 35.9 10 37.7 |
57 |
 |
Упорядочиваем данные(есть в Excell)1 EL 29.8 11 37 2 30.2 12 37.7 3 32.6 13 38.3 4 34.6 14 38.3 5 Q1 34.7 15 Q3 38.5 6 35.3 16 38.8 7 35.3 17 39.2 8 35.9 18 39.7 9 36 19 Eu 40.6 10 36.4 |
58 |
 |
Расчеты:Среднее=(n+1)/2=10 – десятое наблюдение упорядоченных данных Quartile = (n+1)/4=(19+1)/4=5, т.е. берем каждое пятое наблюдение Range= 40.6-29.8=10.8 Interquartile range= Q3-Q1=38.5-34.7=3.8 Semi-interquartile range=(Q3-Q1)/2=1.9 |
59 |
 |
Выводы: определяем оснтенденцию Нижний квартиль Q1 показывает потребление нижних 25% 50% ( два средних квартиля) имеют потребление между 34.7 и 38.5 |
60 |
 |
Box plotQ1 M Q3 34.7 36.4 38.5 50% данных El=29.8 Eu=40.6 28 30 32 34 36 38 40 42 |
61 |
 |
Дисперсия, стОтклонение и коэффициент вариации |
62 |
 |
Коэффициент вариации и однородность выборкиИмея коэффициенты вариации, можно сравнивать однородность самых разных явлений независимо от их масштаба и единиц измерения. Данный факт и делает коэффициент вариации столь популярным. В статистике принято, что, если значение коэффициента вариации менее 33%, то совокупность считается однородной, если больше 33%, то – неоднородной. |
63 |
 |
Стотклонение: S = ??(x – x?)2 \n Учитывает все отклонения от ср. показателя Рассчитать StDev. Период 1 2 3 4 5 6 Значение (х) 12 10 8 4 18 8 |
64 |
 |
Ответ:Ср. значение = 10 S = ?112\6 = 4.32 X X-X? (x – x?)2 12 2 4 10 0 0 8 -2 4 4 -6 36 18 8 64 8 -2 4 Total 112 |
65 |
 |
Измерение изменений: индексыПростые индексы: измерение изменения параметра по отношению к базовому году Базовые и цепные индексы Взвешенные ( композитные или агрегированные) индексы: индекс Пааше, индекс Ласпейреса Прочие индексы |
66 |
 |
ПримерИндекс потреб.цен: 15*10+24*6+425*3 10*10+27*6+655*3 ? 0,7 Дефлятор: 15*8+24*7+425*5 10*8+27*7+655*5 ? 0,68 Год 2000 2000 2007 2007 Цена Объем Цена Объем Книги 10 10 15 8 Рубашки 27 6 24 7 TV 655 3 425 5 |
67 |
 |
Дополнение: прочие показатели инфляции, используемые в современноймеждународной статистике. Циклические колебания на товарных рынках не изменяют общего тренда инфляции. С этой целью в США выделяется показатель «базовой инфляции» (core CPI), для расчета которой из общего индекса инфляции исключаются цены на продукты питания и топливо. В современных условиях спектр торгуемых товаров на мировом рынке расширяется, и колебания инфляции могут быть вызваны не только изменением цен на продовольствие и топливо. Поэтому наряду с показателем базовой инфляции в США рассчитывается показатель «средней инфляции» (mean CPI) или «инфляция без выбросов» (trimmed CPI). Принцип расчета такого индекса состоит в том, что из индекса исключаются не просто отдельные группы товаров, а строится матрица изменения цен по отдельным продуктам на каждый период из общего индекса исключаются определенная доля максимальных и минимальных значений. |
68 |
 |
Базисные индексыБазисный индекс сравнивает цены в любой из рассматриваемых периодов с одним и тем же базовым периодом: например, цены в марте, в апреле, в мае и т. д. сравниваются с ценами в декабре прошлого года |
69 |
 |
Темпы роста и темпы приростаПри использовании таких индексов, для того чтобы определить, на сколько изменились цены, к примеру, в марте по сравнению с январем, необходимо: поделить соответствующие базовые индексы: 101/102 = 0,99 (т. е. уровень цен в марте составил 0,99, или 99% от январского уровня) или рассчитать процентное их изменение: (101–102)/102 *100% = –1% (т. е. цены в марте снизились на 1% по сравнению с январским уровнем). Между двумя полученными величинами имеется взаимно однозначное соответствие. Первую (0,99) часто называют темпом роста, а вторую (–1%) — темпом прироста. Темп роста больший 1 (100%) или положительный темп прироста показывает, что цены растут. Темп роста меньший 1 (100%) или отрицательный темп прироста показывает, что цены падают. |
70 |
 |
На всякий случай: вспоминаем Абсолютный прирост – размер увеличения показателя за определенный временной период (разница значений показателей между конечным и базовым периодами). Темп роста – отношение конечного значения показателя к базовому. Темп прироста – относительная скорость изменения показателя за определеный временной период. (отношение абсолютного прироста к значению базового периода). Темп прироста = темп роста -1 или 100% Средний темп роста показывает во сколько раз в среднем за единицу времени изменилось значение показателя (корень степени (n-1) из отношения конечного значения показателя к базовому, где n – число рассматриваемых периодов). Средний темп прироста = средний темп роста – 1 или 100% Тенденция – закономерность. Тренд (линия тренда) – графическое изображение тенденции. |
71 |
 |
Цепной индекс сравнивает цены в рассматриваемый период с предыдущим:например, цены в марте с ценами в феврале, цены в апреле с ценами в марте, цены в мае с ценами в апреле и т. д. |
72 |
 |
Сравнение двух методовПри использовании таких индексов, для того чтобы определить, на сколько изменились цены, к примеру, за два месяца — январь и февраль, необходимо: перемножить соответствующие индексы, которые в данном случае представляют собой темпы роста цен за месяц: 1,02 * 1,01 = 1,03; или сложить соответствующие темпы прироста: 2% +1% = 3% (данная форма вычислений является приблизительной и для больших изменений дает приблизительный ответ с большой погрешностью). Как правило, базисный метод применяется в стабильных условиях и при низкой инфляции. Цепной метод — при нестабильном характере предложения и ассортимента товаров и услуг, за ценами на которые ведется наблюдение, при частой смене организаций, участвующих в наблюдении за ценами. |
73 |
 |
Прочие индексыИндекс Херфиндаля-Хиршмана Индекс внутриотраслевого обмена Грубела-Ллойда (ITT – Intraindustry Trade Index) Коэффициент Джини Индексы конкурентоспособности ВАЖНО! Можно строить собственные индексы в рамках исследования!! |
74 |
 |
Пример: индекс деловой активности PMI (Purchasing Managers’ Indexиндекс используется для оценки изменений в области новых производственных заказов, объема промышленного производства, занятости, а также товарных запасов и скорости работы поставщиков. Индикатор измеряется в % в пределах от 0 до 100%, причем в зависимости о значений составляющих: PMI = 0.30*(New Orders) + 0.25*(Production) + 0.20*(Employment) + 0.15*(Supplier Deliveries) + 0.10*(Inventories) По динамике PMI index обычно прогнозируют изменения в промышленном производстве, заказах, промышленных ценах, занятости, и, главное, динамика ВВП на полгода вперед - при значении PMI index выше 50% темп роста ВВП будет увеличиваться, если значение ниже 50%, то темпы роста ВВП будут падать и при достижении PMI 44% следует ожидать отрицательного роста ВВП. |
75 |
 |
PMI: продолжениеКаждый компонент отчета компилируется в диффузный индекс (diffusion index), который вычисляется как сумма простых процентных изменений значений "выше" и "ниже" плюс половина процента ответов "то же" или "никаких изменений". Диффузный индекс может колебаться между 0 и 100% с различной характеристикой диапазонов: значение 50% означает отсутствие какого-либо изменения; выше 50% - улучшение; и ниже 50% означает снижение. Итоговый показатель делового оптимизма является составным диффузным индексом, который называется Индекс Менеджеров по Закупкам (PMI) |
76 |
 |
PMI: оснПозиции В вопросник включаются следующие позиции: · Production - Производство ; · New orders (New orders from customers) - Новые заказы ; · New export orders - Новые заказы на экспорт ; · Order backlogs - Отставание Заказов ; · Commodity Prices - Цены на товары ; · Inventories of purchased materials - Запасы покупаемых материалов ; · Imports (New import orders) - Новые заказы импорта ; · Employment - Занятость ; · Vendor Deliveries (Delivery time) - Время поставок ; · Items in short supply (Supplier) - товары краткосрочного предложения. |
77 |
 |
Подтверждающий анализ данных: многомерные исследованияОсновные проблемы: Трудно выявить и учесть ВСЕ переменные Многие воздействия случайны Ограниченный набор данных + возможны ошибки Математическая статистика – эконометрика – попытка решить эти проблемы Типы эк. Данных: перекрестные данные (cross-section data) и временные ряды ( time series) |
78 |
 |
Пример: Методы математической статистики подробнее смwww.statsoft.ru Методы ранжирования Корреляционный анализ Построение регрессии Методы группировки – дисперсионный анализ Методы классификации – кластерный анализ Дискриминантный анализ Факторный анализ Многомерное шкалирование Анализ временных рядов И пр. |
79 |
 |
Измерение взаимосвязей между переменнымиВыявление взаимосвязи – корреляционный анализ Коэф. Корреляции Пирсона (r) – параметрический Коэф. Корреляции Спирмана (rs ) – непараметрический Коэф.Phi – связь между дихотомными переменными Коэф. Крамера V – между номин. Переменными ( показывает только силу, всегда положит.) Коэф. Eta - связь между интервальными и номинальными переменными, показывает только силу, но не направление, предполагает нелин.зависимость Если связь есть – построение регрессии ( модель)= регрессионный анализ Коэф. Детерминации ( или коэф. Регрессии = квадрат значения коэф. Пирсона * 100) показывает относит. Зависимость изменений одной переменной от другой |
80 |
 |
Коэффициент Пирсона: формулаГде xi - значения, принимаемые переменной X, yi - значения, принимаемые переменой Y, X -средняя по X, Y - средняя по Y. Или ее преобразовнный аналог |
81 |
 |
Анализ линейной статсвязи между переменными: корреляция Коэф.корреляции Пирсона (r) r 0.9-0,99 Очень высокая пол. корреляция 0.7-0.89 Высокая пол. корреляция 0.4-0.69 Средняя пол. кор 0-0.39 Низкая пол. Кор 0- (-0.39) -0.4 – (-0.69) Низкая отр. Кор Средняя отр. Кор -0.7 – (-0.89) Высокая отр. Кор -0.9 – (-0.99) Очень высокая отр. кор |
82 |
 |
ПРИМЕР: есть ли корреляцияweek Number of orders (x) Number of calls (y) 1 1 10 2 2 14 3 2 12 4 4 20 5 3 18 6 6 20 7 8 26 8 6 24 |
83 |
 |
Ответ |
84 |
 |
Определить степень корреляции (значение коэффи сделать выводы о характере зависимости) |
85 |
 |
Решение: Коэффициент корреляции Пирсона: rxy=-37342667/(5036.904x11.317)=-0.655 1. На основании исходных данных, приведенных в таблице, расчитаем средние значения для X и Y: Х=1298.333, Y=5.489 № X Y X-xср Y-yср (Y-yср)*(x-xср) (X-xср)2 (X-xср)2 1 500 5.4 -798.333 -0.089 71.052 637335.579 0.008 2 790 4.2 -508.333 -1.289 655.241 258402.439 1.662 3 870 4.0 -428.333 -1.489 637.788 183469.159 2.217 4 1500 3.4 201.667 -2.089 -421.282 40669.579 4.364 5 2300 2.5 1001.667 -2.989 -2993.983 1003336.779 8.934 6 5600 1.0 4301.667 -4.489 -19310.183 18504338.979 20.151 7 100 6.1 -1198.333 0.611 -732.181 1436001.979 0.373 8 20 8.2 -1278.333 2.711 -3465.561 1634135.259 7.35 9 5 14.6 -1293.333 9.111 -11783.557 1672710.249 83.01 ? - - - - -37342.667 25370400 128.069 |
86 |
 |
Доверительный интервал( уровень значимости, р-уровень ) и числостепеней свободы Доверительный интервал (confidence interval) – вычисленный на основе выборки интервал значений признака, который с известной вероятностью содержит оцениваемый параметр генеральной совокупности. Доверительная вероятность (или уровень доверия, confidence level) – это вероятность того, что доверительный интервал содержит значение параметра. Доверительную вероятность принято устанавливать на уровнях 90%, 95% и 99%. Будет зависеть от выборки Число степеней свободы: k=m-2 ( где m-размер выборки) |
87 |
 |
В нашем примере r= 0,655Что это значит???? Размер выборки 9 наблюдений Степень свободы 9-2=7 Уровень значимости м.б. 90,95,99% См.Таблицу критических значений коэфф.корреляции Пирсона Сравниваем полученное значение с табличным: если оно меньше табличного ( т.е. Находится вне зоны значимости), то принимаем альтернативную (нулевую) гипотезу об отсутствии линейной зависимости параметров |
88 |
 |
Таблица критических значений коэфПирсона |
89 |
 |
Критические значения корреляции rxy Пирсона Инструкция для поискавероятности ошибки (p) для вычисленного коэффициента: Рассчитайте k (степени свободы) по формуле m–2, где m – размер выборки; Найдите в таблице строчку с соответствующим либо наиболее близким k; В найденной строке найдите значение коэффициента корреляции большее либо равное тому, которое Вы рассчитали. Таким образом, определите необходимый столбец; Значение в заглавии столбца (0,05 или 0,01) будет вероятностью ошибки; |
90 |
 |
Корреляция: коэфранговой Корреляции Спирмана (Spearman) (Rs) Непараметрический, используется когда трудно измерить параметры, но можно их проранжировать. Данные должны быть много ( би)вариантны Проранжированы Формула: D – разница между двумя значениями m – количество наблюдений Rs =1 – абс. Пол.лин кор-я; Rs = 0 – кор-ии нет Rs |
91 |
 |
Корреляция: коэфКорреляции Спирмана (Spearman) (Rs) Непараметрический, используется когда трудно измерить параметры, но можно их проранжировать. Данные должны быть много ( би)вариантны Проранжированы Формула: D – разница между двумя значениями N – количество наблюдений Rs =1 – абс. Пол.лин кор-я; Rs = 0 – кор-ии нет Rs=1- (6?D2 )/N(N2 -1) |
92 |
 |
Пример: есть ли корреляцияПроизводство и расход материалов Производство и расход материалов Производство и расход материалов Месяц Производство(шт) Расход материалов (кг) Янв 13900 290 Фев 12700 210 Март 10800 180 Апр 12200 270 Май 11800 230 Июнь 11300 140 Июль 14700 245 |
93 |
 |
ОТВЕТ ( при n = 7)Произв. Расход Разница (В квадрате) (В квадрате) 2 1 1 1 3 5 -2 4 7 6 1 1 4 2 2 4 5 4 1 1 6 7 -1 1 1 3 2 4 Всего 16 0.714286 |
94 |
 |
Задание:рассчитать коэфСпирмана для того же массива данных В таблице представлены значения признаков X и Y: |
95 |
 |
Решение:Коэффициент корреляции Спирмена: =1-(6*240)/(9*(81-1)=-1 n X Ранг, rx Y Ранг, ry Разность рангов D, rx-ry D2 1 500 4 5.4 6 -2 4 2 790 5 4.2 5 0 0 3 870 6 4.0 4 2 4 4 1500 7 3.4 3 4 16 5 2300 8 2.5 2 6 36 6 5600 9 1.0 1 8 64 7 100 3 6.1 7 -4 16 8 20 2 8.2 8 -6 36 9 5 1 14.6 9 -8 64 |
96 |
 |
Проверка значений коэфСпирмана Значение коэф.= -1 Связь существует, отклоняем нулевую гипотезу. Т.к. По коэф.Пирсона связи нет, а по Спирману есть, то Связь нелинейна |
97 |
 |
Z-значения для часто используемых доверительных интервалов и формулыдля расчетов доверит. Интервалов |
98 |
 |
Минимальный объем выборки, требуемый для получения интервальной оценкис заданной доверительной вероятностью и попадающей в интервал заданного размера: |
99 |
 |
ПРИМЕР: оценка срВозраста магистрантов. Каков д.б. Размер выборки? (оценка должна быть сделана сточностью до 1 года и с вероятностью 99%. ) Из ранее проведенного исследования известно, что стандартное отклонение возраста – 2 года. Решение. Для ? = 1 – 0,99 = 0,01 z-значение равно 2,58. Е = 1, ? = 2. Подставим в формулу и получим размер выборки равный 27 человек |
100 |
 |
А если стандартное отклонение неизвестно и размер выборки меньше 30?? Вместо нормального распределения – распределение Стьюдента ( t-распределение) Предложено в 1908г. В.Госсетом ( опубликовано под псевдонимом Стьюдента) |
101 |
 |
Основное отличиеОтличается от стандартного нормального распределения тем, что дисперсия t-распределения больше 1, распределение представляет собой семейство кривых, различающихся числом степеней свободы. Число степеней свободы t-распределения при построении доверительного интервала для среднего равно: df = n – 1. С увеличением объема выборки распределение приближается к нормальному. Для нахождения t-значений используются таблицы |
102 |
 |
Проверка значений коэфСпирмана по таблицам Стьюдента Расчет значимости коэф. По формуле: m- число наблюдений, р-значение коэф. =-1*2.646/(1--12)=? Вывод: получ. Значение превышает табличное, отклоняем нулевую гипотезу |
103 |
 |
Хи- квадрат ( Chi-squared test)Коэф. Корреляции (Пирсона) измеряет силу связи переменных Коэф. Спирмана – то же самое для упорядоченных наблюдений Но иногда данные приводятся в номинальном выражении Непараметрический метод хи-квадрат тест для определения стат. Значимости данных путем проверки случайности( их получения) (contingency) |
104 |
 |
Хи- квадрат ( Chi-squared test)Коэф. Корреляции (Пирсона) измеряет силу связи переменных Коэф. Спирмана – то же самое для упорядоченных наблюдений Но иногда данные приводятся в номинальном выражении Непараметрический метод хи-квадрат тест для определения стат. Значимости данных путем проверки случайности( их получения) (contingency) |
105 |
 |
Формула для расчетаРасчет хи-квадрат тест Х2 = сумма ((О-Е)2 \Е) Где О – фактические значения Е – ожидаемые значения |
106 |
 |
ПримерНулевая гипотеза: посещение столовой и прогулы не связаны. Проверяем Факт. Частота наблюдений (О) Посещ.столовую Не посещ. Всего Кол-во прогульщиков 20 30 50 Кол-во судентов посещ.лекции 80 50 130 Всего 100 80 180 |
107 |
 |
Расчеты:О Е (О-е)2\е 20 28 64\28=2.286 30 22 64\22=2.909 80 72 64\72=0.888 50 58 64\58=1.103 7.186 Всего Ожидаемая частота наблюдений (Е) Ожидаемая частота наблюдений (Е) Ожидаемая частота наблюдений (Е) Посещ.столовую Не посещ. Всего (100*50)\180=28 (80*50)\180=22 50 (100*130)\180=72 80*130)\180=58 130 100 80 180 |
108 |
 |
Проверка значений хи-квадрат тестаТаблицы Доверительный интервал ( например 5%-ный, т.е. наша гипотеза верна на 95%) Степень свободы: v = (r-1)(c-1), где r – кол-во строк, с – кол-во столбцов ( в нашем случае v =1) В нашем случае крит. Значение = 3.841, а мы получили значительно больше, след. Нулевая гипотеза отвергается ( т.е. Связь есть) |
109 |
 |
Расчетное задание: проверить гипотезу методом хи-квадрат тестаПринято считать, что учителя более предвзято относятся к мальчикам, чем к девочкам, Т.е. более склонны хвалить девочек. Гипотеза: гендерная составляющая влияет на оценки учеников. Проверка гипотезы: психологом были проанализированы характеристики учеников, написанные учителями, на предмет частоты встречаемости трех слов: "активный", "старательный", "дисциплинированный", синонимы слов так же подсчитывались. Данные о частоте встречаемости слов были занесены в таблицу: |
110 |
 |
Решение:Шаг 1. Построим таблицу распределения эмпирических частот, т.е. тех частот, которые мы наблюдаем: "Активный" "Старательный" "Дисциплинированный" Итого: Мальчики 10 5 6 21 Девочки 6 12 9 27 Итого: 16 17 15 s=48 |
111 |
 |
Шаг 2:Построим таблицу теоретических частот. Для этого умножим сумму по строке на сумму по столбцу и разделим получившееся число на общую сумму (s). "Активный" "Старательный" "Дисциплинированный" Итого: Мальчики (21 * 16)/48 = 7 (21 * 17)/48 = 7.44 (21 * 15)/48 = 6.56 21 Девочки (27 * 16)/48 = 9 (27 * 17)/48 = 9.56 (27 * 15)/48 = 8.44 27 Итого: 16 17 15 s=48 |
112 |
 |
Шаг 3: итоговая таблицаВ нашем случае хи-квадрат = 4,21; n = 2. По таблице критических значений критерия находим: при n = 2 и уровне ошибки 0,05 критическое значение ?2 = 5,99. Полученное значение меньше критического, а значит принимается нулевая гипотеза. Категория 1 Категория 2 Эмпирич. (Э) Теоретич. (Т) (Э - т)? / т Мальчики "Активный" 10 7 1,28 "Старательный" 5 7,74 0,8 "Дисциплинированный" 6 6,56 0,47 Девочки "Активный" 6 9 1 "Старательный" 12 9,56 0,62 "Дисциплинированный" 9 8,44 0,04 Сумма: 4,21 |
113 |
 |
Моделирование и прогнозирование ( forecasting)Анализ временных рядов Прогноз Две осн.модели: аддитивная и мультипликативная |
114 |
 |
Основные шагиПредсказываем тренд (T): простая лин. Регрессия, скользящее среднее Выделяем сезонную составляющую (S), рассчитываем сезонные индексы Выделяем циклическую составляющую и случайные колебания ( если возможно) Y\T*S = C+I |
115 |
 |
Множественная регрессия: важные понятияКоэффициент детерминации R2 (0< R2 <1, чем ближе к 1, тем лучше) Распределение Стьюдента ( или t-статистика) и распределение Фишера ( F-статистика) Автокорреляция остатков: статистика Дарбина-Уотсона (DW) |
116 |
 |
T-статистикаПоказывает значимость коэф. Регрессии Определяется по таблицам распределения Стьюдента, например: t 8;0,95 =1.860 (где 8 – степень свободы, озн., что имеется 10 наблюдений, 0,95 – доверит.интервал) Общее правило: Если t<1 ( <0.7) – не значим, вероятность наличия связи менее 70% Если 1<t<2 – более или менее Если 2<t<3 – значимая связь, вероятность 95-99% |
117 |
 |
Множественная регрессия: репрезентативность данныхN – число наблюдений m – количество объясняющих переменных n > m+1 n=m+1 – минимально необх.Число наблюдений n-m-1 – показатель степени свободы |
118 |
 |
Статистика Дарбина-УотсонаПоказывает, случайны ли отклонения от регрессионной прямой: если близок к нулю, то имеется пол.авткорреляция остатков Если DW=2 – отклонения носят случайный характер Если DW = 4 – случай отрицат автокор. ( редко) |
119 |
 |
Статистика Дарбина-Уотсона: критические значения ( при n не менее12-15 и при 1-3 переменных в уравнении регрессии) 1<DW<3 – автокорреляция остатков отсутствует и уравнение принимается 1.2 – 1.3<DW<2.7 – 2.8 – автокорреляция есть, но статистически незначима В целом: если <DW> 1.5-2.0-2.5, считается удовл. Если n растет, критич значения DW растут Если растет кол-во переменных, то значение DW уменьшается |
120 |
 |
Некоторые доппонятия Мультиколлинеарность ( только в случае множ.регрессии) – коррелированность двух и более переменных Гомоскедатичность – дисперсия отклонений вокруг среднего стабильна Гетероскедатичность выбор весов параметров вручную |
121 |
 |
Распространенные сокращенияLS метод – метод наименьших квадратов WLS – взвешенный метод наименьших квадратов ( важен для гетероскедатичных данных) МА – Moving Averages ARIMA – Autoregressive Integrated Moving Averages- комбинация авторегрессионных преобразований и скользящего среднего ( обычно в случае автокорреляции остатков) ANOVA – analysis of variation |
122 |
 |
Пример исследованийМоделирование функции спроса на квартиры Прогноз объема продаж с сезоннойсоставляющей (см. Примеры в Excel) |
«Генеральная совокупность выборка 9 класс» |
http://900igr.net/prezentacija/anglijskij-jazyk/generalnaja-sovokupnost-vyborka-9-klass-176307.html