Базы данных
<<  Тема: «Задачи, обратные данной» Эл. база: Интегральные схемы МИС, СИС  >>
Как заставить данные говорить
Как заставить данные говорить
Как заставить данные говорить
Как заставить данные говорить
Основные этапы работы с данными
Основные этапы работы с данными
Подготовка - Формулировка вопросов
Подготовка - Формулировка вопросов
Мои вопросы:
Мои вопросы:
Выбор источника данных
Выбор источника данных
Выбор источника данных
Выбор источника данных
Сбор, изучение, очистка, допущения
Сбор, изучение, очистка, допущения
Сбор, изучение, очистка, допущения
Сбор, изучение, очистка, допущения
Сбор, изучение, очистка, допущения
Сбор, изучение, очистка, допущения
Анализ данных
Анализ данных
Демонстрация результата
Демонстрация результата
Демонстрация результата
Демонстрация результата
Демонстрация результата
Демонстрация результата
Демонстрация результата
Демонстрация результата
Демонстрация результата
Демонстрация результата
Демонстрация результата
Демонстрация результата
Демонстрация результата
Демонстрация результата
Демонстрация результата
Демонстрация результата
Демонстрация результата
Демонстрация результата
Демонстрация результата
Демонстрация результата
Демонстрация результата
Демонстрация результата
Демонстрация результата
Демонстрация результата
Демонстрация результата
Демонстрация результата

Презентация на тему: «Как заставить данные говорить». Автор: 806. Файл: «Как заставить данные говорить.pptx». Размер zip-архива: 586 КБ.

Как заставить данные говорить

содержание презентации «Как заставить данные говорить.pptx»
СлайдТекст
1 Как заставить данные говорить

Как заставить данные говорить

http://habrahabr.ru/post/241315/

2 Как заставить данные говорить

Как заставить данные говорить

Я расскажу об универсальном методе, который помогает мне делать выводы, а еще приносит огромное удовольствие в работе с информацией. Чтобы далекие от интернет-маркетинга и веб-аналитики пользователи не заскучали, для примера я взяла тему из нашей с вами повседневной реальности.

3 Основные этапы работы с данными

Основные этапы работы с данными

Работа с данными состоит из нескольких этапов, но необходимости соблюдать строгую последовательность нет: приходится то и дело возвращаться к предыдущим этапам и забегать вперед.

1. Подготовка – Формулировка вопросов. – Выбор источника. – Сбор данных. – Изучение. – Очистка данных и принятие допущений.

2. Анализ – Поиск ответов на поставленные вопросы. – Поиск закономерностей. – Поиск зависимостей.

3. Демонстрация результата – Визуализация данных. – Демонстрация решений, ответов. Поехали!

4 Подготовка - Формулировка вопросов

Подготовка - Формулировка вопросов

Данные – это ловушка для ума. Они заманивают в лес цифр и легко могут сбить с верного пути. Для того, чтобы не отклоняться от цели, задайте вопрос, на который хотите получить ответ. Сформулируйте его в свободной форме и запишите на бумаге. Пусть это будет простой вопрос «Хорошо или плохо продаёт мой сайт?» или «Куда исчезли покупатели с сайта?». Дальше разбейте общий вопрос на подвопросы и допишите их в список. Например, к вопросу о продажах на сайте будет уместен подвопрос: какие товары продаются хорошо, какие плохо. Не забудьте оставить на листе бумаги пустое место, вполне возможно, что на последующих этапах вам захочется дополнить список.

5 Мои вопросы:

Мои вопросы:

Какова внешняя политика России в последние годы? (Я предупреждала, что данные возьму из реальной жизни). Подвопросы: Какова активность России во внешней политике на протяжении последних лет? С какими странами Россия наиболее активно взаимодействует? Как изменялись предпочтения во взаимодействиях с другими странами? Меня интересуют внешнеполитические процессы после Мюнхенской конференции с февраля 2007 по сентябрь 2014. Вопросы сформулировала, теперь отправляемся на поиск источника.

6 Выбор источника данных

Выбор источника данных

Ключевое требование к источнику: составляющие его данные должны быть релевантными и однородными. Релевантные означают то, что они содержат необходимый и достаточный минимум информации для ответа на поставленные вопросы, а также близки первоисточнику. Первоисточником могут быть протоколы встреч первых лиц с датами встреч и списком участников. Второе требование к данным – это однородность. Наличие общих свойств, природа которых неизменна для всего множества объектов, – обязательное условие. Другими словами, данные должны быть качественно однородными по своему составу. Не корректно сравнивать и складывать метрики из Яндекс.Метрики и Google Analytics, так как способы их обработки могут быть разными. Хотя я довольно часто наблюдаю обратную картину.

7 Выбор источника данных

Выбор источника данных

За источник данных я взяла официальные сообщения о значимых внешнеполитических мероприятиях с участием России с сайта kremlin.ru. Несмотря на то, что официальные пресс-релизы не являются первичными источниками, мы можем их использовать в работе. 1) Данные из архива в разделе Внешняя политика 2) Новости по тегу «внешняя политика» (с 08.05.2008 по 14.10.2014) Забегу вперёд и скажу, что мне придётся отказаться от использования первого источника. C сентября 2009 года архив перестал пополняться новостями, к тому же в первом и во втором случаях использовались разные принципы описания новостей. После того, как мы определились с источником, приступаем к самой сложной и важной части работ: сбору данных.

8 Сбор, изучение, очистка, допущения

Сбор, изучение, очистка, допущения

Я попросила программиста спарсить разделы сайта в таблицу CSV, чтобы в дальнейшем было удобно работать с записями в Excel. Вы же вольны выбирать любые удобные для вас средства анализа данных. В моём примере записью в строке является уникальная публикация на тему внешнеполитических мероприятий. В Excel она выглядит как запись в строке с атрибутами: дата события, тип события, участник/участники события. Парсинг двух разделов дался нам нелегко: сайт отдавал ошибку 402 Payment Required, 6 объектов куда-то потерялись, около 3 500 записей оказались в нашем распоряжении. Если потерю в 0,18% данных можно допустить, то факт, что на руках две таблицы из разных источников и с разными атрибутами, игнорировать было нельзя. При их объединении принцип однородности данных был бы нарушен, поэтому мне пришлось дополнительно сравнивать пересекающиеся периоды из обоих источников, и в конце концов я решила убрать первый источник. В конце концов мы получили 3326 записей о событиях за период с 08.05.2008 по 14.10.2014.

9 Сбор, изучение, очистка, допущения

Сбор, изучение, очистка, допущения

Теперь полученные данные необходимо изучить. Excel располагает простыми и удобными инструментами: группировками, фильтрами, сортировками, сводными таблицами, которых вполне достаточно для большинства задач. Я с интересом просмотрела содержание ячеек и обратила внимание на повторяющиеся названия мероприятий в заголовках новостей. С завидным постоянством встречались публикации о встречах, телефонных переговорах, подписании документов, церемониях. К записям напросился новый атрибут «тип события», я создала ещё один столбец и заполнила его соответствующими значениями.

10 Сбор, изучение, очистка, допущения

Сбор, изучение, очистка, допущения

Важно отметить, что не все события трактовались однозначно. Например, сообщение о начале встречи и сообщение о переговорах на встрече я отнесла к одному типу мероприятия «Встреча», а значит об одном мероприятии в нашей базе могло быть несколько записей. Принятые допущения были зафиксированы и применены ко всем данным. Исследуемый период с 08.05.2008 по 14.10.2014 захватывает президентства В.В. Путина и Д.А. Медведева. Этот этап работ оказался самым продолжительным и ответственным. Я не один раз прогоняла данные через фильтры, группировала записи, проверяла корректность значений, типов данных, в итоге добилась необходимой однородности и корректности.

11 Анализ данных

Анализ данных

Сразу после подготовки данных важно сделать перерыв и вернуться в начало – к вопросам, которые мы сформулировали. Возврат в начало становится наилучшим способом не упустить важное. На этапе анализа важно избегать предвзятости. Приступать к исследованию с желанием доказать готовую гипотезу можно, но не стоит забывать о возможном существовании альтернатив. Еще одно предостережение касается поиска зависимостей и закономерностей. Нам очень хочется узнать, как одно значение влияет на другое, потому что в нашем обыденном представлении причина и следствие ходят парой. Даже когда мы видим на графике две похожие по форме кривые, которые отражают разные признаки одного явления, между ними может не быть никакой взаимосвязи. Любые выводы о наличии корреляционной зависимости между значениями всегда носят вероятностный характер. А теперь приступим к нашим ответам на вопросы о внешней политике.

12 Демонстрация результата

Демонстрация результата

Какова активность России во внешней политике на протяжении последних лет.

13 Демонстрация результата

Демонстрация результата

Каков список стран, с которыми Россия взаимодействовала чаще всех. Я составила список топ-5 стран, о которых накоплено максимальное количество сообщений за исследуемый период. Будем держать прицел на ключевых участниках международных отношений. Если вдруг кто-то исчезнет из выборки на последующих этапах – это послужит сигналом проверить данные ещё раз или задать новый вопрос.

14 Демонстрация результата

Демонстрация результата

Какие самые популярные типы событий упоминались в новостях и есть ли какие-то особенности или изменения на протяжении всего периода.

Количество пресс-релизов о встречах в 2010 году максимальное. В 2014 году заметно резкое увеличение количества сообщений о состоявшихся телефонных переговорах. Российские политики стали больше разговаривать и меньше встречаться. Оперативные и срочные задачи требуют меньше церемоний.

15 Демонстрация результата

Демонстрация результата

Построим график количества сообщений по странами с учётом многосторонних телефонных переговоров.

Заметно увеличение телефонных разговоров с Германией, Францией и США.

16 Демонстрация результата

Демонстрация результата

Что же со встречами? Возьмем лидирующие по встречам страны и посмотрим на общую картину.

График не самый показательный, но из таблицы с данными видно, что на 14.10.2014 нет ни одного сообщения о встречах России с США и Израилем.

17 Демонстрация результата

Демонстрация результата

Интересен характер взаимодействий России с конкретными странами. Продолжим рассматривать два ключевых мероприятия: встречи и телефонные разговоры по странам.

Наш восточный сосед не любит болтовню по телефону

18 Демонстрация результата

Демонстрация результата

Телефонные звонки за текущий год побили все рекорды.

19 Демонстрация результата

Демонстрация результата

Уже конец года и никаких встреч.

20 Демонстрация результата

Демонстрация результата

Скачкообразные изменения.

21 Демонстрация результата

Демонстрация результата

В 2009-ом году полный штиль. Отсутствие сообщений, вероятно, связано с газовым конфликтом между Россией и Украиной в 2008-2009.

22 Демонстрация результата

Демонстрация результата

Встречи между политиками бывают двусторонними и многосторонними. Интересно взглянуть на то, с какими странами Россия встречается чаще на двусторонних переговорах, с какими на многосторонних. Для этого я дополнила данные ещё одним атрибутом: коэффициентом, равным отношению общего количества встреч к количеству двусторонних. Те страны, которые окажутся ниже среднего, по большей части ведут переговоры на двусторонних встречах; те, что выше среднего, участвуют активно в многосторонних.

23 Демонстрация результата

Демонстрация результата

Нет ничего удивительного в том, что страны СНГ оказались ближе к точке пересечения и выше среднего – они принимают участие в совместных форумах и саммитах. Но вот что в их компании забыла Франция? Я сделала сводную таблицу по всем мероприятий с участием Франции за весь период, и оказалось, что Франция была третьей стороной в переговорах по разрешению Грузино-южноосетинского конфликта 2008 года.

24 Демонстрация результата

Демонстрация результата

Конечно, можно ещё массу интересных вещей вытащить из этих данных, но ответы на вопросы я получила, значит, цель достигнута. Даже больше: теперь у меня всегда под рукой информация для более глубокого понимания текущей ситуации во внешней политике. Как видите, если перестать коллекционировать цифры и начать задавать конкретные вопросы, данные отвечают на языке полезных и интересных выводов. Напоследок расскажу мою любимую историю о первом месте работы Авинаша Кошика. Будущий мировой эксперт в области веб-аналитики пришёл в компанию, где были настроены 200 отчётов. Через месяц после своего прихода Авинаш Кошик отключил их все. Прошло две недели, а пропажи так никто и не заметил. upd. Обещанные файлы 1. Исходник 2. Обработка пароль на открытие: habr2014

«Как заставить данные говорить»
http://900igr.net/prezentacija/informatika/kak-zastavit-dannye-govorit-159083.html
cсылка на страницу

Базы данных

19 презентаций о базах данных
Урок

Информатика

130 тем
Слайды
900igr.net > Презентации по информатике > Базы данных > Как заставить данные говорить