Занятие 3
Анализ данных
Вычисления
Основы статистики
Базовый анализ
Анализ данных
После того, как вы собрали и очистили данные, настало время третьего этапа — анализа данных.

Хотя это может звучать сложно и зловеще, на деле многие проекты реализуются на основе базового статистического анализа и простейших математических операций.

Основные правила написания формул в Excel вы можете увидеть в соседней колонке →.

В питоне всё не так!
  • равно в условиях ==
  • не равно != или is not
  • и — & либо and
  • или — | либо or



Общие положения по работе в Excel:
  • формулы начинаем вводить со знака =
  • для закрытия ячейки жмём Enter
  • чтобы протянуть формулу, тянем за пимпку в правом нижнем углу или дважды кликаем по ней
  • чтобы закрепить диапазон, добавляем доллары перед буквой и цифрой в начале и конце диапазона: $A$1:$D$12
  • равно =​
  • меньше <
  • больше >
  • не равно <>
  • не такой-то формат =....(..)=ЛОЖЬ​​ — формулы ЕТЕКСТ, ЕЧИСЛО, ЕПУСТО и т.д.​
  • число без кавычек 2023
  • текст в кавычках "2023"
  • условие «и» — это формула (условие_1;условие_2)
  • условие «или» — это формула =ИЛИ(условие_1;условие_2)
  • число в скобках () считывается экселем как отрицательное значение, то есть (60) = -60
Не тот разделитель
Если в данных не тот разделитель целого и дробных значений (точка вместо запятой, запятая как разделитель разрядов), есть два пути.
Первый способ — через «Найти и заменить»:
  • Заменить запятые (разделители разрядов) на ничего.
  • Заменить точки на запятые.




Второй способ — через изменение локали:​
  • В Google Таблицах: Файл → Настройки → Региональные настройки → Поменять страну.​
  • В Excel: Файл → Параметры → Дополнительно → Отщёлкнуть Использовать системные разделители → Заменить запятую на точку и пустоту на запятую.
КЛЮЧЕВАЯ МЫСЛЬ
Ваши действия происходят из вопросов,
которые вы задаёте данным
Статистический анализ
Вопрос №1: Как много значений у меня есть в целом?
  • =СЧЁТ(диапазон_значений) — считает только числовые значения в диапазоне
  • =СЧЁТЗ(диапазон_значений) — считает все значения в диапазоне
  • =СЧЁТЕСЛИ(диапазон_значений;условие) — считает значения, соответствующие заданному условию​
  • если нужно сопоставить столбец с конкретной ячейкой, в качестве условия пропишите ">"&Α1 или "<"&Α1​ , где вместо А1 номер нужной ячейки
  • =СЧЁТЕСЛИ(диапазон_значений;"") — подсчитать пустые ячейки
  • =СЧЁТЕСЛИ(диапазон_значений;"*") — подсчитать текстовые значения в диапазоне

Вопрос №2: Каково общее значение это характеристики для всех объектов?​​​
  • =СУММ(диапазон_значений) — суммирует значения
  • =СУММЕСЛИ(диапазон_значений;условие) — суммирует значения, соответствующие заданному условию

Вопрос №3: Каково среднее значение этого параметра?​
  • =СРЗНАЧ(диапазон_значений) — вычисляет среднее арифметическое для диапазона





Вопрос №4: Какое значение находится посередине в ряду всех моих значений?
  • =МЕДИАНА(диапазон_значений) — возвращает значение, находящееся по центру отсортированного ряда.​

Вопрос №5: Какое значение встречается чаще всего?
  • =МОДА(диапазон_значений) — поиск значения, которое повторяется наибольшее число раз​

Вопрос №6: Взаимосвязаны ли значения из двух моих датасетов? Влияют ли они друг на друга?
  • ​=КОРРЕЛ​​​​(первый_диапазон;второй_диапазон) — рассчитывает коэффициент корреляции Пирсона для двух диапазонов

Вопрос №7: Каков минимум и максимум среди значений в диапазоне? ​
  • =МИН(диапазон_значений) — минимум​
  • =МАКС(диапазон_значений) — максимум

Вопрос №8: Интересно, кто среди значений «отстающие», кто — «лидеры», а кто — «середнячки»?
  • =ПЕРСЕНТИЛЬ(диапазон_значений; процент) — найти границу значений, ниже которой находится заданный процент от всех значений
  • квантиль — 0,20 или 20 %​
  • квартиль — 0,25 или 25 %
Вопрос 9:
На сколько процентов одно число больше другого?
К примеру, на сколько процентов изменился показатель текущего года относительно прошлого года?

Если вам хочется лучше понять проценты,
изучите этот сайт
(для просмотра видеоинструкций в YouTube нужен VPN)
Среднее VS Медиана
Представьте, мы измерили температуру в разных местах в нашей квартире:
  • +24 °C — в комнатах
  • +18 °C — в комнате с открытым окном
  • -18 °C — в морозилке
  • +9 °C — в основной секции холодильника
  • +180 °C — в духовке.

Если мы захотим найти среднюю температуру в квартире, нам нужно:
  1. Сложить значения.
  2. Разделить сумму на количество значений.

Таким образом, среднее арифметическое значение получится (24+18-18+9+180)/5 = 42,6 °C

Трудно поверить, что мы действительно живём при такой температуре. Значение «+180 °C» — это статистический выброс — эта цифра значительно отстоит от остальных замеров и значительно влияет на результат, при этом не привносит никакого разумного смысла.

Ответ: вагадане



Если мы хотим избежать статистических выбросов и найти «настоящее» среднее значение, мы должны рассчитать медиану.
  1. Отсортируйте значения от меньшего к большему: -18  +9  +18  +24  +180​​.
  2. Сосчитайте число значений.
  3. Если число нечётное (1, 3, 5 и т.д.), выберите значение, находящееся по центру в отсортированном ряду: -18  +9 +18 +24  +180.
  4. Здесь медианой будет +18 °C.
  5. Если же число значений чётное (2, 4, 6 и т.д.), выберите два значения по центру отсортированного ряда и рассчитайте для них среднее арифметическое: -18  +9 +18  +20   +24  +180
(18+20) / 2 = 19
Здесь медианой будет +19 °C.
ВЫЧИСЛИТЕ СРЕДНЕЕ, МОДУ И МЕДИАНУ
50 12 55 118
5 39 0 5 5
Коэффициент корреляции
Коэффициент корреляции Пирсона показывает, взаимосвязаны ли значения — синхронен ли их «поток», следуют ли они схожему паттерну. Это линейный коэффициент с диапазоном значений между -1 и +1.​

Примеры корреляций:
  • Число преступлений и число населения по регионам — 0,9
  • Стоимость жилья и пешая близость метро — 0,5

Ответ: вагадане



Сила корреляции измеряется по модулю. В идеальных условиях очень сильной считается корреляция, чьё значение по модулю превышает 0,8. В реальности подобная корреляция встречается редко, и значения около 0,5 уже показывают довольно значимую взаимосвязь между двумя переменными.
Коэффициент корреляции
обязательно нужно подтверждать
внешними доказательствами!
См. the Spurious correlations project
Статистические выбросы
на диаграмме рассеяния и гистограмме
Что такое корреляция
Корреляция не доказывает причинно-следственную связь
Спутывающие переменные, или конфаундеры, — это факторы, которые влияют и на зависимую, и на независимую переменную
Например, в регионах, где больше детей ходят в садик, выше преступность. Значит ли это, что детский сад выращивает преступников? Нет! Скорее всего, в регионе больше численность населения — а потому больше и детсадовцев, и преступников
Что такое квантили, квартили и персентили
Сводные таблицы в Excel
Сводные таблицы в Google Sheets
Как использовать ИИ-чат-боты
для анализа данных
Правило 1. Не стоит загружать огромные датасеты напрямую в чат-бот, особенно если у вас бесплатная версия.

Почему? У каждого чат-бота есть контекстное окно — максимальный объём данных, который нейросеть может обработать и учитывать за один раз. Большой датасет заполнит окно контекста, не оставив места для дальнейших манёвров.

Что делать? Лучше описывать датасет словами: название, формат, суть датасета, названия столбцов. К примеру: «Датасет в формате csv посвящён продажам бананов на рынке содержит следующие столбцы: Сорт_бананов, Вес_проданных_бананов, Цена_за_банан, Стоимость_итого».
Правило 2. Вы можете попросить чат-бот дополнить существующие данные, но нужно их перепроверять.

Пример задачи. Дано: датасет с адресами. Нужно: найти районы. Просьба к ИИ: найти для каждого адреса район, в котором он находится.

Что может пойти не так:
  • ИИ может написать случайные районы.
  • ИИ может не найти районы для отдельных адресов и оставить ячейки пустыми.
  • Контекстное окно запроса в бесплатной версии может заполниться, и не удастся обработать все нужные адреса.

Правило 3. Хорошая идея — спрашивать чат-бот о неочевидных гипотезах, потенциальных факторах влияния и возможных подводных камнях.
Кейс-пример использования ИИ-чат-бота
для анализа данных
Задача. Редакция просит проанализировать, как ноябрьская погода влияет на аварийность. Невооружённым глазом кажется, что все в ноябре все рассеяннее, чем летом. В новостях чаще мелькают аварии, которые случились из-за невнимательности водителей или пешеходов.

Сложность: абсолютное число аварий в июне больше, чем в ноябре. Получается, ощущения не подтверждаются?

DeepSeek: А что, если летом аварий больше только потому, что на улице больше транспортных средств? Машины, мотоциклы, велосипеды, самокаты... Но при этом в среднем в ДТП в июне умирают реже, чем в ноябре?

Результат: Гипотеза подтвердилась. Хотя в июне ДТП больше, чем в ноябре, умирают в них реже. Аварии в ноябре чаще приводят к летальному исходу.

Итоговый пост
Домашнее задание
БЖУР221 — дедлайн 15 февраля, воскресенье, 18:00
БЖУР222 — дедлайн 17 февраля, вторник, 18:00
Критерии оценивания
Это задание выполняется индивидуально, на его выполнение даётся две недели.

1. Создайте в папке вашего проекта новый текстовый документ под названием «Фамилия_Анализ».

2. Возьмите чистый датасет, который вы отобрали для вашего проекта.

3. Найдите следующие значения для всех важных показателей и запишите их в аналитическом документе:
  • минимум
  • максимум
  • среднее арифметическое
  • медиана

4. Исследуйте получившиеся результаты, попробуйте их интерпретировать, привнесите человеческое понимание в ваши числовые результаты.
  • Например, если гугл тренды в какой-то день достигают 100, что случилось?
  • Если значение какого-то параметра в Боливии выше, чем в Индии, с чем это связано? Какие конкретно условия в Боливии способствуют этому? А какие условия в Индии противоборствуют этому?
  • Отличаются ли среднее значение и медиана? Сильно? Значимо ли это отличие? Если да, то как оно получилось? (см. блок про статистические выбросы)
  • Можете ли вы увидеть какие-то корреляции? (опционально)
  • Посмотрите на ваши данные с исторической перспективы: с течением времени значения растут или падают? Добавьте исторического контекста, в том числе поискав его в открытых информационных источниках.
Опишите ваши находки в аналитическом документе. Формулируйте ваши записи так, чтобы их можно было скопировать и вставить в готовую статью.

5. Цитата
Найдите в открытых источниках цитату официального лица или эксперта, которая может проиллюстрировать получившиеся инсайты — например, цитату представителя ООН или директора компании. Добавьте цитату в аналитический документ, указав
  • ​имя,
  • должность спикера
  • и ссылку на источник цитаты.

Можно искать цитату на любом языке, но для документа нужно перевести её на красивый русский язык.

Найдите фотографию спикера и поместите фото рядом с цитатой. Укажите ссылку на источник фотографии.

6. Найдите подходящее растровое изображение с открытыми правами, которое можно было бы поместить в шапку статьи или вставить в качестве иллюстрации (см. Unsplash, Freepik, Wikimedia Commons etc.). У фотографии должно быть хорошее качество: минимум 1920x1080. Скачайте это изображение, загрузите в вашу папку, подписав вашей фамилией, и вставьте её в сам аналитический документ, указав ссылку на оригинальный источник изображения.

7. Обобщите ключевой инсайт вашего анализа в одном предложении в формате пуш-уведомления — до 120 символов. Напишите его в конце документа, добавив в начало предложения эмодзи молнии ⚡.

P.S. Это дз спонсировано Майли Сайрус.
This site was made on Tilda — a website builder that helps to create a website without any code
Create a website