Датажур: Идеи, форматы, источники

Занятие 1

Идеи, форматы,
источники

Идеи проектов
Большие и открытые данные
Типы и форматы данных

Алгоритм

Идея + Данные
Очистка и обработка данных
Анализ
Внешняя валидация гипотез: ищем доказательства вне данных (эксперты, медиа и т.д.), что наши выводы разумны и возможны
Визуализация
Текст
Вёрстка и публикация

Данные (data) — представление информации в формализованном виде, пригодном для передачи, интерпретации и обработки людьми или компьютерами.

Информационная иерархия:
Сигнал → Данные → Информация → Знание → Понимание

Данные — формализованный сигнал.
Информация — полученное в ходе обработки и анализа данных, понятное человеку сообщение; данные с содержательным контекстом.
Знание — осмысленная информация, позволяющая сформировать представление о предмете. Мы обладаем знанием, когда знаем, как поступить с информацией.
Понимание — возможность увидеть логическую взаимосвязь в полученном знании и применить её для понимания окружающего мира. Когда мы учитываем возможности и границы применимости знания, мы переходим на уровень понимания.
Мудрость — знание и понимание пускаются в дело: благодаря полученным инсайтам, мы решаем, как поступить лучшим образом.

Идея + Данные

От идеи к данным.

Сначала возникает идея, например:
«Я хочу написать историю о том, сколько люди зарабатывают. Может, посмотреть, как изменились доходы людей за последние 5 лет? Доходы выросли или упали?»

А затем ищем подходящий источник данных

Портал открытых данных г. Москвы — Денежный доход домашних хозяйств в среднем на одного человека
Росстат — Доходы, расходы и потребление домашних хозяйств

2. От данных к идее.
Сначала мы находим интересный датасет — например, сколько в среднем зарабатывают люди в разных регионах России.

А затем, тщательно изучая данные, мы находим инсайты и идею для статьи, например:
«Где живут самые богатые россияне: в Москве, Магадане или Мурманске?»

Ответ: вагадане — золотодобыча, рыбная ловля, энергетика.
3. Стратегия супа: соединение разных тем.

Тема 1: Фольклор
Тема 2: ДТП

Статья: «Зловещие перекрёстки: почему в местах, где, согласно фольклору, ведьмы проводят обряд инициации, ДТП случаются чаще всего?»

🌻 ВАЖНО! Не стоит приступать к работе над статьёй, пока вы не убедитесь, что нужные вам данные существуют. Неважно, большие данные или малые: их должно быть достаточно.

Форматы

xlsx — табличный формат документов для Microsoft Excel
csv/ tsv — Comma-Separated Values/ Tab-Separated Values — текстовый файл, где данные разделены запятыми, табуляцией или другими символами
web table — таблицы из интернета, например, из Википедии (см. Нобелевские премии по году вручения)
pdf таблица — таблицы в пдф-файлах

Ответ: вагадане — золотодобыча, рыбная ловля, энергетика.

xml — Εxtensible Μarkup Language — данные древовидной структуры, содержат угловые скобки
json — JavaScript Object Notation — древовидная структура с парами ключ–значение и фигурными скобками
geojson — то же самое, что и json, но с геокоординатами
неструктурированные данные — всё, что нуждается в предобработке перед анализом

Можно просмотреть любой файл с помощью Блокнота.

🌻 ВАЖНО! Готовая инфографика (картинки с какими-то числами или графиками) — это НЕ данные!

CSV

Comma-separated values, Значения разделены запятой или точкой с запятой

TSV

Tab-separated values, Значения разделены табуляцией

JSON

Древовидная структура с фигурными скобочками

XML

Древовидная структура с угловыми скобочками

Большие и открытые ❤️

Большие данные — 7 Vs:

Volume — Объём — большой размер.
Variety — Разнообразие — различные типы и природа данных.
Velocity — Скорость — данные автоматически генерируются и обрабатываются с высокой скоростью.
Veracity — Достоверность — надёжность источника данных и их ценности.
Value — Ценность — эти данные стоит анализировать, они не бесполезны.
Variability — Изменяемость — связь данных и описываемой ими реальности непостоянна, так как сама реальность непостоянна. Одни и те же предметы могут по-разному записываться в данных, и наоборот: одна и та же запись может описывать разные предметы.
Visualisation — Визуализация — ключевые инсайты можно отразить на изображении.

Ответ: вагадане — золотодобыча, рыбная ловля, энергетика.
Открытые данные — общедоступные машиночитаемые данные, которые все могут скачивать и изучать.

Синтетические данные — сгенерированные компьютером данные. Они похожи на настоящие, созданы на основе моделей и алгоритмов, но при этом полностью выдуманы. Не содержат личной информации. Подходят для обучения нейросетей, но не годятся для дата-журналистских расследований.

Ваши данные — селф-трекинг, изучение собственных данных — см. Quantified Self (+ r/QuantifiedSelf) —например:

доходы и расходы;
число шагов в день.

Проекты-примеры:

"Who am I?" by Anna Snellman
Made to Measure

Возможен ли показатель, который в разных ситуациях может быть
и качественным, и количественным?
Да

Туториалы

В YouTube, загрузка с VPN. Если нет VPN, скажите, я скачаю и пришлю.

Также доступны видео на английском языке.

Нужные датасеты
Папка со всеми нужными нам датасетами

TSV — Sample tsv
CSV — Happy together
CSV — New Year’s Resolutions in 2021 and 2022 (из папки)
JSON — Countries
XML — Museums and Galleries

Как открыть CSV

Как открыть JSON

В Google-таблицы файлы json or xml можно загрузить напрямую.
1) Переформатируйте файл в CSV, например, на этих сайтах — JSON to CSV, XML to CSV.
2) Импортируйте результат в Google-таблицы как csv-файл.

Если у вас старая версия Microsoft Office (2013 и раньше), используйте ту же стратегию: переконвертируйте файл в csv, а затем импортируйте в Excel.

Иногда файлы с древовидной структурой, такие как json или xml, содержат много ошибок, и загрузить данные в табличку не получается. Скорее всего, это не ваша вина, а битый файл с ошибками структуры.
Проверьте «валидность» json-файла здесь и xml-файла здесь.

Как открыть XML

Как вытащить таблицы из PDF

Если у вас новый Office, функция встроена в Excel. Если у вас Office 2013 года и старше, скачайте Tabula и Java

Элементы интерфейса Excel на русском, английском и китайском языках

Источники данных

Обычно нужные данные можно найти, просто загуглив «тема данные» или «статистика», например environmental data, но вот несколько ключевых сайтов, где можно найти много полезных датасетов.

Открытые данные — всемирный уровень

UNData — ООН.
World Health Organization — Всемирная организация здравоохранения.
World Bank — Всемирный банк.
UNCTADStat — Конференция ООН по торговле и развитию.
UNESCO: Общая статистика и Всемирная база данных о неравенстве в образовании.
Eurostat Database — Евросоюз.
Отчёты консалтинговых компаний, например, McKinsey & Company.

Негосударственные агрегаторы данных — всемирный уровень

Dateno — поисковик по данным мира, создан российскими разработчиками.
Our World in Data.
Gapminder.
Statista.com — может понадобиться VPN — 🌻 Важно! Для просмотра некоторых данных нужна платная подписка; у таких данных будет бело-зелёный крестик в правом верхнем углу картинки. Статистика без такого крестика доступна бесплатно.
OCCRP Aleph — данные Центра по исследованию коррупции и организованной преступности, доступ с VPN, подходят для расследовательской журналистики.
Data.world.
Kaggle — можно наткнуться на необычные датасеты, например "Best Books Ever", "Reddit Dad Jokes", "Naughty or Nice List 2021", "French Second Hand Cars", "List of Colours" — посмотрите на популярные датасеты.
Аналитика поисковых трендов: Google Trends и Яндекс Вордстат.

Российские данные

Росстат — можно как скачивать статистику напрямую, так и запрашивать информацию.
DataCatalogs — каталог каталогов данных, агрегатор различных источников.
Стат ГИБДД — статистика аварийности Госавтоинспекции.
Если быть точным — данные, собранные авторами проекта о социальных проблемах в России. 🌻 Важно! Использовать с осторожностью и по возможности самостоятельно искать данные в первоисточника, используя материалы Если быть точным только как подсказку.

Московские данные

Портал открытых данных Москвы — официальные открытые данные Москвы, сгруппированные по темам.
Единое хранилище данных — официальные открытые данные Москвы, сгруппированные по ответственным ведомствам.
ПРОдвижение — немашиночитаемые, но ежедневно обновляемые данные о поездках на такси, каршеринге и арендных самокатах.
Карта ДТП — аварийность в Москве.
Компас Тинькофф — агрегированные данные о тратах москвичей по категориям.
Яндекс Геоаналитика — есть данные по портрету населения, пешеходным потокам и по автомобильному трафику. Показатели по автомобильный трафику занижены, однако лучшего в открытом доступе нет, поэтому можно ориентироваться.

Данные отдельных стран
Во многих странах есть свои сайты открытых данных. Обычно они имеют gov в домене (то есть в адресе ссылки), например, https://www.data.gov.gr/ — открытые данные Греции.

Источники вдохновения

Мой фаворит — пиксельный скроллителлинг:

Millenials Are Screwed — Huffington Post

Компьютерная лингвистика (анализ текста) как метод

Beautiful in English — Google News Lab + Visual Cinnamon — нужен VPN
Literary Constellations — Nicholas Rougeux
Why do cats and dogs...? — Nadieh Bremer + Google Trends
What Do People Ask Most About Relationships In China? — ThePaper.cn (используйте плагин Google Translate)

Линейные графики

Going gray — Reuters Graphics
How Americans Die — Bloomberg

Точки

Pompeii: 1) Visual story, 2) Landing page — Mohamad Waked
The Fallen of World War II — Neil Halloran
American DNA — MTI Senseable City Lab

Классные дата-команды

Забавный формат

Young Adults and the Future of News — Pew Research Center
The Hidden Risks of Sesame Allergies — The Pudding
Harry Potter fanfiction's favourite ships — Shirley Wu
Sugar quiz: How much sugar is in our food? — ABC

Наш разнообразный мир

How do we compare? — Lindsey Poulter
Atlas of Sustainable Development Goals 2023 — World Bank

Не знаю, какая категория, но всё же

History of Infographics — Info We Trust
Women's Pockets are Inferior — The Pudding
Поисковые запросы о потере обоняния и вспышки ковида: The New York Times, Яндекс
Traditional Chinese Color Libraries Browser — Zhejiang University
Выборы в США — РБК

Премии по дата-журналистике и визуальному искусству

Необязательно делать масштабные работы

Иногда одной картинки достаточно

Инфографика нужна не всегда

Иногда текст выигрышнее. Экспериментируйте с подачей

ИГРАТЬ

Домашнее задание

Таблица БЖУР231 — дедлайн 18 января, воскресенье, 18:00
Таблица БЖУР233 — дедлайн 20 января, вторник, 18:00
Критерии оценивания на втором листе в таблицах

Найдите людей, с которыми вы хотели бы работать в группе. Создайте группы из 2–3 человек и заполните таблицу в вашей папке с домашими заданиями по примеру ниже.

1. Ваши имена.

2. Общая тематика вашего проекта, может звучать как название научной области.

3. Конкретная формулировка темы вашего проекта.. Формулировка должна отвечать на традиционные W-вопросы.

Тема-пример: Гендерное неравенство в мировой литературе с библейских времён до наших дней
What? — Что? — Гендерное неравенство
Which scientific field? — Какая научная область? — Литература
Where? — Где? — Во всём мире (также можно выбрать конкретную страну, город и т.д.)
When? — Когда? — с библейских времён до наших дней

4. How come? — Как вы пришли к такой теме статьи? Что было первично: идея, данные — или некий микс? См. блок «Идея + Данные»

5. Цель статьи и главная гипотеза/ исследовательский вопрос:

Почему такую статью стоит написать?
Кому она нужна?
Каких результатов вы ожидаете достичь? Что вы хотите узнать в итоге?

6. Найдите 5 разных источников данных и датасетов, которые относятся к теме вашего исследования. Если хотите попрактиковаться, попробуйте найти данные в разных форматах, но это необязательно. Используйте только те форматы данных, которые мы обсуждали на занятии и которые есть в туториалах.

Ссылка на источник данных — общий домен, где найдены данные.
Пример: https://data.mos.ru/
Ссылка на датасет — ссылка на конкретный файл с данными. Может иметь разрешение .csv, .xlsx, .pdf или что-то подобное в конце URL. Если это не файл, а веб-таблица, ссылка должна вести прямиком к таблице.
Пример: https://data.mos.ru/opendata/62321?isDynamic=false

7. Объясните, почему вы выбрали конкретно эти датасеты и какие выводы вы хотите получить из их анализа, то есть что именно вы хотите узнать из этих конкретных датасетов.

🌻 Инфографика (готовая картинка) — не данные! Ищите первоисточники, ищите систематизированные пообъектные значения.

🌻 Синтетические данные (synthetic data) брать нельзя! Ищите данные с понятной, чёткой методологией и/или из источника, заслуживающего доверие.

Высшая школа экономики.
Курс «Проектный семинар "Журналистика данных"»
Сайт создан Марией Казаковой (undine_su_menulio)
Москва, Россия. 2022–2026.