Это задание индивидуальное. Очистите один из тех датасетов, который вы нашли в рамках первого домашнего задания. Один человек = один датасет, приведённый в машиночитаемый вид.
Если все ваши датасеты уже чистые, вы можете соскрейпить:
- страницу на маркетплейсе при поиске конкретного товара, как делали на занятии
- статистику YouTube-канала, как показано в туториале выше
Выбранный датасет в исходной форме должен отвечать следующим критериям:
- минимум 15 рядов, без учёта названий столбцов
- минимум 5 столбцов
1. Создайте подпапку вашей проектной группы группы в папке с домашними заданиями. Назовите её вашими фамилиями, например, Красоткина_Умкина_Фантастичков.
2. Загрузите в папку выбранный вами датасет в исходной форме, в которой вы нашли эти данные, без каких-либо изменений. Назовите файл по принципу Фамилия_Грязный_Название датасета. Например, Красоткина_Грязный_Рейтинг.xlsx.
3. Очистите датасет и загрузите его в ту же папку. Назовите файл по принципу Фамилия_Чистый_Название датасета. Например, Умкина_Чистый_Рейтинг.xlsx.
🌻 Необязательно включать все данные из оригинального датасета. Оставьте только те параметры, которые понадобятся вам при анализе.
4. Создайте текстовый документ с описанием всего, что вы сделали с исходным файлом в процессе очистки. Пример оформления:
Проблема №1: имена и годы в одном столбце, например, Фантаст Фантастичков (1920–1980)
Нарушение принципа: каждый столбец должен содержать только одну машиночитаемую характеристику (см. блок «Типы грязных данных» выше)
Алгоритм очистки:- Добавили три новых столбца справа.
- Текст по столбцам, разделитель «(»
- Текст по столбцам, разделитель «-»
- Текст по столбцам, разделитель пробел « »
- Найти и заменить, «)» на ничего
- Названия столбцов заменены на «Имя», «Фамилия», «Год рождения», «Год смерти»
Результат: в каждом столбце содержится только одна характеристика для каждого объекта, например: «Имя: Фантаст, Фамилия: Фантастичков, Год рождения: 1920, Год смерти: 1980».
___
Если в первом дз вы вместо датасета нашли инфографику, виджет или исчерпывающее текстовое описание, вы можете в рамках этого дз создать из того объекта машиночитаемый датасет. Как одну из проблем отметьте «Человекочитаемый, но не машиночитаемый формат». Иными словами, если ваши данные ещё не в табличном формате, вам нужно переконвертировать их в табличный машиночитаемый вид самостоятельно.
Если вы извлекаете таблицу из другого файла, например, из pdf или из веба, также пропишите это в текстовом документе.
Если хочется, в описательный документ можно вставлять скриншоты. В одном датасете может быть несколько проблем.
Каждый шаг должен быть зафиксирован, это очень важно. Описывайте ваши действия так, чтобы человек с улицы, повторив ваши шаги, смог прийти к тому же результату.