1. Соберите ленту новостей РБК на момент выполнения домашнего задания.
2. Сохраните её содержимое как xlsx файл и загрузите его в свою папку. Файл должен быть назван «Новости РБК от XX:XX XX.11.2024», где XX:XX — время получения новостей, а XX.11.2024 — дата выгрузки. Пример: «Новости РБК от 01:00 21.22.2024.xlsx».
В столбцах датасета должны быть порядковый номер статьи, заголовок статьи, ссылка на статью, время публикации, дата публикации, лид, полный текст и автор статьи. Всего должно получиться 30 рядов данных со свежими статьями.
3. Соберите все тексты в единую строку и предобработайте её (лемматизируйте, токенизируйте, проведите морфологический анализ, избавьтесь от стоп-слов).
4. Заполните
таблицу напротив своего имени. В отличие от занятий на парах, вносите
только значимые слова. Не нужно включать в результаты стоп-слова и леммы, частотные для русского языка в целом. Можно ориентироваться на
топ-100 или топ-200 частотных лемм. Частотность также не нужна,
напишите только слова.
5. Заведите в своей папке текстовый документ. Назовите его «Повестка дня РБК». Проанализируйте полученные результаты частотности и сделайте выводы, какие новости попадают на первую полосу издания и что можно сказать о повестке дня.
Пишите текст журналистским, качественным русским языком. Представьте, что это аналитическая заметка, которую вам нужно будет опубликовать для широкого круга читателей.
Объём — пост с картинкой в Telegram Premium (2 048 символов).
6. Оформите .ipynb-блокнот, в котором вы работали, так, чтобы даже спустя несколько лет вы смогли открыть его и понять, что нужно делать и как получить необходимый результат. Для этого можно использовать текстовые ячейки Markdown и комментарии внутри ячеек с кодом.
7. Сохраните .ipynb-блокнот, в котором вы работали, и загрузите его в вашу папку.