Часть 1: непосредственно работа с данными1. Возьмите аудиотекст длительностью от 1 до 5 минут. Это может быть что угодно: отрывок подкаста, аудиокниги, аудио из видео, аудиогид, ваше голосовое сообщение. Много подходящих аудиогидов можно найти на портале
https://izi.travel/ru2. Расшифруйте текст с помощью любой из библиотек, которые мы рассматривали на занятии. При желании попробуйте несколько библиотек.
3. Определите тональность текста с помощью любой из библиотек, которые мы рассматривали на занятии.
4. Своими человеческими руками отредактируйте получившийся текст, исправив все ошибки. Сохраните результат как строку.
5. Подсчитайте частотность совместной встречаемости слов в отредактированном тексте, чтобы сделать граф.
6. Составьте граф слов в Cytoscape. Можете настроить дизайн графа (порог частотности, цвет вершин и рёбер, положение кластеров и т.д.) по своему усмотрению.
Чем больше Degree у слова, тем больше размер Node (слова): параметры Size и Label Font Size.
Чем больше weight (частота совместной встречаемости) у связи между словами, тем шире ребро графа (Edge): параметры Width и по желанию Transparency.
7. Выгрузите граф как картинку и оформите в готовую карточку-инфографику. Как в предыдущем задании: добавьте заголовок, источник, ваше имя и год.
_________
Часть 2: описание результатов8. Заведите в своей папке документ «Работа с аудио».
9. Вставьте в него ссылку на источник аудио. Если это ваше личное аудио, так и напишите: «Взято из личного архива».
10. Вставьте расшифрованный текст.
11. Выделите красным цветом места с ошибками.
12. Оцените качество расшифрованного текста: всё ли распознано корректно? Какие допущены ошибки и почему? Если вы пробовали несколько библиотек, напишите, какая из них справилась лучше.
13. Вставьте отредактированную версию текста.
14. Напишите, какая у текста тональность по версии библиотек. Расскажите, согласны ли вы с этой оценкой и почему.
15. Вставьте инфографику с получившимся графом именованных сущностей.