ЗанятиЕ 8
Перевод и всякое
Перевод текстов
Распознавание текста с картинки (OCR)
Всякое
Тематическое моделирование
Тематическое моделирование позволяет автоматически сгруппировать тексты по похожим словам. При этом интерпретация, как назвать группу, остаётся за вами.

Мы будем использовать для этой задачи библиотеку BERTTopic, которая сочетает в себе модели-трансформеры и TF-IDF.





VK для разработчиков — здесь можно получить свой код для парсинга пабликов.

Блокнот для тематического моделирования.

Слово месяца — пример датасета.
Перевод текстов в питоне

!pip install -U deep-translator
from deep_translator import (GoogleTranslator,
               ChatGptTranslator,
               MicrosoftTranslator,
               PonsTranslator,
               LingueeTranslator,
               MyMemoryTranslator,
               YandexTranslator,
               PapagoTranslator,
               DeeplTranslator,
               QcriTranslator,
               single_detection,
               batch_detection)





Узнать все доступные языки
langs_dict = GoogleTranslator().get_supported_languages(as_dict=True)

Перевести
translated = GoogleTranslator (source='auto', target='ru').translate('Ich bin nur ein Mensch')

Если есть путь
path = '/content/text.txt'
translated = GoogleTranslator(source='auto', target='russian').translate_file(path)

Узнать язык
lang = single_detection ('Είσαι Ρώσος;', api_key='e2fcad9031b979734d669be045b4d6a5')
print(lang)
Перевод книги
Замените ---- на отступ.

with open('/content/Книга.txt') as f:
----file = f.read()
from tqdm import tqdm
list_of_sentences = file.split ('.')
whole_translated_text = ''
for every_sentence in tqdm(list_of_sentences):
----if len (every_sentence)>1:
--------whole_translated_text += GoogleTranslator(source='auto', target='russian').translate(every_sentence)
--------whole_translated_text += ' '
whole_translated_text
Распознавание текста с картинок (OCR)
EasyOCR
Cписок поддерживаемых языков (VPN), например:
  • ru — русский;
  • en — английский;
  • ch_sim — упрощённый китайский;
  • lez — лезгинский.

!pip install easyocr
import re
import easyocr
reader = easyocr.Reader(['ru'])
result = reader.readtext('/content/image.png', detail = 0)
This site was made on Tilda — a website builder that helps to create a website without any code
Create a website