В LLM также происходит токенизация, однако если LLM не обучена на текстах конкретного языка, она будет неправильно дробить текст на токены при анализе промпта и генерировать текст для ответа. Поэтому в DeepSeek, например, можно увидеть фразы вроде:
В русскоязычном сообществе адаптацией моделей на русский язык занимаются сообщества волонтёров, например Ruadaptная комната и Vikhr models. Однако при переучивании на русский язык модели практически неизбежно что-то теряют.