Компьютерная лингвистика: знакомство

Занятие 1

Знакомство с компьютерной лингвистикой

Что это такое
Сложности в работе
Примеры проектов

Что это такое

Компьютерная лингвистика работает с неструктурированными языковыми данными — текстом и звучащей речью.

Человек может прочитать текст и понять, что там написано.
Компьютер может посчитать, что написано — он «понимает» только двоичный код.
См. Китайская комната.

Язык — множество цепочек символов из некоторого алфавита. Не всех цепочек, а только тех, которые удовлетворяют некоторым правилам.

Текст — отдельно взятая цепочка, построенная по этим правилам.

Алфавит — это множество символов, которые можно использовать для построения текстов.

Естественный язык — тот, на котором говорят между собой люди.

Текст и речь — это закодированная на естественном языке информация.

Теоретическая лингвистика пытается учесть и осмыслить все особенности естественного языка.

Компьютерная лингвистика, напротив, упрощает язык, ищет в нём структуры и закономерности и использует их, чтобы сделать выводы о тексте.

Дисциплины

Компьютерная лингвистика — Computational linguistics — математические вычисления применяются к естественному языку.

Обработка естественного языка — Natural language processing (NLP) — как корректно анализировать и генерировать текст на естественном языке.

Языковые технологии — Language technology — программное обеспечение для работы с естественными языками.

Искусственный интеллект — Artificial Intelligence — другие задачи, связанные с языком, например, помощь при изучении языка, проверка грамматики или диалоги в чат-ботах.

Где встречается

1. Проверка грамматики, орфографии, пунктуации и стилистики:

2. Спам-фильтры:

папка «Спам» в почте.

3. Машинный перевод:

4. Распознавание речи:

Dictation.io;
расшифровка голосовых сообщений в Telegram Premium.

5. Чат-боты и голосовые помощники:

чаты в приложениях банков;
ChatGPT, DeepSeek, Claude, Grok, Perplexity, Gemini, Qwen, GigaChat, YandexGPT.

6. Информационный поиск:

Baidu;
SEO-выдача сайтов.

7. Оптическое распознавание символов — Optical character recognition (OCR):

перевод изображений рукописного или печатного текста в данные;
распознавание текста на сканах в pdf;
Tabula — туториал.

8. Морфологический анализ:

найти в тексте все упоминания глагола «быть» во всех формах.

9. Синтаксический анализ:

убрать из текста все деепричастия.

10. Анализ тональности / сентимент-анализ:

как люди относятся к пенсионной реформе.

11. Анализ жанров.

12. Поиск плагиата.

13. Извлечение ключевых слов:

нужно быстро проанализировать большой массив текстов и понять, о чём он;
QuitaUp.

14. Извлечение именованных сущностей:

определить, про кого больше всего пишут в новостях;
Дальнее чтение литературы;
Project Gutenberg;
Voyant Tools.

15. Определение предвзятой позиции в тексте:

отличить пророссийскую риторику от проукраинской.

16. Фиксация и систематизация языка:

Национальный корпус русского языка;
МУРКО (поиск по общеупотребимым жестам);
Spread the Sign (жестовые языки);
British National Corpus.

17. Типологизация языков и сравнительно-сопоставительная лингвистика. Например, чем русский отличается от английского:

флективность (словоизменение) = возможность менять форму слова в зависимости от ситуации;
смысловая омонимия (неоднозначность);
частеречная омонимия (неоднозначность);
порядок слов = свобода расположения слов в предложении.

18. Определение авторства:

Расследование цифрового гуманитария Даниила Скоринкина о том, кто на самом деле пишет доносы («авторка тысяч Z-доносов “Анна Васильевна Коробкова” — на самом деле молодой википедист-сталинист и фанат НКВД Иван Абатуров»).

19. Порталы с различными инструментами для анализа русскоязычных текстов:

20. Взаимосвязь инфоповодов и другой медиаанализ.

Важные слова

Филология — изучает культуру, выраженную в языке, и литературное творчество народов.

Лингвистика — изучает сам язык как функционирующую систему.

Фонология — как слово звучит:

в центре внимания — роль (функция), которую фонемы выполняют в речи как компоненты более сложных значимых единиц, морфем и слов (address);
фонема — звук, изображённый символом; минимальная смыслоразличительная единица языка;
дифтонги считаются одной фонемой — i в write — фонемы в английском языке.

Фонетика — как мы произносим и слышим слова.

Грамматика — изучает части речи, варианты использования глаголов (инфинитив, герундий), члены предложения, падежи.

Орфография — следит, чтобы речь на письме передавалась единообразно.

Морфология — как построено слово; где у него корень, а где окончание и т.д.; как получаются разные части речи.

Морфема — значимая часть слова: приставка, корень, интерфикс (о, е), суффикс, окончание.
Морфемный разбор слов онлайн.
Стемминг — усечение слова до корня: кошка → кош.

Лексика

словарный состав языка, все слова в нём

Слово — единица языка, которой что-то называют или которая служит для каких-то вспомогательных целей.

Лексема — «чистая» форма слова; то, каким мы видим слово в словаре:

чай, к чаю, за чаем — одна лексема «чай».

Словоформа — цепочка фонем, образующая слово:

чай, к чаю, за чаем — три словоформы.

Текстоформа — слова, разбитые пробелами:

в зависимости от — составное слово из трёх текстоформ.

Парадигма — список, объединённый общим признаком.

Морфологическая парадигма — список всех словоформ одной лексемы, которые имеют разные грамматические значения.

Лемма — каноническая, стандартизированная форма лексемы:

Лемматизация — приведение к словарной форме слова.
Онлайн-лемматизатор Арсёнкина.

Токен — идентифицированная лексема; знаки препинания также идентифицируются как отдельные токены.

Что важно помнить о токенах и LLM

В LLM также происходит токенизация, однако если LLM не обучена на текстах конкретного языка, она будет неправильно дробить текст на токены при анализе промпта и генерировать текст для ответа. Поэтому в DeepSeek, например, можно увидеть фразы вроде:

«Просто允许йте себе наслаждаться этими моментами лёгкости»
«Вы ничего не теряете, только gain-ите»
«Теперь это аннотация, которая清晰地 отражает глубину и ценность вашего исследования»

В русскоязычном сообществе адаптацией моделей на русский язык занимаются сообщества волонтёров, например Ruadaptная комната и Vikhr models. Однако при переучивании на русский язык модели практически неизбежно что-то теряют.

Относительно понятная дискуссия практиков о русскоязычной адаптации LLM

09:17–16:12

Ключевой вывод: русскоязычная адаптация экономит время за счёт корректной токенизации

Лексическое значение слова

как понять слово

Как звуковая оболочка слова соотносится с объектом: чай — «пить чай», «она чай не сахарная, не расклеится».

Омонимы — одинаковые по написанию и звучанию, но разные по значению — чай.

Омофоны — одинаковые по звучанию, но различные по написанию и значению — луг и лук.

Омографы — одинаковые по написанию, но различные по звучанию и значению — замок.

Омоформы — разные слова, совпадающие в отдельных грамматических формах — лечу.

Паронимы — похожи по звучанию и морфемам, но различаются по значению — вдох и вздох.

Несколько слов вместе

Синтаксис — как составить предложение и как правильно сочетать слова между собой.

Семиотика — что означают знаки и знаковые системы и как смысл связан с объектом:

что значат иконки в аэропорту.

Семантика — что значат слова и как смысл слов связан с объектом; семиотика, применённая к языку, и раздел семиотики в целом; шире, чем лексическое значение слова.

Семантическое поле — слова со схожим смыслом:

небесный, голубой, лазуревый, голубоватый, синеветь, голубизна, синева, лазурь.

Прагматика — как адресат интерпретирует увиденные знаки; раздел семиотики.

Синтагма — слово или группа слов, интонационно целая законченная мысль

Там, /где была раньше одинокая скала, /лежала груда обломков — три синтагмы
Казнить ? нельзя ? помиловать

Словосочетание — 2 и более слов, которые связаны по смыслу и грамматически и описывают одну понятийную единицу (предмет, качество, действие):

писать сочинение;
красивая ящерица.

Фразеологизмы, идиомы — устойчивое словосочетание, смысл которого не определяется значением отдельных слов в его составе:

бить баклуши;
ни рыба ни мясо.

Коллокации, N-граммы — словосочетания, связанные по грамматике и по смыслу, где выбор слов обусловлен сочетаемостью ключевого слова:

играть роль — ключевое слово «роль»;
нести ерунду — ключевое слово «ерунда»;
глубокое потрясение — ключевое слово «потрясение».

Клише — высокочастотные конструкции, характерные для определенного типа текстов:

«сообщает Интерфакс со ссылкой на источник в N».

Игра: что к чему относится

Сложности

Главная сложность в работе с естественными языками — снятие неоднозначности.

1. Вы работаете в Лаборатории Касперского, и ваш алгоритм банит сайты, где продаются огнеупорные трубы. Почему?

2. В чём будет сложность с поиском по запросам «apple» и «вышка»?

3. «Эта собака была похожа на собак королевской семьи» — сколько собак?

4. В чём двойственность фраз

"flying planes can be dangerous";
«летят сорок сорок»;
«дети из Москвы полетели в Петербург»;
«мужу изменять нельзя»;
«мама мыла раму» VS «в ванной не было мыла»;
«мы подарили цветы девочкам, потому что они были красивые»?

5. Как корректно интерпретировать неологизмы?

slay queen, she ate and left no crumbs

6. Как токенизировать

what’re, I’m, isn’t,
我二十四岁 — «мне 24 года»?
Больше статей про обработку иероглифических языков (иногда нужен VPN): раз, два, три.

7. Как обработать текст, где смешаны разные письменности?

我的hero! — Мой герой!
Τι κάνεις; — Как дела?

8. Как разделить на предложения текст?

«Масла для бензиновых и дизельных двигателей с увеличенным сервисным интервалом. Альтернатива — VW 505.01, VW 506.00, VW 506.01. Поставки от 12.02.2021».
тыс., ул., и т.д.

9. Как отличить в переписке «я не знаю ( » от «я не знаю (пока что)»; «Мы не успели на корабль( зато покатались на самокатах)» от «Мы не успели на корабль (зато покатались на самокатах)»?

10. Мондегрины.

В чём подвох в песне Игоря Саруханова?
Что за песня «ёмахо ёмасо»?
Что за песня «Is this the Reebok or the Nike»?

11. Нужно ли дробить на леммы "state-of-the-art" и «Римский-Корсаков»?

12. Как привести к единому формату сокращения США? U.S.A. USA US us

13. В чём разница по составу между предложениями:

Расстояние от Тулы до Москвы 186 км.
В отличие от Тулы, до Москвы из Новосибирска можно долететь прямым рейсом.

14. Как выдавать в поисковике нужные результаты по запросам, сформулированным разными словами?

Локализация головной боли в области затылка
Почему болит голова сзади
Боль в затылке
Голова раскалывается

Примеры проектов

Strong men, caring women — Pew Research Center
Beautiful in English — Google News Lab + Visual Cinnamon
Literary Constellations — Nicholas Rougeux
Why do cats and dogs...? — Nadieh Bremer + Google Trends
What Do People Ask Most About Relationships In China? — ThePaper.cn (используйте браузерный плагин Google Translate)

6. Как называется это место? Исследования населённых пунктов на карте России — Исследования Яндекса
7. The Poet's Journey — Michela Lazzaroni
8. Decoding Everything Everywhere All at Once — Angelica Hom
9. Dad words — Nina Errey
10. On the same page — KTH Royal Institute of Technology

Иногда достаточно одной картинки

Работы выпускников прошлых лет

Анализ публикаций в китайском сервисе микроблогов Weibo 微博

Чжан Лэши

Майор Гром и Чумной Доктор в фанфиках
Алиса Родина и Юлия Суханова

Роботы и искусственные тела в советской научно-фантастической литературе

Вероника Заруба

Исчезающие языки России
Алексей Дивненко для ТАСС

Грамматичность не равна осмысленности

Примеры грамматически корректной нелепицы

Естественный язык в отличие от искусственного (формального) может быть понятным даже при нарушении правил.

Ноам Хомский:

Furiously sleep ideas green colorless.
Colorless green ideas sleep furiously.

Лев Владимирович Щерба:
Глокая куздра штеко бодланула бокра и кудрячит бокрёнка.

Льюис Кэррол в переводе Д. Г. Орловской:

«Варкалось. Хливкие шорьки
Пырялись по наве,
И хрюкотали зелюки.
Как мюмзики в мове».

Льюис Кэррол в переводе Л. Л. Яхнина:

«Червело. Ужные мрави
Кузали на снобу.
За нисом прали курави,
Склюняя пелаву».

ИГРАТЬ

Домашнее задание

Дедлайн: 11 сентября, четверг, 18:00
Критерии оценивания

Заведите папку в общей папке домашних заданий, назовите её вашей фамилией и именем, например «Васильева Василиса».
В папке заведите гугл-док, назовите его «Знакомство».
В гугл-доке напишите одно слово, где побуквенный анализ привёл бы к некорректному решению задачи. Опишите эту возможную задачу и обоснуйте выбор слова.
Напишите предложение, которое компьютер может интерпретировать двусмысленно. Объясните, в чём именно сложность.
Найдите в интернете неологизм или любое слово, которого может не быть в словаре, заскриньте его, выделите на картинке и дайте ссылку на источник.
Напишите предложение с омофонами, которое вызовет затруднения у компьютера, если ему придётся расшифровывать аудиозапись этого предложения. Обоснуйте свой выбор.
Найдите дата-проект, где использовались методы компьютерной лингвистики. Вставьте ссылку в ваш документ.

Вы можете смотреть на работы ваших однокурсников.
Также вы можете приводить примеры из иностранных языков.
Пожалуйста, не повторяйтесь в ответах.

Высшая школа экономики.
Курс «Компьютерная лингвистика»
Сайт создан Марией Казаковой (undine_su_menulio)
Москва, Россия. 2022–2025.