Занятие 7
Знакомство с компьютерной лингвистикой
Что это такое
Сложности в работе
Примеры проектов
Что это такое
Компьютерная лингвистика работает с неструктурированными языковыми данными — текстом и звучащей речью.

Человек может прочитать текст и понять, что там написано.
Компьютер может посчитать, что написано — он «понимает» только двоичный код.
См. Китайская комната.

Язык — множество цепочек символов из некоторого алфавита. Не всех цепочек, а только тех, которые удовлетворяют некоторым правилам.

Текст — отдельно взятая цепочка, построенная по этим правилам.



Алфавит — это множество символов, которые можно использовать для построения текстов.

Естественный язык — тот, на котором говорят между собой люди.

Текст и речь — это закодированная на естественном языке информация.

Теоретическая лингвистика пытается учесть все особенности естественного языка.

Компьютерная лингвистика, напротив, упрощает язык, ищет в нём структуры и закономерности и использует их, чтобы сделать выводы о тексте.
Дисциплины

  • Компьютерная лингвистика — Computational linguistics — математические модели применяются к естественному языку.

  • Обработка естественного языка — Natural language processing (NLP) — как корректно анализировать и генерировать текст на естественном языке; дисциплина на стыке лингвистики и искусственного интеллекта.


  • Языковые технологии — Language technology — программное обеспечение для работы с естественными языками.

  • Искусственный интеллект — Artificial Intelligence — другие задачи, связанные с языком, например, помощь при изучении языка или проверка грамматики.
Где встречается
1. Проверка грамматики, орфографии, пунктуации и стилистики:

2. Спам-фильтры:
  • папка «Спам» в почте.​

3. Машинный перевод:

4. Распознавание речи:
  • Dictation.io;
  • расшифровка голосовых сообщений в Telegram Premium.​

5. Чат-боты и голосовые помощники​:
  • чаты в приложениях банков​;
  • ChatGPT, DeepSeek, Claude, Grok, Perplexity, Gemini, Qwen, GigaChat, YandexGPT.

6. Информационный поиск:
  • Baidu;​
  • SEO-выдача сайтов.​

7. Оптическое распознавание символов — Optical character recognition (OCR)​:
  • перевод изображений рукописного или печатного текста в данные​;
  • распознавание текста на сканах в pdf;
  • Tabula туториал.

8. Морфологический анализ​:
  • найти в тексте все упоминания глагола «быть» во всех формах.

9. Синтаксический анализ​:
  • убрать из текста все деепричастия​.

10. Анализ тональности / сентимент-анализ​:
  • как люди относятся к пенсионной реформе​.

11. Анализ жанров.

12. Поиск плагиата.



13. Извлечение ключевых слов​:
  • нужно быстро проанализировать большой массив текстов и понять, о чём он​;
  • QuitaUp.

14. Извлечение именованных сущностей:

15. Определение предвзятой позиции в тексте:
  • отличить пророссийскую риторику от проукраинской​.

16. Фиксация и систематизация языка​:

17. Типологизация языков​ и сравнительно-сопоставительная лингвистика. Например, чем русский отличается от английского​:
  • ​флективность (словоизменение) = возможность менять форму слова в зависимости от ситуации;
  • смысловая омонимия (неоднозначность);
  • частеречная омонимия (неоднозначность);
  • порядок слов = свобода расположения слов в предложении.

18. Определение авторства​:
  • Расследование цифрового гуманитария Даниила Скоринкина о том, кто на самом деле пишет доносыавторка тысяч Z-доносов “Анна Васильевна Коробкова” — на самом деле молодой википедист-сталинист и фанат НКВД Иван Абатуров»).

19. Порталы с различными инструментами для анализа русскоязычных текстов:

20. Взаимосвязь инфоповодов и другой медиаанализ.
Типичное фишинговое письмо старого образца
Важные слова
Филология — изучает культуру, выраженную в языке, и литературное творчество народов.

Лингвистика — изучает сам язык как функционирующую систему.

Фонология — как слово звучит:
  • в центре внимания — роль (функция), которую фонемы выполняют в речи как компоненты более сложных значимых единиц, морфем и слов (address);
  • фонема — звук, изображённый символом; минимальная смыслоразличительная единица языка;​
  • дифтонги считаются одной фонемой — i в write — фонемы в английском языке.

Фонетика — как мы произносим и слышим слова​.



Грамматика — изучает части речи, варианты использования глаголов (инфинитив, герундий), члены предложения, падежи.

Орфография — ​следит, чтобы речь на письме передавалась единообразно.

Морфология — как построено слово; где у него корень, а где окончание и т.д.; как получаются разные части речи.
  • Морфема — ​значимая часть слова: приставка, корень, интерфикс (о, е), суффикс, окончание.
  • Морфемный разбор слов онлайн.
  • Стемминг — усечение слова до корня: кошка → кош.
Лексика
словарный состав языка, все слова в нём
Слово — единица языка, которой что-то называют или которая служит для каких-то вспомогательных целей.

Лексема — ​«чистая» форма слова; то, каким мы видим слово в словаре:
  • чай, к чаю, за чаем — одна лексема «чай»​.

Словоформа — цепочка фонем, образующая слово:
  • чай, к чаю, за чаем — три словоформы​.

Текстоформа — слова, разбитые пробелами​:
  • в зависимости от — составное слово из трёх текстоформ​.


Парадигма — список, объединённый общим признаком​.

Морфологическая парадигма — список всех словоформ одной лексемы, которые имеют разные грамматические значения.

Лемма — каноническая, стандартизированная форма лексемы:

Токен — идентифицированная лексема; знаки препинания также идентифицируются как отдельные токены.
Что важно помнить о токенах и LLM

В LLM также происходит токенизация, однако если LLM не обучена на текстах конкретного языка, она будет неправильно дробить текст на токены при анализе промпта и генерировать текст для ответа. Поэтому в DeepSeek, например, можно увидеть фразы вроде:

  • «Просто允许йте себе наслаждаться этими моментами лёгкости»
  • «Вы ничего не теряете, только gain-ите»
  • «Теперь это аннотация, которая清晰地 отражает глубину и ценность вашего исследования»

В русскоязычном сообществе адаптацией моделей на русский язык занимаются сообщества волонтёров, например Ruadaptная комната и Vikhr models. Однако при переучивании на русский язык модели практически неизбежно что-то теряют.

Относительно понятная дискуссия практиков о русскоязычной адаптации LLM
09:17–16:12

Ключевой вывод: русскоязычная адаптация экономит время за счёт корректной токенизации
Лексическое значение слова
как понять слово
Как звуковая оболочка слова соотносится с объектом:​ чай — «пить чай», «она чай не сахарная, не расклеится»​.

Омонимы — одинаковые по написанию и звучанию, но разные по значению — чай​.

Омофоны — одинаковые по звучанию, но различные по написанию и значению — луг и лук.






Омографы — одинаковые по написанию, но различные по звучанию и значению — замок.

Омоформы — разные слова, совпадающие в отдельных грамматических формах — лечу.

Паронимы — похожи по звучанию и морфемам, но различаются по значению — вдох и вздох.
Несколько слов вместе
Синтаксис —​ как составить предложение и как правильно сочетать слова между собой.

Семиотика — что означают знаки и знаковые системы и как смысл связан с объектом:
  • что значат иконки в аэропорту​.

Семантика — что значат слова и как смысл слов связан с объектом; семиотика, применённая к языку, и раздел семиотики в целом; шире, чем лексическое значение слова.

Семантическое поле — слова со схожим смыслом:​
  • небесный, голубой, лазуревый, голубоватый, синеветь, голубизна, синева, лазурь​.

Прагматика — как адресат интерпретирует увиденные знаки; раздел семиотики​.

Синтагма — слово или группа слов, интонационно целая законченная мысль​​
  • Там, /где была раньше одинокая скала, /лежала груда обломков — три синтагмы​
  • Казнить ? нельзя ? помиловать
Словосочетание — 2 и более слов, которые связаны по смыслу и грамматически и описывают одну понятийную единицу (предмет, качество, действие)​:
  • писать сочинение;
  • красивая ящерица​.

Фразеологизмы, идиомы — устойчивое словосочетание, смысл которого не определяется значением отдельных слов в его составе​:
  • бить баклуши;
  • ни рыба ни мясо​.

Коллокации, N-граммы — словосочетания, связанные по грамматике и по смыслу, где выбор слов обусловлен сочетаемостью ключевого слова​:
  • играть роль — ключевое слово «роль»;
  • нести ерунду — ключевое слово «ерунда»;
  • глубокое потрясение — ключевое слово «потрясение»​.

Клише — высокочастотные конструкции, характерные для определенного типа текстов:​
  • «сообщает Интерфакс со ссылкой на источник в N»​.
Сложности
Главная сложность в работе с естественными языками — снятие неоднозначности.​

1. Вы работаете в Лаборатории Касперского, и ваш алгоритм банит сайты, где продаются огнеупорные трубы. Почему?​

2. В чём будет сложность с поиском по запросам «apple» и «вышка»?

3. «Эта собака была похожа на собак королевской семьи» — сколько собак?

4. В чём двойственность фраз
  • "flying planes can be dangerous";
  • «летят сорок сорок»;
  • «дети из Москвы полетели в Петербург»;
  • «мужу изменять нельзя»;
  • «мама мыла раму» VS «в ванной не было мыла»;
  • «мы подарили цветы девочкам, потому что они были красивые»?

5. Как корректно интерпретировать неологизмы?
  • slay queen, she ate and left no crumbs

6. Как токенизировать
  • what’re, I’m, isn’t,
  •  我二十四岁 — «мне 24 года»?
  • Больше статей про обработку иероглифических языков (иногда нужен VPN): раз, два, три.​​​

7. Как обработать текст, где смешаны разные письменности?
  • 我的hero! — Мой герой!
  • Τι κάνεις; — Как дела?



8. Как разделить на предложения текст?
  • ​«Масла для бензиновых и дизельных двигателей с увеличенным сервисным интервалом. Альтернатива — VW 505.01, VW 506.00, VW 506.01. Поставки от 12.02.2021»​.
  • тыс., ул., и т.д.

9. Как отличить в переписке «я не знаю ( » от «я не знаю (пока что)»; «Мы не успели на корабль( зато покатались на самокатах)» от «Мы не успели на корабль (зато покатались на самокатах)»?​

10. Мондегрины.

11. Нужно ли дробить на леммы "state-of-the-art" и «Римский-Корсаков»?

12. Как привести к единому формату сокращения США? U.S.A. USA US us

13. В чём разница по составу между предложениями:
  • Расстояние от Тулы до Москвы 186 км.
  • В отличие от Тулы, до Москвы из Новосибирска можно долететь прямым рейсом.

14. Как выдавать в поисковике нужные результаты по запросам, сформулированным разными словами?​
  • У годовалого ребёнка проблемы с дефекацией.
  • У малыша запор.
  • Мой годовасик тугосеря.
Примеры проектов
  1. Интерактивная карта языков Перу — Intensidad y Altura
  2. Love at first sight — HSD Hochschule Düsseldorf
  3. Strong men, caring women — Pew Research Center
  4. Literary Constellations — Nicholas Rougeux
  5. Why do cats and dogs...? — Nadieh Bremer + Google Trends
  6. What Do People Ask Most About Relationships In China? — ThePaper.cn (используйте браузерный плагин Google Translate)





7. Как называется это место? Исследования населённых пунктов на карте России — Исследования Яндекса
8. The Poet's Journey — Michela Lazzaroni
9. Decoding Everything Everywhere All at Once — Angelica Hom
10. On the same page — KTH Royal Institute of Technology
11. Not my name — Liuhuaying Yang
Иногда достаточно одной картинки

Слово года / месяца

Инфографика об «Илиаде» Гомера
Карточки ТАСС
Работы выпускников магистратуры «Журналистика данных» прошлых лет
Анализ публикаций в китайском сервисе микроблогов Weibo 微博
Чжан Лэши
Майор Гром и Чумной Доктор в фанфиках
Алиса Родина и Юлия Суханова
Роботы и искусственные тела в советской научно-фантастической литературе
Вероника Заруба
Исчезающие языки России
Алексей Дивненко для ТАСС
Выбор графика
Выбираем тип графика, отталкиваясь от цели. Что я хочу показать? Почему в этом случае картинка будет уместнее текста?

  • Все частотные слова в тексте → облако слов.
  • Частотность отдельных слов в тексте → барчарт или столбиковая.
  • Позитивные и негативные эмоции → расходящийся барчарт.
  • Распределение по тексту (дисперсия) → штрихкод.
  • Ассоциации и N-граммы → граф.
  • Соотношение MI и t-score → диаграмма рассеяния.



  • Коллокации с конкретным словом и с подробной аннотацией силы связи → схема.
  • Разница между показателями слов в двух корпусах и динамика рангов → наклонный график (slope).
  • Преобладание в коллекции одного-двух слов → пузырьковая (beeswarm).
  • Оценить эмоции, считываемые сентимент-библиотеками, по всем пяти категориям → радар.
Грамматичность не равна осмысленности
Примеры грамматически корректной нелепицы
Естественный язык в отличие от искусственного (формального) может быть понятным даже при нарушении правил.

Ноам Хомский:
  1. Furiously sleep ideas green colorless.
  2. Colorless green ideas sleep furiously.

Лев Владимирович Щерба:
Глокая куздра штеко бодланула бокра и кудрячит бокрёнка.






Льюис Кэррол в переводе Д. Г. Орловской:

«Варкалось. Хливкие шорьки
Пырялись по наве,
И хрюкотали зелюки.
Как мюмзики в мове».

Льюис Кэррол в переводе Л. Л. Яхнина:

«Червело. Ужные мрави
Кузали на снобу.
За нисом прали курави,
Склюняя пелаву».
This site was made on Tilda — a website builder that helps to create a website without any code
Create a website