Занятие 1
Знакомство с компьютерной лингвистикой
Что это такое
Сложности в работе
Примеры проектов
Что это такое
Компьютерная лингвистика работает с неструктурированными языковыми данными — текстом и звучащей речью.

Человек может прочитать текст и понять, что там написано.
Компьютер может посчитать, что написано — он «понимает» только двоичный код.
См. Китайская комната.

Язык — множество цепочек символов из некоторого алфавита. Не всех цепочек, а только тех, которые удовлетворяют некоторым правилам.

Текст — отдельно взятая цепочка, построенная по этим правилам.



Алфавит — это множество символов, которые можно использовать для построения текстов.

Естественный язык — тот, на котором говорят между собой люди.

Текст и речь — это закодированная на естественном языке информация.

Теоретическая лингвистика пытается учесть и осмыслить все особенности естественного языка.

Компьютерная лингвистика, напротив, упрощает язык, ищет в нём структуры и закономерности и использует их, чтобы сделать выводы о тексте.
Дисциплины

  • Компьютерная лингвистика — Computational linguistics — математические вычисления применяются к естественному языку.

  • Обработка естественного языка — Natural language processing (NLP) — как корректно анализировать и генерировать текст на естественном языке.


  • Языковые технологии — Language technology — программное обеспечение для работы с естественными языками.

  • Искусственный интеллект — Artificial Intelligence — другие задачи, связанные с языком, например, помощь при изучении языка, проверка грамматики или диалоги в чат-ботах.
Где встречается
1. Проверка грамматики, орфографии, пунктуации и стилистики:

2. Спам-фильтры:
  • папка «Спам» в почте.​

3. Машинный перевод:

4. Распознавание речи:
  • Dictation.io;
  • расшифровка голосовых сообщений в Telegram Premium.​

5. Чат-боты и голосовые помощники​:
  • чаты в приложениях банков​;
  • ChatGPT, DeepSeek, Claude, Grok, Perplexity, Gemini, Qwen, GigaChat, YandexGPT.

6. Информационный поиск:
  • Baidu;​
  • SEO-выдача сайтов.​

7. Оптическое распознавание символов — Optical character recognition (OCR)​:
  • перевод изображений рукописного или печатного текста в данные​;
  • распознавание текста на сканах в pdf;
  • Tabula туториал.

8. Морфологический анализ​:
  • найти в тексте все упоминания глагола «быть» во всех формах.

9. Синтаксический анализ​:
  • убрать из текста все деепричастия​.

10. Анализ тональности / сентимент-анализ​:
  • как люди относятся к пенсионной реформе​.

11. Анализ жанров.

12. Поиск плагиата.



13. Извлечение ключевых слов​:
  • нужно быстро проанализировать большой массив текстов и понять, о чём он​;
  • QuitaUp.

14. Извлечение именованных сущностей:

15. Определение предвзятой позиции в тексте:
  • отличить пророссийскую риторику от проукраинской​.

16. Фиксация и систематизация языка​:

17. Типологизация языков​ и сравнительно-сопоставительная лингвистика. Например, чем русский отличается от английского​:
  • ​флективность (словоизменение) = возможность менять форму слова в зависимости от ситуации;
  • смысловая омонимия (неоднозначность);
  • частеречная омонимия (неоднозначность);
  • порядок слов = свобода расположения слов в предложении.

18. Определение авторства​:
  • Расследование цифрового гуманитария Даниила Скоринкина о том, кто на самом деле пишет доносыавторка тысяч Z-доносов “Анна Васильевна Коробкова” — на самом деле молодой википедист-сталинист и фанат НКВД Иван Абатуров»).

19. Порталы с различными инструментами для анализа русскоязычных текстов:

20. Взаимосвязь инфоповодов и другой медиаанализ.
Важные слова
Филология — изучает культуру, выраженную в языке, и литературное творчество народов.

Лингвистика — изучает сам язык как функционирующую систему.

Фонология — как слово звучит:
  • в центре внимания — роль (функция), которую фонемы выполняют в речи как компоненты более сложных значимых единиц, морфем и слов (address);
  • фонема — звук, изображённый символом; минимальная смыслоразличительная единица языка;​
  • дифтонги считаются одной фонемой — i в write — фонемы в английском языке.

Фонетика — как мы произносим и слышим слова​.



Грамматика — изучает части речи, варианты использования глаголов (инфинитив, герундий), члены предложения, падежи.

Орфография — ​следит, чтобы речь на письме передавалась единообразно.

Морфология — как построено слово; где у него корень, а где окончание и т.д.; как получаются разные части речи.
  • Морфема — ​значимая часть слова: приставка, корень, интерфикс (о, е), суффикс, окончание.
  • Морфемный разбор слов онлайн.
  • Стемминг — усечение слова до корня: кошка → кош.
Лексика
словарный состав языка, все слова в нём
Слово — единица языка, которой что-то называют или которая служит для каких-то вспомогательных целей.

Лексема — ​«чистая» форма слова; то, каким мы видим слово в словаре:
  • чай, к чаю, за чаем — одна лексема «чай»​.

Словоформа — цепочка фонем, образующая слово:
  • чай, к чаю, за чаем — три словоформы​.

Текстоформа — слова, разбитые пробелами​:
  • в зависимости от — составное слово из трёх текстоформ​.


Парадигма — список, объединённый общим признаком​.

Морфологическая парадигма — список всех словоформ одной лексемы, которые имеют разные грамматические значения.

Лемма — каноническая, стандартизированная форма лексемы:

Токен — идентифицированная лексема; знаки препинания также идентифицируются как отдельные токены.
Что важно помнить о токенах и LLM

В LLM также происходит токенизация, однако если LLM не обучена на текстах конкретного языка, она будет неправильно дробить текст на токены при анализе промпта и генерировать текст для ответа. Поэтому в DeepSeek, например, можно увидеть фразы вроде:

  • «Просто允许йте себе наслаждаться этими моментами лёгкости»
  • «Вы ничего не теряете, только gain-ите»
  • «Теперь это аннотация, которая清晰地 отражает глубину и ценность вашего исследования»

В русскоязычном сообществе адаптацией моделей на русский язык занимаются сообщества волонтёров, например Ruadaptная комната и Vikhr models. Однако при переучивании на русский язык модели практически неизбежно что-то теряют.

Относительно понятная дискуссия практиков о русскоязычной адаптации LLM
09:17–16:12

Ключевой вывод: русскоязычная адаптация экономит время за счёт корректной токенизации
Лексическое значение слова
как понять слово
Как звуковая оболочка слова соотносится с объектом:​ чай — «пить чай», «она чай не сахарная, не расклеится»​.

Омонимы — одинаковые по написанию и звучанию, но разные по значению — чай​.

Омофоны — одинаковые по звучанию, но различные по написанию и значению — луг и лук.






Омографы — одинаковые по написанию, но различные по звучанию и значению — замок.

Омоформы — разные слова, совпадающие в отдельных грамматических формах — лечу.

Паронимы — похожи по звучанию и морфемам, но различаются по значению — вдох и вздох.
Несколько слов вместе
Синтаксис —​ как составить предложение и как правильно сочетать слова между собой.

Семиотика — что означают знаки и знаковые системы и как смысл связан с объектом:
  • что значат иконки в аэропорту​.

Семантика — что значат слова и как смысл слов связан с объектом; семиотика, применённая к языку, и раздел семиотики в целом; шире, чем лексическое значение слова.

Семантическое поле — слова со схожим смыслом:​
  • небесный, голубой, лазуревый, голубоватый, синеветь, голубизна, синева, лазурь​.

Прагматика — как адресат интерпретирует увиденные знаки; раздел семиотики​.

Синтагма — слово или группа слов, интонационно целая законченная мысль​​
  • Там, /где была раньше одинокая скала, /лежала груда обломков — три синтагмы​
  • Казнить ? нельзя ? помиловать
Словосочетание — 2 и более слов, которые связаны по смыслу и грамматически и описывают одну понятийную единицу (предмет, качество, действие)​:
  • писать сочинение;
  • красивая ящерица​.

Фразеологизмы, идиомы — устойчивое словосочетание, смысл которого не определяется значением отдельных слов в его составе​:
  • бить баклуши;
  • ни рыба ни мясо​.

Коллокации, N-граммы — словосочетания, связанные по грамматике и по смыслу, где выбор слов обусловлен сочетаемостью ключевого слова​:
  • играть роль — ключевое слово «роль»;
  • нести ерунду — ключевое слово «ерунда»;
  • глубокое потрясение — ключевое слово «потрясение»​.

Клише — высокочастотные конструкции, характерные для определенного типа текстов:​
  • «сообщает Интерфакс со ссылкой на источник в N»​.
Сложности
Главная сложность в работе с естественными языками — снятие неоднозначности.​

1. Вы работаете в Лаборатории Касперского, и ваш алгоритм банит сайты, где продаются огнеупорные трубы. Почему?​

2. В чём будет сложность с поиском по запросам «apple» и «вышка»?

3. «Эта собака была похожа на собак королевской семьи» — сколько собак?

4. В чём двойственность фраз
  • "flying planes can be dangerous";
  • «летят сорок сорок»;
  • «дети из Москвы полетели в Петербург»;
  • «мужу изменять нельзя»;
  • «мама мыла раму» VS «в ванной не было мыла»;
  • «мы подарили цветы девочкам, потому что они были красивые»?

5. Как корректно интерпретировать неологизмы?
  • slay queen, she ate and left no crumbs

6. Как токенизировать
  • what’re, I’m, isn’t,
  •  我二十四岁 — «мне 24 года»?
  • Больше статей про обработку иероглифических языков (иногда нужен VPN): раз, два, три.​​​

7. Как обработать текст, где смешаны разные письменности?
  • 我的hero! — Мой герой!
  • Τι κάνεις; — Как дела?



8. Как разделить на предложения текст?
  • ​«Масла для бензиновых и дизельных двигателей с увеличенным сервисным интервалом. Альтернатива — VW 505.01, VW 506.00, VW 506.01. Поставки от 12.02.2021»​.
  • тыс., ул., и т.д.

9. Как отличить в переписке «я не знаю ( » от «я не знаю (пока что)»; «Мы не успели на корабль( зато покатались на самокатах)» от «Мы не успели на корабль (зато покатались на самокатах)»?​

10. Мондегрины.

11. Нужно ли дробить на леммы "state-of-the-art" и «Римский-Корсаков»?

12. Как привести к единому формату сокращения США? U.S.A. USA US us

13. В чём разница по составу между предложениями:
  • Расстояние от Тулы до Москвы 186 км.
  • В отличие от Тулы, до Москвы из Новосибирска можно долететь прямым рейсом.

14. Как выдавать в поисковике нужные результаты по запросам, сформулированным разными словами?​
  • Локализация головной боли в области затылка
  • Почему болит голова сзади
  • Боль в затылке
  • Голова раскалывается
Примеры проектов
  1. Strong men, caring women — Pew Research Center​
  2. Beautiful in English — Google News Lab + Visual Cinnamon
  3. Literary Constellations — Nicholas Rougeux
  4. Why do cats and dogs...? — Nadieh Bremer + Google Trends
  5. What Do People Ask Most About Relationships In China? — ThePaper.cn (используйте браузерный плагин Google Translate)





6. Как называется это место? Исследования населённых пунктов на карте России — Исследования Яндекса
7. The Poet's Journey — Michela Lazzaroni
8. Decoding Everything Everywhere All at Once — Angelica Hom
9. Dad words — Nina Errey
10. On the same page — KTH Royal Institute of Technology
Иногда достаточно одной картинки
Работы выпускников прошлых лет
Анализ публикаций в китайском сервисе микроблогов Weibo 微博
Чжан Лэши
Майор Гром и Чумной Доктор в фанфиках
Алиса Родина и Юлия Суханова
Роботы и искусственные тела в советской научно-фантастической литературе
Вероника Заруба
Исчезающие языки России
Алексей Дивненко для ТАСС
Грамматичность не равна осмысленности
Примеры грамматически корректной нелепицы
Естественный язык в отличие от искусственного (формального) может быть понятным даже при нарушении правил.

Ноам Хомский:
  1. Furiously sleep ideas green colorless.
  2. Colorless green ideas sleep furiously.

Лев Владимирович Щерба:
Глокая куздра штеко бодланула бокра и кудрячит бокрёнка.






Льюис Кэррол в переводе Д. Г. Орловской:

«Варкалось. Хливкие шорьки
Пырялись по наве,
И хрюкотали зелюки.
Как мюмзики в мове».

Льюис Кэррол в переводе Л. Л. Яхнина:

«Червело. Ужные мрави
Кузали на снобу.
За нисом прали курави,
Склюняя пелаву».
Домашнее задание
Дедлайн: 11 сентября, четверг, 18:00
Критерии оценивания
  1. Заведите папку в общей папке домашних заданий, назовите её вашей фамилией и именем, например «Васильева Василиса».
  2. В папке заведите гугл-док, назовите его «Знакомство».
  3. В гугл-доке напишите одно слово, где побуквенный анализ привёл бы к некорректному решению задачи. Опишите эту возможную задачу и обоснуйте выбор слова.
  4. Напишите предложение, которое компьютер может интерпретировать двусмысленно. Объясните, в чём именно сложность.
  5. Найдите в интернете неологизм или любое слово, которого может не быть в словаре, заскриньте его, выделите на картинке и дайте ссылку на источник.
  6. Напишите предложение с омофонами, которое вызовет затруднения у компьютера, если ему придётся расшифровывать аудиозапись этого предложения. Обоснуйте свой выбор.
  7. Найдите дата-проект, где использовались методы компьютерной лингвистики. Вставьте ссылку в ваш документ.

Вы можете смотреть на работы ваших однокурсников.
Также вы можете приводить примеры из иностранных языков.
Пожалуйста, не повторяйтесь в ответах.
This site was made on Tilda — a website builder that helps to create a website without any code
Create a website