Дополнительное объяснение показателейMI может показывать высокое значение для словосочетаний, которые редко встречаются в тексте — и оттого мы не можем быть уверены, что эти слова действительно можно считать коллокацией. Поэтому к этой мере стоит относиться в духе «Доверяй, но проверяй».
Представьте, что вы стоите на поле с клевером. Смотря на MI-меру, один исследователь воскликнет: «О, среди поля трёхлистного клевера мы нашли четырёхлистный — значит, четырёхлистный клевер существует!»
А второй возразит: «Ну конкретно этот клевер в ваших руках действительно существует, но может это просто единичная мутация, а не норма». То есть оба исследователя признают, что четырёхлистный клевер найден, но относятся они к нему по-разному.
T-мера позволяет посмотреть, действительно ли некое слово примагничивается к искомому слову, и учитывает частоту словосочетаний. Здесь слова, которые редко встречаются в корпусе, не получат высокого значения.
Порог значимости для обоих критериев не определён, но можно ориентироваться на минимум 2–3. Когда-то t-score вырабатывалась с отсылкой к t-критерию Стьюдента, у которого
порог значимости 1,96 по модулю. Показатели могут меняться от размеров выборки, поэтому ориентируйтесь по ситуации.
Однозначный признак коллокации — если у словосочетания хороший показатель и MI, и t-score.