Концептуальное пространство

imageimage

Эта или подобная картинка, на мой взгляд, просто обязана была быть в четвёртом разделе курса "Моделирование и собранность". Лет 10 назад она стала невероятно популярная в семантическом сообществе компьютерных лингвистов, и постепенно перетекала и в другие (более крупные/широкие) семантические сообщества. А вообще далее хотел бы разобрать задание к соответствующему разделу курса.

В задании не сказано про необходимость публиковать что-то в блоге, но возможно ситуация поменяется с очередным обновлением курса, поэтому лучше уж зафиксирую, да и другим может быть полезно. Начнём с формулировки, чтобы была перед глазами.

Возьмите концепты вашей онтологии и рассортируйте:
- Те, что с плотным концептуальным пространством (все люди из данного семантического сообщества — те, кто будет пользоваться онтологией, — будут иметь в виду что-то похожее или одинаковое под этим именем). Напишите, что под этим концептом имеется в виду обычно и как происходит референция, пользуясь материалами лекции.

- Те, что с неплотным концептуальным пространством. Напишите, почему концептуальное пространство будет неплотным: что под этим концептом будут иметь в виду разные агенты/роли, будут ли они вообще из одного семантического сообщества и какие у них будут модели и варианты референции.

Под моей онтологией, как я понял, подразумевается мой результат выполнения первого задания (там онтика - простая маленькая онтология). Далее я бы пояснил за другие непростые слова/понятия в тексте задании.

Насчёт пространств (про физическое и ментальное) в разделе написано немало, а с физическим пространством большинству людей и так было понятно, но вот с ментальным пространством случился не вполне очевидный, на мой взгляд, перескок к скорее математическому пространству с координатами (кортежами чисел типа (x, y, ...). Поясню, если забыли со школы/университета Если есть координаты, то есть и начало координат (точка отсчёта с координатами (0, 0, ...)), а штука направленная из начала координат и до самой точки, обозначаемой этими координатами - это вектор, и таких векторов на картинке выше вы видите как минимум 4. На самом деле вектор не обязан выходить из начала координат, поэтому векторов на картинке 5 или 6, и они имеют координаты, вычисляемые как поэлементное вычитание координат начала из координат конца. Примерно такими векторами (точнее их координатами, кортежами чисел) и оперируют современные нейросети. Пространства эти многомерные (куда более трёх измерений), но существует методы проецирования в 3D или 2D, на работу которых для своих множеств слов можно посмотреть, например, на rusvectores.org.

Существуют разные методы кодирования слов языка (и даже словосочетаний) в вектора (точки в концептуальном пространстве), и вот один из вариантов кодирования для слов/понятий из моей онтики (визуализация t-SNE с модели НКРЯ+Wikipedia). На примере такой визуализации уже проще обсудить плотность концептуального пространства - чем гуще точки расположены, тем ближе по смыслу соответствующие этим точкам слова: видно, что ноутбук рядом с компьютером, а пуф рядом со стулом, при этом коворкинг сам по себе и далеко от предыдущих.
Можно сказать, что если про штуку с клавиатурой и экраном в семантическом сообществе удалёнщиков говорят скорее "ноутбук", а в семантическом сообществе законодателей говорят "компьютер", и те и другие имеют в виду примерно одинаковое. То есть плотность объекта "штука с клавиатурой и экраном" довольно высокая, чего вряд ли скажешь про "описание" и "онтологию". Вообще в курсе про компьютерных лингвистов говорилось немного другое, но с этим другим я (вполне себе профессиональный компьютерный лингвист) встречался примерно никогда, зато прибавлять вектор "женственности" к вектору короля и получать вектор королевы - этого и подобного было полно.

Кажется, про семантические сообщества (они же языковые сообщества) будет больше рассказано ещё далее по курсу, а я уже несколько раз (надеюсь, правильно) использовал это словосочетание, чтобы по контексту стало достаточно понятно, что это. Осталось уточнить что я свою онтику строил в первую очередь для семантического сообщества работников интеллектуальной сферы, и вот деление концептов из неё по "концептуальной плотности".

  • Плотные: рабочий стол, ноутбук, стул, пуфик
  • Неплотные: коворкинг, кофемат, оупенспейс.

С плотными вроде бы достаточно понятно, потому что в курсе разбирались почти такие же концепты. О сложностях с "неплотными" рассуждения начались уже при исходном описании онтики (про различия моей роли и роли техслужащего). Ещё в первую очередь хочется отметить, что "неплотные" концепты обозначаются англицизмами, поэтому для неанглоговорящей части семантического сообщества (по сути другого семантического сообщества) представляют трудность в понимании. Про модели референции я бы сказал, что по большей части в этом семантическом сообществе они скорее бытовые/семантические, хотя при более детальных обсуждениях прагматические модели люди скорее будут в состоянии подключить.

Итог: задание крайне странное/сложное, но как-то я вроде справился... Спасибо за внимание!

3 лайка