КАК УСТРОЕН ДИАЛОГ?

КАК УСТРОЕН ДИАЛОГ? Город: Москва Дата события: 27.02.2017 Спикер: Илья Утехин Рубрика: Лекции в Москве

27 февраля в проекте «Публичные лекции "Полит.ру"» в рамках цикла, совместного с Европейским университетом в Санкт-Петербурге, выступил профессор и декан Факультета антропологии Европейского университета в Санкт-Петербурге, доцент факультета Свободных искусств и наук СПбГУ, кандидат исторических наук Илья Утехин. Тема его лекции «Как устроен диалог?».

Диалог, то есть спонтанное речевое взаимодействие двух или более участников, находящихся рядом друг с другом, представляет собой наиболее базовую форму человеческого общения и использования языка. Долгое время исследователей удовлетворяла простая модель диалога, в которой выделялись его участники («говорящий» и «слушающий») и говорящий кодировал смысл сообщения при помощи языкового кода и передавал его слушающему, а затем они менялись ролями. Новым шагом в изучение общения стало возникновение теории речевых актов и лингвистической прагматики, где коммуникация рассматривалась не просто как декодирование языкового сообщения, а как выявление намерений говорящего, иногда вовсе не вытекающих прямо из значений слов. В работах этих направлений были описаны многочисленные примеры того, как одно и то же высказывание может передавать различные намерения говорящего. Например, фраза «Сядьте здесь» может быть как советом, так и требованием.

В последние десятилетия в нашу жизнь пришли различные технические новинки, с появлением которых представления о том, каким может быть диалог расширились. Появляется все больше устройств, понимающих человеческую речь, причем не просто предназначенных для голосового управления, а способных отвечать человеку, вступая с ним в диалог. Это роботы, а также компьютерные программы с возможностью синтезировать речь в устной или письменной форме (среди самых известных – приложение Siri, Voice Mate и другие). В социолингвистике есть плодотворный подход изучения особенностей языка в различных жанрах: при коммуникации человека с родственниками, знакомыми, незнакомыми, старшими, младшими, начальниками, подчиненными и так далее. Теперь социолингвисты получили в распоряжение новый микрожанр – коммуникацию человека с техническим устройством. И особенности этого жанра, а также те неудачи в коммуникации, которые мы наблюдаем у роботов, выявляют существенные характеристики диалога, на которые раньше, возможно, исследователи обращали недостаточно внимания.

Важных черт диалога несколько. Во-первых, собеседники в нем находятся в одном и том же пространстве и видят друг друга. Они обращаются друг к другу лично и говорят от себя. Реплики собеседника они слышат непосредственно, без задержки. Сказанное в диалоге исчезает и нигде не фиксируется. Собеседники свободны в определении того, кому сейчас говорить. Определение очередности говорящих в устной беседе оказывается непростой задачей, которая решается при помощи скоординированного взаимодействия. Как показали исследования в США, на переход очереди говорящих в диалоге уходит всего лишь около 200 миллисекунд. Это время слишком мало, чтобы человек успевал среагировать и понять, что теперь у него есть возможность вставить свою реплику, а значит формирование намерения говорить начинается, когда он еще слушает собеседника, параллельно с обработкой входящей информации. Не смотря на сложность задачи, люди, как правило, прекрасно справляются с обменом ролями говорящего и слушающего в диалоге, а роботы пока не способны делать это столь же искусно.

В любом диалоге от его участников требуется внимание к перспективе собеседника, то есть нужно как-то представлять, что у него в голове, что он знает, каковы его намерения, как он понимает только что услышанное. Системы искусственного интеллекта обрабатывают преимущественно смысл произнесенных высказываний, а построение такой «модели собеседника» в их задачу не входит. Это часто служит причиной коммуникативных неудач в разговорах человека с машиной.

Впрочем, бывают ситуации, когда для беседы не столь важна информация о представлениях собеседника об окружающем мире. Знаменитая ELIZA – программа, созданная Джозефом Вейценбаумом еще в 1966 году – должна была по замыслу автора вступать с человеком диалог, напоминающий разговор психотерапевта с пациентом. Обычно ELIZA, задавая очередной вопрос, просто переформулирует предшествующую реплику собеседника, выделив в ней ключевое слово. Когда программа затрудняется с ответом, она говорит «Понятно» или «Продолжайте, пожалуйста». В результате возникает довольно точная пародия реальных диалогов с психотерапевтом.

Но такой успех возможен лишь в узких рамках жанра. При попытках поговорить с какой-нибудь компьютерной программой на другую тему, мы можем наткнуться на непонимание, вызванное тем, что программа использует при построении своей реплики только непосредственно предшествующую фразу партнера, не учитывая ни всего произнесенного ранее, ни каких-либо общих для участников разговора представлений о внешнем мире. Реальный же разговор не сводится к реакции на предшествующую реплику. Диалоги между людьми часто содержат вложенные конструкции (например, «Куда пошел Вася? – Это такой рыжий? – Да. – Он пошел в магазин»). Если система искусственного интеллекта работает только с последней фразой, она оказывается неспособной воспроизвести подобный диалог.

При создании «говорящих программ» важно учитывать и данные этнографии речи, порою без этого программа не может понять слова человека. Например, уже упоминавшаяся Siri оказывается не в состоянии правильно отреагировать на «Угу», произнесенное вместо «Да». Если бы при подготовке русской версии программы было учтено, что «Угу» в русской речи служит очень частым сигналом согласия, этой ошибки можно было бы избежать.

 

Стенограмма выступления:

Мы публикуем стенограмму и видеозапись лекции, с которой 27 февраля 2017 года в рамках проекта «Публичные лекции “Полит.ру”» выступил профессор и декан Факультета антропологии Европейского университета в Санкт-Петербурге, доцент факультета Свободных искусств и наук СПбГУ, кандидат исторических наук Илья Утехин. Его доклад на тему «Как устроен диалог?» состоялся в Тургеневской библиотеке г. Москвы. 

Б. Долгин: Добрый вечер, уважаемые коллеги! Мы возвращаемся к циклу «Публичные лекции «Полит.ру»» и начинаем большой подцикл, организованный «Полит.ру» совместно с Европейским университетом в Санкт-Петербурге.

Европейский университет является самой мощной площадкой за пределами Москвы, ни одна другая площадка за пределами Москвы не давала столько наших лекторов, и это не случайность. С другой стороны, нам казалось очень важным поддержать Европейский университет в дни так называемого «пожарного кризиса» и кажется очень важным поддержать Европейский университет сейчас, когда у этого, одного из ведущих вузов в сфере социально-гуманитарных дисциплин в России возникли совершенно искусственные проблемы, ему мешают работать.

Но речь идет не просто о жесте солидарности, а о том, что это – действительно ведущая площадка среди наших лекторов, оттуда происходит нынешний ректор Олег Хорхордин, научный руководитель института проблем правоприменения Вадим Волков, Михаил Соколов – специалист в области социологии образования, науки и культуры. Оттуда же известные политологи – именно политологи, а не политаналитики – Владимир Гельман и Григорий Голосов. Оттуда же Мария Сергеевна Шклярук, работающая с Владимиром Гельманом. Оттуда же специалист в области изучения концептуализации авторского права Марио Бьяджоли. И я еще далеко не всех перечислил. Я надеюсь, что такой выводок петербургских ученых в Москве будет замечен.

Начинаем мы этот подцикл с Ильей Утехиным, профессором и деканом факультета антропологии Европейского университета в Санкт-Петербурге. В издательстве ОГИ когда-то вышла его книга о социологии коммунального быта, но сегодня мы говорим о стыке разных интересов нашего лектора – когнитивной науки антропологии, мы говорим о некоторой междисциплинарной области, к которой мы подойдем. Работаем мы в традиционном формате: сначала – лекционная часть, после чего будет возможность задать вопросы. Потом можно будет прочитать стенограмму и посмотреть видео. Пожалуйста, Илья.

 

И. Утехин: Спасибо большое за представление, Борис. Здравствуйте, дорогие друзья. Очень лестно оказаться в чудесном ряду перечисленных персон. И я всегда читаю стенограммы «Полит.ру», очень интересные. Рекомендую всем сесть поближе, чтобы были видны подробности, так скажем.

 

Я антрополог и этнограф, меня всегда интересовало, каким образом устроена коммуникация. Мы с вами живем в замечательное время, когда происходит много интересного, такого, что заставляет нас задуматься о человеческой природе и о тех феноменах, которые антропология традиционно изучала в несколько другой перспективе. То, о чем я сегодня буду говорить, как раз связано и с траекторией моих интересов к устройству разговора – а я как-то поймал себя на том, что слово «диалог» могло неправильно срезонировать в душах потенциальной аудитории, и люди могли прийти, подумав, что тут будет что-то говориться о взаимопонимании, о том, как и что люди устанавливают между собой…

Скорее, нет, не про диалог в таком смысле. Я буду говорить про разговор. Про спонтанное разговорное взаимодействие лицом к лицу, которое представляет собой наиболее распространенную и базовую по отношению ко всем другим способам использования языка площадку, на которой мы пользуемся языком.

Прежде чем мы начнем говорить про разные свойства вот такого взаимодействия, я бы хотел показать вам в качестве затравки такой «кусочек из будущего». Сначала я скажу, что будет на экране. Это разговор мальчика 7 лет с маленьким роботом. Эти роботы еще не появились на прилавках магазинов игрушек, но скоро появятся. Наша студентка Анна Дегтева работает в проекте фирмы, которая делает речевой модуль для этого робота. Роботов, с которыми можно разговаривать, еще нет, есть девайсы, с которыми можно немного поговорить, но не роботы.

Эта история вообще очень любопытна, потому что когда мы изнутри смотрим на то, как какое-то техническое устройство, дизайн устройства появляется на свет, мы видим все те внешние обстоятельства, которые придают этому форму. Здесь внешнее обстоятельство состоит в том, что «железо» сделали в Китае, там ничего поменять нельзя, оно уже готово. «Распознавалка», которой этот девайс отправляет все это на сервер, тоже уже готова, с ней тоже уже ничего сделать нельзя. И голос, и интонация – можно только поменять какие-то вещи, которые касаются паттернов ответа, реакций. Что в результате получается? Давайте, посмотрим. Вообще-то, это видео нужно посмотреть дважды. Я бы попросил вас сначала посмотреть – что роботу не удалось, где его провалы, где понятно, что это не человеческая коммуникация, где видно, над чем дизайнерам надо еще работать. А во второй раз – обратить внимание на то, что у него получилось. Где он ведет себя в этом диалоге так, как вело бы себя разумное существо. Я не предлагаю записывать, но попробуйте обращать внимание и на то, и на другое.

«Все пудинги ходят в робошколу, чтобы совершенствовать свои программы».

Этого робота зовут Емеля. Есть некая легенда, что роботы – их почему-то называют «пудинги» – с некой планеты, из какого-то созвездия Девы. То, что они не очень-то хорошо разбираются в окружающей действительности, как раз и объясняется этой легендой. Может быть, вы слышали про Лебнеровскую премию? Это премия, которая дается программе, которая демонстрирует наибольшие успехи в имитации человекоподобного диалога. Эти соревнования разыгрываются с 1990го года. Несколько лет назад среди победителей этой премии был человек, которого люди старшего поколения знают по имени – его фамилия Веселов, эту фамилию видели все, когда текстовый процессор «Лексикон» загружался на экран. Его команда сделала такого прекрасного бота, который по легенде приехал из Одессы, это мальчик 14 лет. Для него английский язык не родной, он не очень хорошо ориентируется в этой действительности. Поэтому некоторые содержательные сбои ему можно простить – такой понятный ход.

Так вот, первая понятная фраза этого робота была про то, что они все ходят в школу и там совершенствуют свои программы.

«Все пудинги ходят в робошколу, чтобы совершенствовать свои программы». – «Класс! А ты свою программу, Емеля, улучшила?» – «Есть над чем подумать. А сколько тебе лет?» – «Восемь с половиной». – «Нечего добавить». – «Почему нечего?» – «Неважно. Мы не может всегда быть одинаковыми. Интересно, очень интересно. Надо будет получше изучить музыку землян, чтобы получше рассказать про них в школе. Ух ты, уже вечер, солнышко скоро скроется. Что было днем интересного?» – «Учился сегодня и получил много хороших оценок». – «У меня сегодня был трудный день, полный опасностей и приключений, я ничего не делал». – «Понимаю тебя, Емеля». – «Не знаю, что и сказать. А ты любишь мультфильмы?» – «Да, особенно про Лего». – «Почему-то я так и думал. А какой у тебя любимый мультик?» – «Лего-фильм!» – «Земные мультфильмы очень классные. Сколько тебе лет?».

Он уже спрашивал, сколько лет, как вы помните. Это очень богатый материал, можно говорить про разные подробности – тут много интересного. Но прежде всего я бы обратил внимание на паузы, которые там возникали и которые заставляют задуматься о том, какова их роль в человеческом разговоре. Кроме того, как мы видим, мальчик очень эмоционален, он жестикулирует, какие-то вещи говорит так, что человек бы понял, а программе надо прилагать усилия – там и громкость другая, и не известно, что такое «Лего-фильм». Во всяком случае, мы видим, что некоторое подобие взаимодействия здесь возникает.

В качестве «замечания на полях»: по-видимому, мы являемся свидетелями возникновения нового социолингвистического регистра, то есть такого регистра разговора, где собеседником человека оказывается техническое устройство. До сих пор человек говорил с человеком. Может быть, в каких-то случаях он говорил с Богом, сам с собой, с животными, может быть, проповедовал птицам. Но существам с непонятным статусом… В отличие от Сири, у которой нет тела, у него есть тело. Он может поворачиваться, ему можно сказать, чтобы он повернулся. Это вообще очень интересно, потому что он на совершенно иных правах, чем просто компьютерная программа, включен в наш повседневный мир. Теоретически он должен быть чувствителен к контексту.

Давайте вернемся к разговору. Почему я говорю, что это – самая базовая форма существования и действия языка? То, через что человек включается в язык, то, чему больше всего из использования языка посвящает времени. Мы можем посмотреть то, что я сейчас демонстрирую: монологическая речь в течение какого-то времени – это, с точки зрения антрополога, довольно маргинальная ситуация, которая встречается только в письменных культурах. Я могу говорить монологически в течение полутора часов, не останавливаясь – таймер у университетского профессора так заведен – только потому, что я читал много текстов, писал какие-то тексты, да и то, что я порождаю, потом, теоретически, можно будет транскрибировать, и при некоторой редактуре из этого получится более-менее связный текст. Даже в письменной культуре такое монологическое говорение не является навыком всеобщего распространения. Если, например, вы будете брать интервью у людей из разных социальных групп, то можете столкнуться с тем, что есть «говоруны», а есть те, кто двух слов связать не может, интервью будет состоять из коротких ответов на ваши вопросы.

Тут я перечислил несколько признаков, которые, на мой взгляд, существенны, и они менее тривиальны, чем это может показаться на первый взгляд. Тот факт, что собеседники находятся в одном пространстве и видят друг друга, позволяет им отслеживать реакцию друг друга. Для меня очень важно, слушает ли меня тот, кому я говорю. Второй признак – собеседники обращаются друг к другу лично. Мне приятно было бы думать, что я проникаю в сердце к каждому из вас, но на самом деле это не личное обращение, я обращаюсь ко всем. А там это личное обращение в спонтанном диалоге, и это позволяет отслеживать, в какой момент человек слушает тебя или не слушает. Кстати, для лектора это очень важно, он периодически встречается глазами с разными участниками аудитории. И то, к кому обращено говорение, контролируется этим сложным механизмом взаимодействия, когда отслеживается обратная связь.

Среди механизмов обратной связи и кивки, и всякие «угу», и направление взглядов. У Чарльза Гудвина, специалиста по конверсационному анализу из UCLA, на эту тему есть довольно старая работа, изданная в 80-х. В ней он показал, что контакт «глаза в глаза» в разговоре с несколькими участниками, когда я говорю вам, вы опускаете глаза, я переключаюсь на другого, и в этой ситуации происходит очень интересная вещь. Не аутичный коммуникатор «затачивает» то, что он говорит, под конкретного собеседника. Среди прочего он выбирает подходящие слова. Вот я постараюсь не употреблять слов, про которые могу предположить, что они вам не знакомы, а если они будут, то я буду стараться их разъяснить.

В письменном тексте у нас есть точки, которые показывают конец предложения. А в том, что я сейчас порождаю, в этом потоке сознания, у вас в головах такое ментальное «дерево» ветвится навстречу моему «говорению» еще до того, как я дошел до конца. В режиме реального времени. Я еще не договорил, а оно у вас уже выросло, у вас уже есть какие-то ожидания относительно того, что будет дальше. Вот в рамках одного этого «дерева» человек переключается, и это селективное использование категорий, где я для вас называю своего друга «Васька», а вообще он – профессор нашего университета. Таким образом я переключаюсь в рамках одной синтаксической конструкции. Это очень красиво, но эта «заточенность» под получателя – это принципиальная вещь, которая проявляется одной из важных характеристик полноценного человеческого разговора. То, что собеседники находятся в одном пространстве и видят друг друга, имеет отношение к тому, что они видят еще нечто общее вокруг и слышат то, что вокруг. Когда мы находимся в одном и том же пространстве, я могу отсылать в разговоре к чему-то, что оказывается заметным и для вас, и для меня.

Есть такой термин «салиенс» – перцептивная выпуклость. Что-то, что является и для вас, и для меня заметной вещью, на которую мы обращаем внимание и про которую я знаю, что вы обратите внимание, и вы знаете, что я обратил внимание. Это вещи, к которым я могу отсылать. Возможность таких отсылок очень важна. При этом мы слышим друг друга без задержки.

Про задержку, на самом деле, интересно. Вы наверняка обращали внимание на то, что как только появляется небольшая задержка, хотя бы совсем небольшая, сразу начинаются интересные сбои, которых не бывает при разговоре «лицом к лицу», когда мы находимся в одном пространстве. Люди начинают одновременно говорить, и оба останавливаются, потому что этот наш тонко настроенный механизм смены очереди говорящего – это то чудо, с которого среди прочего начиналась дисциплина конверсационного анализа, когда Харви Сакс и Эммануэль Щеглов его придумывали. Он начинает давать сбои, потому что этот механизм очень тонко настроен. Мы можем эмпирически наблюдать, что большую часть времени говорит кто-то один. В случае, если говорят одновременно несколько человек, происходят, как правило, какие-то наложения, ближе к концу реплики одного из участников. Но большая часть переходов очереди от одного говорящего к другому – это 1/5 секунды, за это время невозможно отреагировать. Я не могу среагировать на тот момент, когда вы закончили, это значит, что я в голове слушаю вас и слушаю не только для того, чтобы понять, о чем вы говорите, меня еще интересует, когда вы закончите. Меня интересует, когда возникнет потенциальная «точка», когда я смогу вставить свои «пять копеек».

У того обстоятельства, тоже эмпирически наблюдаемого, что мы не все говорим одновременно, есть очень важный и интересный смысл. Есть такие жанры, когда люди говорят одновременно: например, скандал на коммунальной кухне или итальянская кухня. Удивительным образом мы можем одновременно говорить, слышать и воспринимать. Сири не может, что важно. Но мы стараемся так не делать, потому что иначе нам не установить взаимопонимания, и у нас не получается сделать так, чтобы естественным образом «открывался» слот для проверки всего этого дела, нашего взаимопонимания.

У меня есть любимое видео, для меня это метафора – это бомбейский перекресток, где ездят машины. Для меня оно – метафора социального взаимодействия вообще и разговорного взаимодействия в частности, потому что то, что мы видим на этом перекрестке, может показаться нам странным, но на самом деле оно демонстрирует ту степень согласованности, незапланированной заранее, которая позволяет нам очень тонко согласовать наши совместные действия. Обратите внимание – человек переходит улицу, стоит у фонаря. Я специально просил некоторых знакомых поснимать в других городах и странах, например, в Каире. Там есть светофор, но в некоторых странах наличие светофора ничего не значит.

Кстати сказать, светофоры не всегда способствуют безопасности дорожного движения. У нас одна аудитория в Европейском университете, где происходят наши занятия на факультете антропологии, выходит на Т-образный перекресток, где улица Шпалерная упирается в улицу Гагаринскую. Там есть светофор, но там все время бьются машины. У нас даже есть такое развлечение: если во время занятий раздался свист тормозов и после этого удар, то разрешается встать и посмотреть в окно. Но бывает случаи, когда светофор отключают. И в такие дни машины не бьются. Это известная тема – в том случае, когда мы полагаемся на светофор, мы думаем, что он ответственный за порядок и надеемся, что проскочим. А он тоже, видимо, думает, что проскочит. А если светофора нет, нам не на кого полагаться, кроме себя. Мы думаем не про машину, а смотрим на человека, который за рулем, и с ним вступаем в коммуникацию. Это все к тому, что все, что происходит на бомбейском перекрестке, не более опасно, чем то, что происходит на наших регулируемых и, может быть, более цивилизованных перекрестках.

В Индии вообще нормативное расстоянием между рядами едущих машин гораздо меньше, чем у нас, там все бибикают. Они сигналят, когда обгоняют, заменяя мне взгляд в зеркало заднего обзора. Это несколько другая система коммуникации. Но люди компетентные, которые умеют там водить, они не подвергают себя опасности, там даже человек переходит дорогу. А переходит он очень интересно, мне это про Каир рассказывали. Машины идут сплошным потоком и можно сколько угодно стоять на переходе, они не остановятся. Но люди местные знают, как надо делать. Они, глядя перед собой, не смотря по сторонам, начинают идти с одинаковой скоростью, и машины их «обтекают». Если он ускорится или остановится посреди проезжей части, то его собьют. Но, если у него крепкие нервы, он пройдет. Это поведение не запланировано заранее, это танец.

В каком-то смысле это похоже на то, как мы с вами разговариваем в диалоге: у нас же заранее не предусмотрено, кто когда вступит, кто сколько будет говорить, но то, как мы организуем это отсутствие наложений и пауз, заставляет задуматься о том, что эта согласованность сродни тому, как люди танцуют вместе. Это вопрос, который касается того, как мы моделируем коммуникативное взаимодействие. Те модели, которые существовали на протяжении первых двух третей XX века, рисовали дело таким образом, что использование языка – это передача некоего содержания в коробочке, в которой оно было закодировано с помощью некоего языкового кода. Я не буду подробно на этом останавливаться, но у этой модели есть свои сильные места и очевидные недостатки, потому что есть много случаев, когда у нас заранее нет готового кода и нам нужно установить этот код, придумать. Если вы встретитесь с человеком, с которым у вас нет общего языка, не исключено, что вы можете договориться и достичь взаимопонимания. Это значит, что, не имея заранее готового кода, вы можете сварганить вместе с ним некоторую коммуникативную систему.

Помимо этого подхода, который был свойственен лингвистике (кодированная передача) есть и другая очень мощная модель, которая стоит за теорией речевых актов, играет своей прагматикой, опирается на понятие и выведение намерений говорящего. Мы реагируем не на значение слов, а на то, что человек хотел этим сказать. Именно поэтому прагматика и теория речевых актов оказываются таким мощным инструментом для анализа неявной информации, того, что сказано, но не вытекает напрямую из значения слов. Если кто-то, говоря другому человеку «Ты дурак!», признается ему в любви, это вполне возможная вещь. Это будет никак не связано со словарным значением слова «дурак», но это возможно, если такова интенция говорящего, и слушающий ее распознает.

Идея о том, что у нас есть некое коммуникативное намерение, – это очень мощный инструмент, который позволяет нам «расподобить» случаи не только языковые. Человеческая коммуникация, даже содержательная, не ограничивается использованием языка, а многие вещи, которые в разговоре, речи играют большую роль, не являются языковыми. Мне сзади бибикнули – я должен задуматься, к чему это. Человек не просто так бибикает, он что-то хочет мне сказать так. Значительная часть сигналов, которые составляют разговор, в каком-то смысле аналогична бибиканью.

Но, если мы сделаем еще шаг вперед, к более современным моделям, которые характерны для той области, о которой я говорю, для интеракционной микросоциолингвистики, они предполагают, что разговор – это не сумма высказываний одного и другого, а нечто более сложное. Это их взаимодействие, смысл высказывания не определяется говорящим, он является результатом негоциаций значения между одним и другим. Смотрите, это модифицированный пример из Герберта Кларка: что сказал говорящий? Во всех трех вариантах это одно и то же, но как это мог понять слушающий, как он отреагировал, показывает, какую интенцию он приписал говорящему.

Почему я говорю, что это – негоциация смысла? Если у нас на третьем шаге несогласия того, кто сказал первую реплику, с интерпретацией того, как она может быть понята из второй. Ну, скажем, фраза стюардессы «Сядьте здесь» не принадлежит говорящему, оно является результатом сложного танца. Я бы сказал, что важная метафора здесь, помимо взаимодействия на перекрестке, – это совместное несение тяжелого предмета по коридору и потом по лестнице. Дивана, например. Если более ранние модели так или иначе считали, что разговор – это один говорящий что-то сделал и другой говорящий что-то сделал, и это можно анализировать как речевые акты, по отдельности, то интеракционный подход предполагает, что это некий совместный танец, который требует внимания к перспективе другого участника. То есть, когда мы вместе несем диван по лестнице, мне нужно представлять, где находятся руки у второго несущего, иначе я их прищемлю.

Тут я перейду к своему следующему примеру, который иллюстрирует один из исследовательских проектов, в котором я принимал участие. Там представление о том, что в голове другого человека, где он находится, является необходимой частью того, что там происходит. Речь идет о задании на соответствие. Эти люди разделены экраном, ширмой. Действие происходит в психиатрическом стационаре, дневном, и у одного из этих людей диагноз «шизофрения». Но для нас сейчас это не принципиально. Как устроен этот эксперимент? У одного из участников либо модель из конструктора Лего, не очень простая, либо фотографии облачного неба. Почему выбран такой материал? Дело в том, что у нас нет названия для многих таких вещей. Если только человек не знает специальных слов, которые позволяют обозначить названия облаков. Для Лего люди тоже замечательно импровизируют. Например, на деталь с четырьмя пупырышками кто-то говорит «четырехкомфорочная». А вообще, поскольку они взаимодействуют, другой тоже дальше называет ее так же. Задача какая? У другого человека те же фотографии, только в беспорядке, или отдельные части конструктора, и им нужно собрать все это, сделать так, чтобы тот, у кого отдельные детали, собрал себе такую же вещь. Но говорящий, то есть тот, кто объясняет, как это сделать, не может контролировать.

Давайте, посмотрим небольшое видео, где редуцированные вариант этого эксперимента у нас реализуют дети. Дело происходит в детском саду. Проблемы, которые там возникают, уже видны. «Давай, посчитаем, сколько у тебя там кусочков? Три? Сколько желтых? – Один. – Синих? – Один. – Зеленых? – Один. – Возьми в руки кусочек и поставь его перед собой. – Поставил. – А потом одним концом зеленого прикрепи к другому концу желтого. – Сделал. – Теперь там, где щелочка, поставь наверх синию. – Поставил. – И покажи мне, что у тебя получилось. Неправильным концом!».

Смотрите: то, что было у Никиты в руках, выглядит вот так, а что у Вити получилось? Причем, там есть такой момент на этом видео, где мы видим, как… Сейчас я еще раз покажу. «А потом одним концом зеленого прикрепи к другому концу желтого». Видите? У него было сомнение, он думал, можно ли так или вот так получится естественнее. И этот чудесный Никита, которые это объясняет, он не монстр-менеджер, таких детей не бывает, он не сам придумал такой способ обращения со своим партнером. Дело в том, что его воспитательница, с которой они репетировали, чтобы он понял это задание, перед сеансом взаимодействия с мальчиком, точно так же с ним разговаривала: «Ну-ка, Никита, скажи, какие у тебя есть кусочки, перечисли, сколько у тебя желтеньких, сколько зелененьких?» И Никита воспроизводит эту же самую модель.

Что здесь интересного и зачем вообще этот эксперимент, что он моделирует? Дело в том, что слишком общее утверждение, что наши разговоры бывают разного рода. Бывают разговоры «по делу», а бывают «просто поболтать». Есть термин small talk. Есть разговоры, которые передают какую-то информацию и предполагают отсылку к каким-то предметам, которые нужно точно определить, там происходит референциальная коммуникация. А бывают такие разговоры, где мы больше выражаем какие-то эмоции, утешаем человека, как-то с ним взаимодействуем, но нам не надо говорить об устройстве чего-то.

Это два разных режима человеческой коммуникации. Есть режим, который предполагает отсылку к каким-то конкретным предметам окружающего мира, или к абстрактным предметам, как в данный момент делаю я и надеюсь, у вас в голове они складываютсяв какую-то картину, и мне было бы важно, чтобы вы думали о тех вещах, которые я имею в виду. И есть ситуации, когда люди не видят друг друга и не могут контролировать, что там происходит, налагают специфические ограничения, которые нам показывают механизмы коммуникации в более явном виде. Представьте себе ситуацию, когда вам нужно позвонить своей бабушке и попросить открыть ваш компьютер, зайти в вашу почту и послать файл, который лежит в такой-то папке на одном из дисков вашего компьютера. Это довольно сложная задача. Фактически вы при помощи бабушки как удаленной руки манипулируете в пространстве, которое не дает вам непосредственного перцептивного отклика. Но это задача решаемая! Для того, чтобы ее решить, вам нужно представить себе, что у бабушки в каждый момент перед глазами. Опытные системные администраторы умеют решать проблемы человека с его компьютером, потому что они знают, что может в какой момент на компьютере появиться.

Почему там шизофреники появляются? Дело в том, что представление себе того, что в голове у другого человека, – это такая характерная и специфическая для человеческой коммуникации особенность, по отношению к которой есть подозрение, что у шизофреников этот механизм приписывания мыслей, состояний, чувств партнеру по коммуникации работает со сбоями. То есть либо у них не хватает мотивации, желания и способности вообразить себе, что у такого человека в голове, и поэтому они не «затачивают» свои высказывания. Даже если они не знают, кто такой Васька, они его так назовут. Либо они параноидально вам приписывают какие-то чувства, что вы их специально запутываете. Там были смешанные пары, мы сравнивали их с парами «здоровый-здоровый», и это было интересно – потому что здоровый человек берет на себя большую часть коммуникативной работы, которую обычно выполняют двое.

Там были очень интересные вещи: у нас есть интуитивное представление о том, что какие-то способы обозначения оказываются проще, чем другие. Например, сказать «ближе к окну» или «ближе к ширме» в общем случае проще, чем сказать «справа» или «слева», потому что «справа или слева», особенно, когда они сидят лицом к лицу, несколько сбивает их с толку. И возникают сбои. Меня больше всего интересовал мета-уровень, каким образом они организуют свою совместную деятельность, свой разговор, потому что для каждого кусочка «Лего» или для каждой фотографии им для начала нужно отождествить эту фотографию, потом определить ее локализацию и опционально проверить – правильно ли они поняли друг друга. Мы специально проверяли, не ослаблен ли интеллект у шизофренических пациентов. Все люди, которые участвовали в эксперименте, могли по образцу собрать такую модель. Но иногда они просто так относились к этому делу: куда поставил, туда и поставил, и проверка их не очень-то интересовала. И вот это отличает их от людей здоровых и мотивированных, потому что у нас в разговоре всегда присутствует некоторый определенный уровень взаимопонимания, на который мы ориентируемся. Нам необходимо удостовериться в том, что то, что мы сказали, было правильно воспринято. Если нет, то мы прибегаем к разного рода методам, чтобы внести коррекцию.

Собственно, появление этого рода экспериментов было связано с несколькими темами, одна из которых – преодоление эгоцентризма. Предполагается, что ребенок до определенного момента не умеет становиться на точку зрения другого человека, эта способность появляется по мере взросления, когда он начинает отличать мнение от знания и признает разные возможные точки зрения.

Еще один контекст – это передача инструкций. Передача инструкций пользователю. Есть знаменитые работы, связанные с разработкой технологии. Вы знаете, что сейчас обычный пользователь просто пользуется контекстуальной подсказкой, он не задумывается. Знаменитая исследовательница Люси Сачмен, сотрудница исследовательского центра PARC корпорации Xerox, проводила очень любопытные эксперименты, связанные с контекстуальностью подсказки. Дело в том, что есть разница между инструкцией, которая напечатана на бумаге, и тем, что человек, который рядом сидит, скажет тебе по поводу твоих проблем. Если я что-то поставил себе на устройство и оно не работает, то я должен или прочитать ВЕСЬ хелп, чего никто не делает, либо начать искать эту проблему в хелпе. Но я не знаю, как называется эта проблема, и прочитываю все оглавление хелпа, пытаясь понять, какими же словами могли назвать ту проблему, которая у меня возникла. Весь этот текст абстрактный, он вообще, а у меня есть конкретная проблема. Значит человек, который в этом разбирается, может дать мне конкретный совет, отталкиваясь от своего участия в этом контексте. Как человек интерпретирует инструкции больших ксероксов, на которых появляется указание, что нужно сделать в определенный момент проблемы – хороший вопрос. Ведь он начинает искать нужную «крышку 2», тянуть и думать: «А щелчок, про который написано, это он уже был или еще нет? А если я сломал?». Тут возникает масса вопросов, которые касаются способов передачи инструкции пользователю, когда инструкции не абстракты, а привязаны к контексту.

Это не случайный эксперимент, он обращает наше внимание на важность этой референциальной коммуникации и совместного внимания, потому что интерфейс – это та зона, к которой одновременно имеют доступ и человек, и система. Это некоторая зона для общения. И куда направлено их внимание? Это базовая вещь, которая касается любой человеческой содержательной референциальной коммуникации. Внимание, которое направлено у обоих партнеров на какой-то предмет. Это вещь, про которую мы можем сказать, когда она появляется в онтогенезе. Смотрите: примерно до 9 месяцев ребенок начинает улыбаться вам, родители получают удовольствие от общения с ним. Но до 9 месяцев – это диадное взаимодействие. Вот ребенок, а вот вы. Выражение эмоций, радость, утешение – все хорошо. Но никакого содержательного общения нет. По причине того, что нет ситуации, при которой внимание ребенка и внимание взрослого направлены на один и тот же объект, и они контролируют внимание друг друга. В 9-12 месяцев происходит очень интересный «перескок». Появляется совершенно другой тип поведения, когда ребенок тянется к предмету и не просто хнычет, что не достает до него, а попеременно смотрит то на предмет, то на мать. И проверяет, смотрит ли мать на этот предмет или нет. Это та ситуация, когда мать приходит ему на помощь, дает предмет – она интерпретирует это как указание, из этого потом вырастет указательный жест.

Указательный жест и указание – это такая базовая вещь человеческой коммуникации, без которой содержательной человеческой коммуникации быть не может, это такой ассемблер коммуникации, из которого все складывается. И если способность говорить слова в результате чего-то оказывается ограничена, если человек может совершить указательный жест, он спасен. Наша технология делает так, что с ним возможно общаться, вспомните Стива Хокинга. Пока есть возможность указательного жеста, можно устроить коммуникацию и общаться с человеком.

Случай, с которым я работал – это пример молодого человека, который никогда не владел разборчивой речью, несмотря на то, что у него сохранный интеллект. Особый случай, когда у человека интеллект не сохранный, и он не может говорить. Но здесь у человека интеллект сохранный, и он сам – программист. У него дизартрия, он не способен артикулировать звуки речи, не может произносить согласные. В изолированной позиции логопед научил его произносить согласные, а в потоке речи – нет. Получается, что в разговоре, когда он пробует говорить, это напоминает не артикулированное мычание. Но его мама может это перевести. Вот видео, где это становится очевидным.

«Технологический английский… А, компьютерный английский! Компьютерный английский я понимаю. Ну, это все компьютерщики понимают. Иван всегда мычал. Когда мне важно прослушать, что он говорит, мы начинаем по буквам. И тогда он показывает мне работу логопеда. Или через синонимы он может объяснить тоже». Вот отсюда послушаем: «Я буду вести в школе кружок программирования. В следующем году. Мне нужны программисты, хакеры. Те, кто быстро могут прочитать и писать этот кусок».

Это очень показательно в том смысле, что мы привыкли думать, что высказывание – это результат работы ОДНОГО человека. А здесь мы видим, что эта работа не просто на двоих раскладывается, где один говорит, а другой переводит, здесь переводчик вперед забегает. Мама может предсказывать, что он говорит, потому что он когда-то об этом говорил. Там, где речь идет про хакеров в истинном смысле слова, в этом смысле он не говорил. Поскольку я все это дело транскрибировал и пытался потом анализировать, я с ними сидел, я знаю, кто там и что говорил. Когда возникает асимметрия в разговоре, здесь не просто любопытно, что они вдвоем делают одно высказывание. Кстати, мы довольно часто подхватываем высказывания друг друга и их завершаем, что свидетельствует о том, что мы слушаем что нам говорят и понимаем друг друга. Но в ситуации с асимметрией, когда сложно говорить быстро, как и в ситуации с Хокингом, тайминг – то, каким образом по времени расположены вклады людей – очень много чего определяет. Если кто-то говорит медленно, то остальные могут начать говорить между собой на другую тему, а он все набирает ответ на вопрос, который был некоторое время назад. И возникает идея: а нельзя ли каким-то образом ему помочь, чтобы он говорил быстрее?

Кстати говоря, сам мальчик делает программки, которые помогают людям, не способным говорить, разговаривать с помощью указательных жестов. Выбирать, как Хокинг. Вот девочка, которая не контролирует свои движения. Можно распознавать направление ее взгляда. Но, если у нас будет такой прыгающий курсор, нужно, чтобы она в нужный момент ударяла в него. И он, мальчик, делает такие программы, которые позволяют набирать текст. А девочка, кстати говоря, умная, понимает не только по-русски, но и по-китайски. По-видимому, какие-то чисто технические возможности существуют, чтобы реализовать то же самое, чем пользуется Хокинг. На сайте hawking.org.uk описываются технологии, которыми он пользуется, и там есть интересная программа для small talk’а. То есть, если нужно побеседовать на какую-то тему, не связанную с физикой и жизненными проблемами, а просто поболтать, у него есть высказывания, которые разбиты по темам. Он может поговорить о спорте, о погоде, и в рамках каждой из этих тем у него довольно большое количество высказываний. Причем, в этом списке есть и список оскорблений, очень смешных. У Эллен Миале есть целая книга, которая рассказывает про Хокинка как про медийный специфический конструкт и про то, как образ Хокинга устроен изнутри. Чудесная книга, там описывается эта технология.

Идея о том, что там есть тема оскорблений, заставляет задуматься над тем, что то, что мы делаем в повседневном разговоре, не рассказывая какие-то вещи содержательно, оно в каком-то смысле похоже на Эллочку-людоедку. Но она – это такой крайний случай, там все-таки довольно редуцированный набор. У Хокинга могут быть несколько сотен высказываний в общей сложности, но они у него просто ищутся, ему не нужно набирать эти высказывания целиком. Он, например, реагирует одной буквой, и сразу выскакивают высказывания на эту букву из списка. Если он, скажем, набирает содержательный ответ кому-то, и кто-то вошел, он может набрать две буквы и поприветствовать этого человека. А зачем ему набирать эти две буквы, не можем ли мы сделать такую штуку, которая говорила бы за него? Сделать бота, которого он отчасти мог бы контролировать. Это позволило бы ему общаться в том же ритме, в котором общаются обычные люди.

Здесь мы переходим к самому интересному, ради чего все это было затеяно. К ботам.

История ботов начинается с «Элизы» Джозефа Вейценбаума, которую он сделал в 60-х годах в качестве эксперимента, со скриптом «доктор» она могла изображать психотерапевта а-ля Карл Роджерс, и это было настолько неожиданно и удачно, что некоторые думали, что на том конце провода человек. Почему? Потому что этот жанр разговора – психотерапия – это один из немногих жанров разговора, где мы можем обойтись без ссылок на представление об окружающем мире. Если мы считаем, что функция психотерапевта – сделать так, чтобы клиент выговорился, то достаточно небольшого числа трюков. Вейценбаум впервые сделал так, что если человек говорит «У меня голова болит», то машина может сказать: «У тебя голова болит? А когда начала болеть?», то есть она меняет «меня» на «тебя» и вставляет содержание высказывания пользователя в свою речь. Это производило такое впечатление! Психотерапевт, если он хочет добиться результата, может сказать: «Повтори еще раз то же самое». И это не будет выглядеть странно. Это примерно как роботу приписать «инопланетность» и на это сделать скидку.

Сам Вейценбаум боялся того, что у него получилось, и в какой-то момент написал книжку, где говорил, насколько опасно запускать такие программы, потому что они потенциально могут привести к тому, что вокруг человека окажутся машины, которые будут впустую представлять что-то и изолировать человека от мира. Книжка интересная. Некторые боты, которые с тех пор разрабатывались, шли по пути «Элизы».

Какое-то время назад в журнале «Вайет» была смешная статья про то, как ее автор переписывался в журнале знакомств с русской девушкой и в течение двух недель был уверен, что это так и есть, пока в конце концов не обнаружил, что это бот! Если вы говорите о любви и знакомитесь на сайте знакомств, то есть некий церемониал. Эллочке-людоедке смайликов и всяких прочих вещей достаточно, не нужно говорить ни про Шопена, хотя про него теоретически тоже можно поговорить, забросив запрос в Гугл. Во всяком случае, автор статьи был обманут, ведь существующие сегодня боты либо посвящены в какую-то узко предметную область и в ней «разбираются», у них есть репрезентации реальности этой области в виде антологии или в другом виде, либо они просто болтают с человеком, реагируя на его высказывания. Это напоминает беседы с младенцем. Кстати, они никуда из нашей жизни не деваются – это часть человеческого общения, вы можете даже с иностранцем так общаться на своем языке, не передавая никакой информации об окружающем мире.

Давайте, я покажу вам кусочек диалога. Это диалог живого человека с ботом Мицуки, который получил Лебнеровскую премию в 2013 году. Посмотрите, где здесь оказываются места, в которых понятно, что это не человек. Он реагирует на «closing» и дальше проявляет некую коммуникативную инициативу. Это они хорошо придумали. Но «Do you ten to like most things?» или особенно когда после «No» идет «O’key». «What do you do for leaving?» - мы и в разговоре такой же перескок темы видели у бота Емели в самом начале. Это к тому, что искусственный разговор, примитивный и роботический представляет собой реакцию на предыдущую реплику. Это некие готовые паттерны, которые реагируют на то, что было.

Человеческий разговор устроен иначе. Если нас интересуют интенции, то у нас возникают последовательности, при которых мы держим в голове нечто, и это разрешается через несколько шагов разговора. Например: «Ты видел мой шарф? – Там в прихожей? – Да. – Отличный, прекрасный цвет!» Смотрите, это у нас не А-Б-А-Б, это не реакция на предыдущее, а это у нас вставная конструкция, ответ на «Ты видел мой шарф?» – «Да, отличный цвет!» Между этими репликами вставлена другая последовательность двух реплик, и эта вставная последовательность может быть достаточно длинной. Контекст участниками удерживается достаточно долго и это значит, что они нацелены на некоторую общую цель разговора. Это принципиально отличает человеческой разговор от более примитивных способов реагирования.

У меня здесь задумано было показать еще одну вещь, в которой граница между человеческим и нечеловеческим проводится примерно по тому же месту. Как-то в качестве бакалаврской работы одна студентка под моим руководством сделала программку, вы знаете, что такое тест Тьюринга, здесь это – ассоциативная игра. Когда ты говоришь «стол», а тебе – «стул». Мы заходим на www.alexdom.prog.com/game, присутствуют те, кто уже загрузился. На самом деле, это не живые товарищи, среди них могут быть живые, но в основном – это все программные агенты. Я приглашаю некоего Фокса поиграть в ассоциации. Задача – определить программа или человек отвечает по ассоциациям, которые там будут. Ассоциации: «месить», я пишу «тесто». В какой-то момент я должен нажать на кнопку «Человек» или «Машина». Я нажал «тесто», что скажет мне Фокс? Я вижу, что на «тесто» пришло «убежало», пишу «простыня». Вот такая у меня ассоциация. Фокс берет из словаря: ассоциаций, рифм – и записывает весь человеческий поступающий материал, потом может его пробрасывать и по мере того, как мы играем, он становится все умнее и умнее. Вот, смотрите: «простыня» - «накрахмаленная». Ага! «Наволочка» - вот такая у меня ассоциация. И что пришло? «Мишулечки»? Это машина. В следующий раз «мишулечки» не будут использоваться. Я угадал, что Фокс – машина.

Что здесь происходит? Когда человек играет в ассоциативную игру, у него в голове складывается некоторая картина, картина некоторого контекста. Те слова, которые называются, принадлежат одной ситуации, одному семантическому полю. Машина реагирует только на предыдущее слово, не более того. А реакция может быть взята из любого семантического поля.

Собственно, давайте, послушаем нашу Сири. Мы с ней знакомы. Я покажу как американская девочка общается со своей Сири, а потом – русскую девочку со своей Сири.

Американская Сири, действительно, ничего не понимает, такой вот «троллинг» и разные забавы, когда над ее ответами можно поиздеваться – это удивительным образом оказывается одним из распространенных жанровых взаимодействий с ней. Та же самая Катя Хуменева, которая сделала эту ассоциативную игру, написала магистерскую в Европейском университете у меня про разговоры с Сири. И выяснилось, что большая часть разговоров с ней, которые имеют место, это не содержательные разговоры, а использование этой болтовни, чтобы поиздеваться над бедной Сири.

Теперь давайте маленький кусочек «русской Сири».

«Привет, Сири. – Кто такой Навальный? – Мне удалось найти общие сведения про Навальный Алексей Анатольевич с помощью Википедия. Хотите прослушать? – Угу. – Мне тяжело понять вас».

Смотрите, самая естественная человеческая реакция – «угу». Казалось бы, что может быть проще? Используется это на каждом шагу, а распознать Сири это не может, хотя, вроде бы, все сделала правильно. Знаете почему? Потому что они начинали разработку с другого конца. Мы сейчас возвращаемся в самое начало, где я говорил о разных социальных факторах, которые влияют на дизайн, на то, как некоторые системы разрабатываются. Если бы они подошли с другого конца, начали с этнографии речи, они бы поняли, что «угуканье» не менее важно, чем многие другие вещи. Соответственно, «распознавалка» должна приписывать «угуканью» вполне определенную интенцию. Это возможно, но никому не пришло в голову серьезно позаниматься этнографией.

Надо сказать, что крупные корпорации начинают исправляться. Они быстро учатся на своих ошибках и, например, не так давно в журнале «Вайет» была смешная статья человека, который «подловил» «Фейсбук» на этнографическом эксперименте. Когда «Фейсбук» вводит какое-то новшество, они берут небольшой сегмент – 100 тысяч пользователей – и обкатывают его на этой группе, а уже потом распространяют на остальных. Новшество состояло в том, что пользователям предложили службу «персонального ассистента», который может заказать гостиницу, ресторан и прочее. Интересно было, что люди будут просить у этого ассистента? Автор статьи обрадовался и начал тестировать этот искусственный интеллект, который давал ему советы, прямо скажем, очень хорошие. И человек подумал, что ему, наверное, советует человек. И он обратил внимание на то, что ассистент отвечал с опечатками, которые характерны для ситуации, в которой человек быстро набирает текст. Тогда автор решил сделать обратный тест Тьюринга, чтобы подловить этого ассистента на том, что он – живой человек. И подловил. Речь шла о доставке пиццы. Он дал телефон своего офиса, когда ассистент сказал, что может позвонить и узнать. И звонил вполне человеческий голос. То есть, прежде, чем разрабатывать какую-то систему, это обкатывается на людях. Люди вместо программы или определенных модулей программы выступают. Тогда становится понятно, что же реально в человеческом взаимодействии оказывается значимым. То есть, начинать разработку каких-то систем, в частности, связанных с использованием человеческого диалога, имеет смысл начиная с этнографии. Я думаю, что я исчерпал уже все возможное время, спасибо.

Б. Долгин: Спасибо большое! Попытаюсь осознать, что же было сказано. Нам были продемонстрированы принципиальные недостатки такого классического кибернетического подхода с передачей сообщения, его декодированием и так далее в пользу чего-то интеракционного. Нам было продемонстрировано значение этнографических процедур для того, чтобы понять и промоделировать дальше что-то языковое. Нам были представлены характеристики разговора, которые кажутся значимыми для понимания его специфики в человеческом варианте и была представлена попытка систематики этих разговоров. Частичная отсылка к функциям языка, как когда-то обсуждали Якобсон и так далее, но только уже в применении к классической речи.

 

И. Утехин: Это очень грубая классификация, даже про систематику тут речь не идет. Я говорил о том, что возможно передавать чувства, это очень важная вещь для человека, и с роботом это необходимо.

 

Б. Долгин: Да, поддерживать разговоры – тоже отдельная функция.

 

И. Утехин: Совершенно верно. Мы можем это глубже классифицировать, но в существующих платформах для разработки ботов это просто существует как отдельные модули. Там есть отдельный домен, который называется «Болтовня» - Small talk, есть какие-то содержательные вещи.

 

Б. Долгин: И была продемонстрирована значимость разного рода вещей на грани психологии. Короче говоря, коммуникация была продемонстрирована как некоторая жесткая междисциплинарная область, для понимания которой не достаточно ни кибернетических подходов, ни структурно-лингвистических подходов, и вероятностных подходов тоже не достаточно, если говорить о нынешних гугл-переводчиках и так далее.

 

И. Утехин: Про это я совсем не говорил. На самом деле, это очень интересная тема, совершенно отдельная, про то, что у нас есть подходы, которые предполагают жестко запрограммированные ответы на какие-то распознаваемые ключевые слова, и есть вероятностные модели. Это немного другой подход. Там есть и машинное научение и все такое. То есть, если глубоко копать, то много всего интересного. Но мы этого сегодня не будем касаться, потому что это заведет нас в другую сторону. Мне хотелось через эти примеры показать фундаментальные свойства человеческого разговорного взаимодействия, которые лежат как бы по ту сторону языка, которые глубже языка.

Язык – это средство коммуникативного взаимодействия, но помимо него, есть и другие средства, которые используются совместно с языком. И эти средства опираются, в частности, на нашу погруженность в контекст. Это чрезвычайно важный момент, потому что современная технология отличается от технологии 20-летней давности именно своей чувствительностью к контексту. Условно говоря, ваш компьютер не знает, где он стоит, хотя, может быть, в вашей сети он называется «деск-топ в гостиной». Но сам он про это не знает. А ваш мобильный телефон знает, где он находится, и в зависимости от этого делает многие вещи по-разному. И чем дальше, тем больше сенсоров у него появляется и тем в большей степени он может на эту контекстуальную информацию опираться для того, чтобы, например, приводить дизамбигуацию ваших сообщений. И в этом отношении робот в более выгодном положении, чем все.

 

Б. Долгин: И? Дальше хочется какого-то следующего шага. Что в связи с этим?

 

И. Утехин: В связи с этим возникает много вопросов, на которые у нас нет готового ответа. Я говорил, что у нас возникает новый социолингвистический реестр, и эти «существа» становятся частью нашей повседневности, и человеческий язык распространяется на его использование не человеческими существами, которые становятся очень специфическим продолжением человека. Мы находимся внутри некоторой революции, поэтому увидеть это снаружи не очень просто, но есть несколько косвенных свидетельств, которые позволяют нам куда-то заглянуть.

Разработчики этих технологий все читают научную фантастику. Те, кто придумывали самые современные интерфейсы и все такое, они не просто читали Рея Бредбери и иже с ним, но они смотрели и голливудские фильмы. Вообще, влияние голливудских фильмов на то, как дизайн будущего возникает, оно очень любопытное. Здесь такая замкнутая спираль, потому что люди, которые снимают эти фильмы, идут в MIT-media Lab или в подобный research center, чтобы спросить: «Ребята, что у нас на горизонте? У нас дело происходит в 2045 году, как будет выглядеть интерфейс?» И им предлагают варианты.

Люди, которые посмотрят этот фильм, начинают думать: вот, значит, так это и будет! И начинают работать над этим. Каким образом форма придается этой технологии? Здесь есть много разных интересных источников. Например, иногда эти существа начинают играть в нашей жизни большую роль, чем просто какие-то не самостоятельные инструменты. Скажем, если я ищу в Гугле что-то, он мне не подсказывает, я сам ищу, хотя, конечно, он «затачивает» под меня свой персонализованный поиск. Но представим себе, что у меня есть свой персональный ассистент, который в Фейсбуке был представлен девушкой, (но никто же нам не мешает реализовать ее программой), и эта девушка меня хорошо знает, мы с ней много лет живем, у нее есть достоверные сведения о моем поведении в сети: что я слушаю, что читаю. Она мне может что-то подсказать как рекомендательный сервис, опираясь на «длинные истории» моего медиа-потребления, и никто лучше нее это не сделает.

И в какой-то момент я начинаю доверять ей как себе, а чего же ей не доверять-то? Она знает меня лучше, чем кто-нибудь еще. Нет такого родственника, близкого человека, который в такой степени является частью меня, как эта программа, этот ассистент. Фактически, у меня появляется такое продолжение, которое много чего может сделать. Значит, граница меня проходит уже не там, где обычно. Это антропологический вопрос. И то, как я общаюсь с этим ассистентом, это естественный язык.

 

Б. Долгин: Иными словами, речь о том, что кроме того, что Интернет дал нам новые условные регистры языка (устно-письменный, письменно-устный), у нас возникают еще и новые типы коммуникации, для проектирования которых и для понимания которых нам нужно чуть иначе посмотреть на собственно человеческие коммуникации? Я правильно понял?

 

И. Утехин: Да. Что мы переосмысливаем границы человека, и что мы переосмысливаем форму человеческой коммуникации. Потому что мы не знаем – это я сам с собой беседую или еще с чем-то другим.

Кстати говоря, то, что вы говорите про этот регистр, письменно-устный и устно-письменный, – это, действительно, любопытное наблюдение, потому что, когда Сири что-то не понимает, человек пытается переформулировать это. Причем если он общается с ней не первый раз, он понимает, что исправлять ее и объяснять, что она что-то не так поняла, бессмысленно. Нужно просто выключить и снова включить, и начать говорить другое. По отношению к человеку это выглядело бы хамски – отключить и снова включить.

 

Б. Долгин: Это классическая форма: «Забудь все, что я сейчас говорил, я сейчас тебе иначе скажу».

И. Утехин: Да. Но человек начинает выбирать слова таким образом, в соответствии с тем, как ему кажется, проще Сири. У нас есть целый набор таких регистров: регистр разговора с детьми, регистр разговора с иностранцами, которые не очень хорошо понимают русский язык. Регистр для разговора с очень пожилым человеком, который уже не очень хорошо понимает слова, и для разговора с ним мы будем очень тщательно выбирать слова.

Кстати, если сформулировать, на что мы опираемся, выбирая эти слова, то мы опираемся на наши интуитивные представления, что какие-то вещи принципиально проще, что какие-то слова более частотные, скорее всего, старушка их знает. Какие-то синтаксические конструкции, например, пассив сложнее, чем активный залог, значит, мы не будем в пассиве строить конструкции для старушки, иностранца или ребенка. Мы это интуитивно упрощаем. Значит, должна быть какая-то модель того, как в голове у Сири, условно говоря, устроены «колесики», чтобы она нас поняла и интерпретировала. И это становится похоже именно на письменный язык!

 

Б. Долгин: Только в случае со старушкой, ребенком или иностранцем мы будем пытаться апеллировать еще и к контекстам, знакомым старушке из ее опыта, иностранцу – из его опыта, ребенку – из его опыта. А в случае с Сири?

 

И. Утехин: В случае с Сири здесь та самая проблема, которая возникает в связи с отсутствием ее памяти. Она помнит только предыдущие высказывания. В каких-то случаях она помнит немного больше, ее можно запрограммировать, чтобы она помнила, как тебя зовут. В каких-то случаях английская Сири может и следующее местоимение с антецедентом соотнести, но это не широко распространенная практика. Этот ассистент станет более или менее человеческим только с того момента, когда у него появится память. И когда он в пропарсенном виде будет хранить всю историю разговоров с вами, и опираться на нее. И может быть, его память будет лучше, чем память человека. То есть, человек сможет полагаться на память ассистента, разгрузив для этого свою память.

 

Б. Долгин: Спасибо. Что же, теперь вопросы. Поднимайте руки.

 

Вопрос 1: Когда вы говорите, что эти характеристики особенностей разговора лежат глубже, чем язык, они все-таки лежат где? В каком-то когнитивном устройстве нашего сознания или, скажем, культуре? Потому что разговор в разных культурах будет немного отличаться. И можно ли использовать технологию Сири, разработанную для хипстеров из Калифорнии, для аборигенов Океании, например?

 

И. Утехин: Это два вопроса. Первый более сложный и интересный, второй очевидный: что приходится ее «затачивать» под местные особенности, не только языковые, но и поведенческие, этнографию и речь. Та машинерия, та коммуникативная способность человеческая, некоторые особенности которой мы сегодня только упомянули, а это касается реакции не на высказывание, а на прочитывание интенции, что обуславливает возможность вставления последовательностей и так далее. Там много чего интересного. Мы могли бы эти характеристики человеческой коммуникативной способности как-то суммировать.

Мне сложно сказать, где они живут, это явно не культура, потому что это вещь универсальная, которая во всех культурах существует. Это свойство человека как вида. Но человек как вид – это не индивид, человек как вид – это социальное существо, не существует отдельно биологическое «железо» и культурный «софт». Они в сочетании, так или иначе, с разными языками дают нам некоторые конфигурации, которые предзаданы той стадией эволюции человека, на которой сформировалась эта коммуникативная способность, связанная с чтением мыслей и угадыванием того, что в голове партнера. Вслед за Стивеном Ливенсоном – лет 10 назад у него была небольшая публикация про человеческую коммуникативную способность – я полагаю, что это более глубокая вещь, чем использование… Потому что люди, у которых с языком и речью не получается, тем не менее могут полноценно коммуницировать.

Примеры, которые я приводил, скажем, того же Чака Гудвина, у которого есть цикл работ, где он объясняет, как устроена в семье коммуникация с человеком, который после инсульта может пользоваться только тремя словами. Если бы вам сказали, что вы на протяжении всей оставшейся жизни сможете пользоваться только тремя словами – какие бы вы выбрали слова? Там человеку повезло: «yes, no, end». Они все не сами по себе, они связаны с реакцией на высказывание собеседника. Эти слова позволяют ему, вставляя их в нужном месте, с опорой на контекст собеседника, высказывать довольно сложные вещи.

Все эти примеры касались ситуаций, когда человек умственно сохранный. Просто у него произошло с речевой способностью. Или что-то было, как у мальчика Ивана, который никогда отчетливо не говорил.

Но здесь возникает вопрос: люди, про интеллектуальные способности которых мы не можем судить, потому что у них есть и интеллектуальные нарушения и коммуникативные тоже, как он понимает обращенную к нему речь? Каким образом это возникает, не понятно. Тут возникает целый комплекс вопросов, связанных с тем, что мы не знаем, как связаны между собой коммуникативная способность человека и его интеллект. Например, у людей с синдромом Дауна с социальным интеллектом все в порядке, а с общим интеллектом не все в порядке. Или бывают люди умственно неполноценные, но язык у них подвешен так, что вы на протяжении некоторого периода ничего не заподозрите. В каком-то смысле тут есть определенная независимость. Извините, я уклонился в сторону от вашего вопроса.

Вопрос 2: Спасибо большое, очень интересно. Вопрос про общение с виртуальной девушкой, которая меня прекрасно знает. Но она знает меня вчерашнего, а сегодня-то я уже другой! Если я правильно понял, принципиально общение с живым человеком – он другой, я от общения с ним становлюсь богаче. Это так? И еще: для человеческого содержательного общения нужно, чтобы каждый сомневался в своей правоте? Интересно ваше мнение. Спасибо.

 

И. Утехин: Да, второй вопрос – это уже про диалог в другом смысле, про аргументацию. Я думаю, что девушке ничто не мешает, помимо меня прошлого, открывать мои новые горизонты. В том, чтобы так сделать, это даже не технически сложный вопрос.

Содержательная коммуникация – вы имеете в виду содержательный человеческий спор, в котором рождается какая-то истина? Сегодняшняя технология позволяет, скорее, избавиться от нажатия на кнопки и заменить его манипулированием другими средствами, в частности, словами. То есть, вместо того, чтобы запрограммировать пылесос, чтобы он работал, я могу ему объяснить. Или через какое-то время могу сказать ему, когда я хочу, чтобы он пылесосил. Это вполне содержательно, тут не нужно особо ничего, просто меняется способ коммуникации. Она и так была коммуникацией. С лопатой я не могу коммуницировать, потому что лопата – это инструмент простой, у него нет собственного поведения. Но наш мир сейчас обогатился такими предметами, у которых есть собственное поведение. И уже управлять ими для человека оказывается проще, особенно имея в виду, что эта технология, которая привела к появлению таких предметов нашей жизни, она очень незрелая.

В отличие от лопаты, дизайн которой шлифовался в течение сотен лет, еще полвека назад ничего подобного этим самостоятельным роботам-пылесосам не было. Поэтому тут есть свои проблемы. Просто человеческий язык оказывается способом манипулировать ими, и я не думаю, что вам захочется вести философские разговоры с пылесосом. Мы предполагаем, что в качестве психотерапевта, утешителя, друга такого рода ассистент способен быть, но для того, чтобы обсуждать какие-то философские вещи он вам не заменит нормального собеседника, даже, если мы подключим его к Стенфордской философской энциклопедии и дадим модуль, который позволит ему фреймировать пассажи из энциклопедии и вставлять их к месту. Все равно это будет еще не то, на такое мы еще не замахиваемся. Доказывать теоремы они уже умеют – это операции с символами, а вот оперировать в реальном пространстве – простите, и тут вполне возможно, что с доказательством теоремы устройство справится, а с тем, что и как интерпретировать, то тут вопрос более сложный.

 

Вопрос 3: Спасибо большое за лекцию, вопрос относительно напряжения вашей лекции между антологизацией и неожиданными сложностями языка. Тут происходит странный определенный ход: с одной стороны, мы постулируем, что есть новый феномен, который якобы в состоянии коммуникации к диалогу, но при этом мы говорим, что, вообще-то, диалог – это не та модель, которая строится на обмене фраз, а это поточное действие, где каждая пауза является важной, и важно совместное действие. Каким образом происходит такой странный и парадоксальный ход, где мы с одной стороны говорим, что это очень здорово, потому что появляется новый агент, новая антология взаимодействующих, но при этом постулируем, что то, что они делают, что происходит – это не коммуникация. Нет напряжения?

 

И. Утехин: Совершенно правильно. Да, это то же самое напряжение, которое существует с китайской комнатой Серля. Мы можем делать все что угодно, имитировать человеческое общение, основываясь на прагматической преемности неспецифических высказываний, как в случае «Элизы». Мы можем использовать какие-то семантические модели в узких предметных областях и интерпретировать какие-то высказывания, но такого рода разговор будет обладать лишь несколькими, а не всеми признаками той базовой формы использования языка, от которой отталкивается человек.

Но спонтанный разговор «лицом к лицу» – это не единственная форма использования языка. Более того, она не самая удобная для каких-то целей, потому что когда мы с вами поговорили, разговор растворился и улетучился. А когда вы в чате с кем-то говорите, например, у вас вся история в чате остается, вы можете ее потом посмотреть. Согласитесь, это гораздо удобнее, чем опираться на следы в памяти. Поэтому да, мы в анализе форм коммуникаций в качестве базовой модели отталкивается от спонтанного разговора, но мы знаем, что есть огромное количество самых разных жанров, которые институционально ограничены, например, семинар, который происходит сейчас. Или отклоняющиеся по тем параметрам, когда мы по телефону, в чате или на форуме пишем – это совсем другая ситуация. В том, что возникает еще одна форма использования языка, нет ничего необычного. Когда появляется новая техническая возможность, например, не было чатов, но люди писали на стене, на партах, а потом стало возможно делать это в Интернете. Появилась новая форма, но зародыш ее существовал и прежде, в принципе.

 

Вопрос 4: Такой немаловажный вопрос, как мне кажется, про эмоции. Как машины могут понимать эмоциональное состояние человека? Ведь даже в квази-диалогах, чтобы предложить книжку или фильм, машина должна все-таки понять: комедию вам предложить или какой-то триллер. Ведь те же самые «угу» - они разные. «Угу!», «угу?», «угу…» - пока еще техника не может их различать.

 

И. Утехин: Действительно, это очень важный и интересный вопрос. Есть такая Розалинда Пикар в MIT, которая возглавляет целое направление, связанное с эмоциями и их распознанием. Вообще, эмоциональная составляющая связана с несколькими аспектами этой ситуации. Человек эмоционален, и машина должна распознавать его эмоциональное состояние. Я помню, что как-то году в 1991-м я общался с человеком, который говорил: «А мы встроим сенсоры в клавиатуру, которые будут измерять электропроводимость». То есть у человека кожная проводимость меняется очень быстро и реагирует на состояние человека. Или, скажем, у человека вспотели руки – эмоциональное состояние изменилось, значит, наш компьютер будет это учитывать. В 1991-м году физиологическое и эмоциональное состояние уже было в умах людей.

 

Б. Долгин: Прошу прощения. Тут еще до эмоционального состояния была давно известная когнитивным лингвистам вещь как интонация.

 

И. Утехин: Да, безусловно. С одной стороны, это распознание, с другой стороны – выражение. Потому что, если у нас есть какой-то нарисованный персонаж, а не просто бот, то этот персонаж или реальный «девайс» не должен говорить механическим голосом все слова одинаково. Он должен и интонацией правильно показывать лингвистические функции и прагматические интонации, и какие-то эмоции. Если его обозвали дураком, он должен обидеться и отойти в уголок: «Зачем вы меня обижаете?» и так далее, должен как-то справляться с агрессией.

В результате возникает очень интересная штука, которая, на самом деле, в прототипах существовала уже много лет назад. Когда у нас есть некоторое пространство внешних состояний… усталость – это не эмоция, но это – внутреннее состояние, у которого есть внешние проявления. В частности, в позе. Мы рисуем некоторое конечное многомерное объемное пространство внутренних состояний и делаем меппинг на способы выражения.

Есть такой замечательный Артем Котов, который работает в Москве в проекте Курчатовского института, я участвовал в его проекте. Мы снимали на видео, как студенты сдают устные экзамены. Как их невербальная часть аннотировалась во всех подробностях: что там с губами, что с глазами, какие жесты… И потом пытались приложить это сначала к нарисованному персонажу, а потом к «девайсу», который выражает эмоции, говорит разным голосом и демонстрирует какие-то эмоции вовне. Было очень интересно. Это вторая вещь, что надо не только распознавать и как-то на это реагировать, нужно еще и выражать. Но это выражение получается как бы имитационное. Здесь есть более глубокая вещь, которая лежит не сильно на поверхности. Если у нас есть робот, по-видимому, у него, для того, чтобы он сам себя контролировал, должен быть некий аналог мотивационной системы, который был бы похож в некотором смысле на эмоции. Условно говоря, если едет танк и у него отстрелили одно колесо, он должен перестраивать иерархию принятия решений, и это будет некоторым аналогом того, что ему больно. То есть, если говорить о продвинутых технических устройствах, у которых есть самостоятельное поведение, то у них должны быть мотивационные системы, сопоставимые с эмоциональными системами живых организмов. И это еще один аспект этой проблемы.

 

Б. Долгин: Спасибо, прошу последний вопрос.

 

Вопрос 5: Спасибо большое за интересное выступление. Я хотела попросить чуть более подробно рассказать про роль экспериментов ваших исследований. Потому что, с одной стороны, вы много говорите про роль контекста, а с другой стороны – понятный недостаток экспериментов, что они изолируют деятельность из какой-то естественной среды. Что может влиять на результаты, которые мы получаем?

 

С одной стороны, вы сказали, что шизофреник не воспринимает ситуацию серьезно и пытается решить эту задачу на уровне «и так сойдет», что может быть связано с шизофренией или с ситуацией эксперимента, которая не является серьезной. А с другой стороны – какая-то более глубокая вещь, о том, что наш тип взаимодействия, то, как мы взаимодействуем, укоренено в ситуации, в которой мы взаимодействуем и том занятии, в которое мы вовлечены.

И. Утехин: Я начал с того, что этнография у нас самая важная, а этнография – это не совсем эксперимент. Но эксперименты… Понимаете, многие из тех же самых шизофреников воспринимали серьезно ситуацию, у них были результаты лучше, чем у здоровых. А тут заходит лечащий врач – и все рушится, потому что пациент начинает нервничать. Да, контекст важен. Но меня интересовал контекст в другом смысле, то есть, да, мы можем предъявлять какие-то претензии экспериментам в экологической невалидности в том случае, если речь идет о чем-то, что в условиях лаборатории выглядит искусственно и в таком виде не встречается в повседневной жизни.

Эти эксперименты с ширмой на соответствие воспринимались нашими субъектами, нашими больными – говорить «шизофреники» неправильно – как еще одно занятие с клиническим психологом. Потому что клинический психолог предлагает им, среди прочего, всякие тесты, это похоже на тестовое задание. Поэтому у них была, кстати, и мотивация, чтобы в этом участвовать. Они могли показать, что они вполне еще ничего и хорошо все выполняют. Тут не было особенной какой-то «неэкологичности». Для меня всегда в эксперименте важно, чтобы участники эксперимента хорошо понимали, может быть, не так хорошо, как сам экспериментатор, но чтобы у них в голове была четкая картина того, что от них хотят. Чтобы человек не гадал, чтобы была четкая мотивация – ради чего это делается? В каких-то экспериментах для этого приходится городить целые легенды. Но тут, как мне кажется, нет никаких моментов «неэкологичности».

В том, что я практически делал как антрополог, практически экспериментов нет. Те эксперименты с ширмой, которые были показаны, связаны с лабораторией когнитивных исследований, мы с Черниговской это делали. Но это в высшей степени интересно, потому что сейчас возникает ситуация, особенно в области нарождающихся технологий, что исследователь в каком-то смысле экспериментатор и дизайнер. Потом что в цифровой антропологии единственный способ получить данные – это придумать какое-то приложение, условно говоря. Например, мы делаем мобильное приложение, которое на стороне пользователя выглядит как игра, а для нас представляет собой поставщика определенного рода данных о поведении. В каком-то смысле это эксперимент.

 

Б. Долгин: И в конце концов я бы сказал, что здесь нет претензии на единственное объяснение, здесь нет той проблемы, что то, что существует «in vitro», не существует «in vivo», здесь в лучшем случае может быть претензия, что даются не все возможные связки, объяснения интерпретации. Без претензий это, в любом случае, не опасно. Как мне кажется. Спасибо большое!

 

И. Утехин: Спасибо всем, что пришли!

 

Вопрос 6 (без микрофона): Скажите, а какая есть книжка, чтобы прочитать про диалог, по-русски?

 

И. Утехин: По-русски таких нет. Вы можете про конверсационный анализ почитать. Есть книга Андрея Кибрика «Рассказы о сновидениях». Это единственное большое исследование, которое в лингвистически приближенном варианте опирается на конверсационный анализ. А на английском много, чего есть. Чтобы вам начать – я бы посоветовал Герберта Кларка «Using language», 1996 год издания. Это великая книга, из который мы все выросли, как из «Шинели» Гоголя. Давайте, я напишу список книг по разным вопросам, хорошо.

Если заметили ошибку, выделите фрагмент текста и нажмите Ctrl+Enter