Следите за нашими новостями!
Твиттер      Google+
Русский филологический портал

С. А. Шаповал

ПРОБЛЕМА РАСПОЗНАВАНИЯ АБСУРДНОГО ИНТЕРНЕТ-СООБЩЕНИЯ

(Понимание в коммуникации: сборник статей 4-й междисциплинарной конференции. - Т. 2. - М., 2009. - С. 230-239)


 
Понимание Интернет-сообщения – тема, обсуждение которой в последнее время актизировалось в связи с распространением особого рода текстов, создаваемых программами, которые имитируют осмысленные сообщения и/или маскируются под обычного пользователя. Обсуждаемая в настоящей статье проблема возникла на стыке двух: 1) можно ли в условиях интернет-коммуникации распознать, написан текст человеком или машиной, 2) как человек различает текст осмысленный и текст абсурдный.
Прежде всего необходимо обратить внимание, что здесь речь не идет о тесте Тьюринга или чем-нибудь подобном – мы рассматриваем проблему с другого конца: не «машинного», но «человеческого». Представляется, что с этой точки зрения знаменитый «тест» успешно пройден, и это случилось не потому, что машины научились мыслить, а потому, что массовый пользователь не умеет (не хочет, не способен, не научен, заплатили – нужное подчеркнуть) ничего различать в принципе.
Напомним вкратце успехи ряда компьютерных программ в деле одурачивания некоторых человеков. Первым (в недавней истории), насколько нам известно, был скандал с ВАКовским «Журналом научных публикаций аспирантов и докторантов», который пропустил в печать статью несуществующего ученого М.С. Жукова «Корчеватель: алгоритм типичной унификации точек доступа и избыточности». Считается, что изначальный текст был создан на английском языке с помощью программы SCIgen, умеющей генерировать псевдонаучные тексты и разработанной специально для того, чтобы проверять качество рецензирования на научных конференциях. В Лаборатории компьютерной лингвистики Института проблем передачи информации РАН этот текст перевели на русский язык (тоже при помощи аналогичной программы, ЭТАП-3), отправили в журнал и прошли рецензирование, «доработали» статью по замечаниям рецензента, и статья была опубликована. (Подробную историю публикации см. [1].)
Новый всплеск обсуждения проблемы вызвало появление «Генератора светских бесед» (http://www.gatchina.biz/generator) – программы, которой удается составлять внешне правдоподобные тексты за счет удачного подбора исходных фрагментов; ср., например, для слова «фрактал»: «Знаете, так шутить нельзя. Я себе чуть палец не сломал когда, набирал «Фрактал» на клавиатуре. Фрактал не повторится в других, и никто не повторится в Фрактал. Не может быть двух одинаковых Фрактал. Если меня спрашивают, «а Фрактал на лампах или на транзисторах?», я обычно отвечаю: «Фрактал – на бронепоезде». Каков вопрос – таков ответ. Фрактал – от реального к сверхреальному. Фрактал – 100% чистого адреналина. А вот «Латкарф» – это Фрактал наоборот». (Заметно, что программа пока не умеет склонять введенное ключевое слово, однако это дело техники.)
Приведем лишь некоторые из вопросов, дискутировавшихся в связи с появлением «Генератора светских бесед» в блогах: как «отличить текст, сгенерированный машиной, от генерируемого любым из нас», по каким признакам можно опознать «бредогенератор», создающий «заумные тексты, которыми можно оживить ЖЖ и предстать ужасно умным», и т.п.
Создание специальных (часто игровых) программ – не единственное развлечение современных программистов. Другим (и гораздо более серьезным) направлением «машинного творчества» является его тихое, не афишируемое и никак не комментируемое, применение в блогах. «Нашествие роботов» проявляется в том, что в любом месте блога автор вдруг обнаруживает десятки «комментариев» такого типа:
«Hi; спасибо, прочитал на одном дыхании
Hi; Огромное спасибо за инфу. Автору респект и уважуха.
Hi; Супер статья! Подписался на RSS, буду следить
Hi; Превед, большое спасибо за добавленый статью мне правда понравился добавленый Вами материал. Добавил блог в избранное
Hi; И да прибудет с нами сила.
Hi; Чтобы ничего не делать, надо это хорошо уметь. Ага? Еще что нибуть по этой теме охото.
Спасибо. Прочитал с интересом. Блог в избранное занес=)
...и так далее, и тому подобное в миллионе разнообразных, но одинаково бессмысленных вариантов». Приводя этот список типичных «ботовских» комментариев, Сергей Пархоменко спрашивает: «а не знает ли кто, что означает это нашествие роботов с дурацкими именами...?<...> Это у всех так? Масштаб мероприятия известен? Кто это запустил? Зачем? В чем подляна на сей раз?». И добавляет: «Любопытно, что "журналы" этих ботов раньше были пустые. А теперь там даже висят какие-то бессмысленные посты нейтрального содержания. Такой получается муляж деятельности, похожий на настоящий, только без цвета, вкуса и запаха. Совершенствуется, видать, технология... (http://cook.livejournal.com/91107.html?style=mine )
Подобные наблюдения, недоуменные вопросы и предположения о целях текстовой активности ботов в сетевом сообществе далеко не единичны: «Что за мурзилки? Z Повадились френдить какие-то странные жж-юзеры с именами типа svezhijveter: журналы заполнены вроде бы вполне осмысленными описаниями личной жизни, но все записи на один манер, пишет будто один человек, только личные имена близких, друзей и домашних животных варьируются. Z Такое впечатление, что кто-то слепил генератор дневниковых записей и теперь плодит жж-юзеров с какой-то целью...» (http://gmz.livejournal.com/497276.html)
Юзер ivanov-petrov: «у меня такое чувство, что роботов тренируют. Они высказываются контекстно-зависимо, отвечая на комменты по возможности в такт» (http://kosilova.livejournal.com/555998.html). Своеобразный итог целому ряду аналогичных случаев подвел lugovsa:»Мне только одно во всем этом непонятно: бот или живой, но с мозгами бота? Человеком назвать язык не поворачивается» http://lugovsa.net/?p=6209#more-6209
Вопрос о том, кто «на самом деле» написал тот или иной текст – человек или робот – не праздный. Обратим внимание, как прямо на наших глазах совершенствуется технология и как все труднее становится различение. Одно из последствий предвидит Иванов-Петров: «Боюсь, скоро требования к комментаторам-людям возрастут – то есть неловкое замечание вне прямой связи с темой будет восприниматься как спам от робота, и любители "просто поболтать" переведутся как класс».
Главное же, что от решения вопроса о том, кто автор, машина или человек, зависит тип реакции на сам текст. Всю сложность этого выбора продемонстрировало обсуждение так наз. «Корчевателя-2» – второго случая публикации бредового текста в научном журнале.
Разобраться во второй истории и особенно в ее подоплеке сложнее, чем в первой. Статья «Дарвинизм» опубликована в журнале «Вестник Томского государственного университета», но в рубрике «Монологи, диалоги, дискуссии» (что вроде бы должно оправдать ее «публицистичность»). Подписана статья именем реального ученого В.Б. Родоса, известного своей «оригинальностью» (что объясняет ее «бредовость») – но одновременно с этим появилась информация, что подлинным автором текста является программа РОДОС, названная так по басне Эзопа «Хвастун» («Здесь Родос, здесь прыгай!»). Для создания статьи вроде бы были использованы известные алгоритмы, в том числе «Марковский морфологический анализатор» – лингвистическая техника, которая, по утверждению авторов, «осуществляет редактирование последовательных фрагментов так, чтобы не было противоречий в грамматике – предложения должны согласовываться по времени, числу и т.п.» (http://ivanov-petrov.livejournal.com/1142616.html?style=mine).
Авторы говорят, что в качестве исходных ими использовались различные псевдонаучные интернет-сайты и форумы, а также, «для оживления слога», «Письмо к ученому соседу» А.П.Чехова и некоторые рассказы Михаила Зощенко. Во влиянии чеховской пародии можно убедиться, просмотрев текст статьи Родоса, ср.: «Скажу по секрету: зубы, их первое появление и превращение в челюсть лично для меня - самый непроходимый момент, опровержение дарвинизма. И сами дёсна. Они же из другого вещества, нежели мясо, которым набито наше тело. Это вещество твердое, почти как кость, а когда зуб вырвут, оно рыхлое и кровь течет. Как это все на эволюционном пути в рот существам залетело и там закрепилось? Эволюционно. Не было, не было, а потом постепенно стало. Ерунда, чепуха. Детский лепет» (с. 104); «Какие-то "учёные" (огурцы мочёные)…Что про этих футурологов мочёных сказать? Дарвинисты!» (с. 107).
Столь подробный рассказ о псевдонаучном тексте «Дарвинизм» понадобился нам для того, чтобы показать на этом фоне, насколько «человеческой» была логика его комментаторов и рецензентов. Вот типичная реплика: «Очень путаный и "рваный" текст; эдакий поток сознания. Такой стиль изложения часто встречается в авторских колонках газет. Но здесь - более тридцати страниц такого текста. Z Неприятно читать, утомительно, и... в результате я так и не понял, какую мысль хотел донести до меня автор?» (http://macroevolution.livejournal.com/3121.html).
В большинстве обсуждений мы находим «презумпцию человеческости», если можно так выразиться, то есть «презумпцию осмысленности», ожидание, что целью автора было донести какую-то мысль. Родосу, кто бы он ни был, удалось вызвать волну возмущения своим текстом. Комментаторы, обсуждая статью, сетуют на низкий уровень многих сегодняшних ученых, на размытые критерии качества научной продукции, на падение авторитета журналов, на начальство и т.д., и т.п. – и совершенно серьезно упрекают автора в том, что он «не понимает разницы между дарвинизмом и ламаркизмом», «полон злобы и желчи против теории эволюции», «использует шулерские приемы в дискуссии», советуют показать статью психиатру и т.п. Венцом столь серьезного отношения к тесту, явно этого не заслуживающего, является рецензия со списком литературы в 9 пунктов, в которой текст обильно цитируется, каждое провокационное высказывание Родоса подробно комментируется и подвергается разоблачительной критике [5].
Таким образом, проблема определения автора (точнее, его естественного или искусственного происхождения) чрезвычайно обострилась в последнее время в связи с успехом ряда компьютерных программ, имитирующих текстовую деятельность человека. Наиболее интересующиеся данным вопросов деятели сетевого сообщества уже сделали выводы и предупредили всех остальных. Иванов-Петров (ivanov_petrov) в посте от 2008-10-17, озаглавленном как «Испуган», разбирает комментарий, оставленный ботом, и пишет: «Этак ведь совсем скоро будет по одной реплике не отличить, робот или человек, временно утерявший ясность сознания. Z Я совершенно серьезно. Дамы, господа... Выход у нас один – выражаться ясно и мыслить сознательно. Бурливые впечатления, обращающие слова в месиво, лучше оставлять при себе – теперь такой эмоциональной речью отличаются роботы. Z Кстати – заметьте, роботам удается копировать именно неустойчивую, эмоциональную речь, которая не совсем связывается с контекстом, а как раз речь полностью вменяемую и осмысленную – пока не удается». Справедлив и обратный вывод: неустойчивая, мало связанная с контекстом речь, похожая на абсурдную, с большой долей вероятности создана машиной.
Если вывести за скобки «компьютерную», программную, машинную составляющую, то необходимо обратиться к вопросу, как именно человек распознает абсурдное сообщение. Анализ всех аспектов этого процесса невозможен – просто потому, что понятие абсурда здесь вторично, суть же заключается именно в распознавании, неважно чего: метафоры, намерения, цели сообщения, и шире – речи, образа. Тема распознавания прямо связана с темами детекции, идентификации, диагностирования – то есть с проблемой понимания, в самом широком смысле термина. Самоочевидно, что никакой даже самый общий обзор исследований на эту тему в рамках статьи невозможен. Укажем лишь на работу А.А. Ивина, в которой абсурд разбирается с позиций логики. В главе «О смысле бессмысленного» анализируются различные его случаи: внутренне противоречивые высказывания, синтаксические и семантические нарушения, приводящие к нонсенсу, крайние случаи типа «Джабберуоки» («Бармаглот»). С нашей точки зрения, более всего интересны не крайние проявления абсурда (они как раз не представляют трудности для распознавания), а категория «туманного и темного» [2].
Распознавание тех или иных текстов положено в основу чрезвычайно интересных игр, размещенных на ресурсе «Подобострастные тесты» (http://reverent.org/ru/quizzes.html). В частности, посетителям предлагается поупражняться в различении стихов А.С.Пушкина и Н.М. Языкова («Пушкин или нет?»), сочинениий Фаддея Булгарина и произведений классиков русской литературы («Булгарин или классик?»).
Автор теста «Машинный перевод или Платонов?» – Ольга Рачкова. Чтобы не портить удовольствия будущим игрокам, приведем только один пример, в котором различение не представляет трудности. «У него было лицо, использованное, морщинистое, пустое везде, и казалось, много терпело» – машинный перевод легко угадывается по обороту «у него было лицо» и конструкции «было … и … терпело» (Ги де Мопассан. Возвращение). В других случаях отличить прием аграмматизма Платонова от грамматических ошибок машинного переводчика далеко не так просто.
Для того чтобы понять, как проходит процесс распознавания, мы провели эмпирическое исследование. Материалом для него послужил текст якобы реферата по литературоведению («Яндекс.Рефераты»). Учащимся 10-х классов московского лицея было предложено следующее задание:
Не секрет, что многие предпочитают не писать реферат самостоятельно, а найти готовый в обширной базе данных. Этот реферат любезно предоставлен «Яндексом» (http://www.referats.yandex.ru/literature.xml ).
Решите, подходит ли данный текст для того, чтобы просто переписать (перепечатать) его и сдать учителю русского языка и литературы.
В методическом пособии «Русский язык в функциональном аспекте» соответствующий текст, задание к нему и ответ составляют задачу № 22 [6].
Приведем текст «реферата».
Реферат по литературоведению
Тема: «Конструктивный речевой акт: гипотеза и теории»
Существующая орфографическая символика никак не приспособлена для задач письменного воспроизведения смысловых нюансов устной речи, однако стихотворение отражает урбанистический анапест, потому что в стихах и в прозе автор рассказывает нам об одном и том же. Рефлексия, не учитывая количества слогов, стоящих между ударениями, жизненно отражает анапест, потому что сюжет и фабула различаются. Драма, несмотря на внешние воздействия, приводит поэтический реципиент.
Здесь автор сталкивает два таких достаточно далёких друг от друга явления, как палимпсест, и фонетически диссонирует композиционный анализ, первым образцом которого принято считать книгу А. Бертрана «Гаспар из тьмы». Полисемия абсурдно приводит диалогический коммунальный модернизм, особенно подробно рассмотрены трудности, с которыми сталкивалась женщина-крестьянка в 19 веке. Синтагма, за счет использования параллелизмов и повторов на разных языковых уровнях, последовательно отталкивает замысел. Исправлению подверглись лишь явные орфографические и пунктуационные погрешности, например, коммунальный модернизм разрушаем.
Категория текста представляет собой мифопоэтический хронотоп, также необходимо сказать о сочетании метода апроприации художественных стилей прошлого с авангардистскими стратегиями. Такое понимание синтагмы восходит к Ф.де Соссюру, при этом аллитерация диссонирует поэтический скрытый смысл, туда же попадает и еще недавно вызывавший безусловную симпатию гетевский Вертер. Субъективное восприятие жизненно просветляет анжамбеман, таким образом постепенно смыкается с сюжетом. Диалектический характер, не учитывая количества слогов, стоящих между ударениями, фонетически начинает реципиент, хотя по данному примеру нельзя судить об авторских оценках.
«Яндекс» шутит и/или издевается. Текст «реферата» – набор научных лингвистических и литературоведческих терминов, общенаучных клише, логических переходов и т.п. Но, поскольку все это соединяет в единый текст не человек, а машина (программа генерирования текстов), то результат получается бессмысленный: терминов урбанистический анапест или диалогический коммунальный (?!) модернизм не существует, а выражения типа стихотворение отражает… анапест или Драма, несмотря на внешние воздействия, приводит поэтический реципиент мгновенно выдают бота.
В предуведомлении «Яндекс» пишет: «вы лично создаете уникальный текст», «никто не сможет обвинить вас в плагиате». С этими утверждениями не поспоришь: даже тот текст, который приведен здесь, уже не повторится никогда. Сколько раз пользователь будет нажимать на кнопку – столько раз эти термины и клише будут комбинироваться по-разному. Приведем еще несколько примеров со словом «дактиль»:
Дактиль, не учитывая количества слогов, стоящих между ударениями, неизменяем.
Дактиль иллюстрирует генезис свободного стиха, особенно подробно рассмотрены трудности, с которыми сталкивалась женщина-крестьянка в 19 веке.
Контаминация отталкивает конкретный дактиль, где автор является полновластным хозяином своих персонажей, а они – его марионетками.
Дактиль выбирает деструктивный гекзаметр, при этом нельзя говорить, что это явления собственно фоники, звукописи.
По нашим наблюдениям, лишь небольшой процент 10-классников распознает абсурдность сообщения. Массовый ответ на вопрос, годится ли такой текст, чтобы сдать его преподавателю, – «нет», и это совершенно правильно. Однако аргументация этого «нет» показывает, что ученики отмечают только бросающуюся в глаза переусложненность: «потому что в нем много непонятных научных слов», «преподаватель не поверит».
Массовый характер однотипных ответов, поверхностных и неверно определяющих суть текста, заставил нас, во-первых, задуматься о редактировании задаваемого вопроса, а во-вторых, проводить индивидуальные уточняющие беседы с испытуемыми, которые показали, что термины типа «диалогический коммунальный модернизм» определяются правильно (как несуществующие), абсурд в употреблении связок типа «несмотря на», «потому что» и др. также в основном улавливается. Таким образом, многие испытуемые «в уме» правильно решают задачу на распознавание, но в своем письменном ответе об этом умалчивают. Почему?
Одной из причиной неправильного решения данной филологической задачи является неверие в свои силы. Приведем достаточно показательные объяснения, что же помешало решить задачу правильно: «Я не смогла ответить на вопрос поставленной задачи, т.к. сразу не поняла, что этот текст является бессмысленным. Некоторые термины (диалогический коммунальный модернизм) показались мне абсурдными, но я посчитала недостаточным свое филологическое образование для осмысления сложных лингвистических конструкций».
Вероятно, при работе учащихся с «Яндекс-рефератами» наблюдается описанный Ю.И. Левиным феномен «кажущегося понимания», который связан «с презумпцией осмысленности и/или авторитетности определенного класса текстов (например, любых текстов, печатаемых в данной газете), когда читателю кажется, что он понимает текст, на самом деле бессмысленный или внутренне противоречивый, или когда он не видит противоречия между текстом и действительностью или между текстами (веря каждый раз тому, что воспринимает в данный момент)» [4, с. 593].
Михаил Гельфанд, автор «Корчевателя», позволившего начать обсуждение многих актуальных для сегодняшней науки и жизни тем, написал в постскриптуме к своей статье: «В классическом тесте Тьюринга «судья» знает, что его собеседником может быть компьютер. В нашем случае редакция этого, по-видимому, не предполагала. Впредь будут умнее» [1]. Нам представляется, что сферу применения данного вывода необходимо расширить. При работе с текстами (и не только в интернет-общении) всем и всегда полезно на всякий случай предполагать, что «автором» может быть компьютер, и специально проверять это – прежде, чем начинать реагировать по существу. Такова новая реальность.
 

Литература

1. Гельфанд М. Четыреста первый способ Остапа Бендера // Троицкий вариант. Выпуск № 13N (839) 30 сентября 2008 г. URL: http://www.scientific.ru/trv/2008/013/ostap_bender.html.

2. Ивин А.А. Логика: учебник для гуманитарных факультетов. - М.: ФАИР-ПРЕСС, 2002. URL: http://psylib.org.ua/books/ivina01/index.htm.

3. «Корчеватель», дубль два // Фонд «Вечная молодость». Здоровый скепсис. URL: http://www.vechnayamolodost.ru/kordubdva79.html.

4. Левин Ю.И. О типологии непонимания текста // Левин Ю.И. Избранные труды. Поэтика. Семиотика. - М.: «Языки русской культуры», 1998. С. 581-593.

5. Савинов А.Б. Открытое письмо членам редколлегии журнала «Вестник Томского государственного университета. Философия. Социология. Политология». URL: http://macroevolution.livejournal.com/3121.html.

6. Шаповал С.А. Русский язык в функциональном аспекте: Текстовый материал с объяснениями и комментариями. - М.: МИОО, 2007.