ИндустрияВосстание машин откладывается: почему тест Тьюринга устарел
Что на самом деле стоит за победой чат-бота, изображающего мальчика из Одессы
Текст
Артём Лучко
Британский университет Рединга с большой помпой объявил, что миновала «важная веха в истории вычислительной техники» и компьютер впервые прошёл корректно поставленный тест Тьюринга, введя в заблуждение судей, которые поверили, что общаются с 13-летним украинским мальчиком. Look At Me разобрался в том, что кроется на самом деле за этим событием.
Что собой представлял эксперимент
Университет Рединга, специалисты которого провели первый успешный тест Тьюринга
Тестирование чат-ботов было организовано Школой системной инженерии при университете Рединга к 60-летию кончины Алана Тьюринга. Эксперты общались одновременно с живым человеком и с программой, находясь в разных комнатах. По окончании теста каждый из судей должен заявить, кто из двух его собеседников — человек, а кто — программа. Для чистоты эксперимента были задействованы пять компьютеров и 30 судей, каждый из которых провёл серию из 10 письменных диалогов длительностью по 5 минут. Хотя обычно в ежегодном конкурсе программ искусственного интеллекта на премию Лёбнера (в котором программы соревнуются в прохождении теста Тьюринга за приз $2000) принимают участие всего 4 чат-бота и 4 человека. В результате эксперимента программа Eugene Goostman сумела убедить 33 % состава жюри в своей «человечности», что произошло первый раз в истории. Роберт Луэллин, один из судей, британский актёр и любитель технологий сказал:
Тест Тьюринга был удивительным. Состоялись 10 сеансов по 5 минут, 2 экрана, 1 человек и 1 машина. Я угадал правильно только 4 раза. Этот робот оказался умным малым...
Чат-бот Eugene Goostman был разработан выходцем из России Владимиром Веселовым (сейчас он проживает в США) и украинцем Евгением Демченко, живущим в России. Первая версия появилась ещё в 2001 году. Возраст подростка был выбран неслучайно: в 13 лет ребёнок уже многое знает, но далеко не всё, что усложняет задачу судей. В 2012 году чат-бот уже подобрался довольно близко к успеху: тогда в «человечность» украинского школьника поверили 29 % из числа судей. В ходе последних доработок программистам удалось подготовить виртуального собеседника ко всем возможным вопросам и даже обучить его подбирать примеры ответов в «Твиттере».
Что такое тест Тьюринга,
и в чём его недостатки
Алан Тьюринг в возрасте 16 лет
Тест Тьюринга был впервые предложен британским математиком Аланом Тьюрингом в статье «Вычислительная техника и интеллект», опубликованной в журнале Mind в 1950 году. В ней учёный задался простым вопросом: «Может ли машина мыслить». В своей самой простой форме тест заключается в следующем: человек взаимодействует с одним компьютером и одним человеком. На основании ответов на вопросы он должен определить, с кем он разговаривает: с человеком или компьютерной программой. Задача компьютерной программы — ввести человека в заблуждение, заставив сделать неверный выбор. Тест подразумевает пятиминутный текстовый диалог, в ходе которого минимум 30 % судей должны поверить, что они имеют дело с человеком, а не машиной. При этом, разумеется, все участники теста не видят друг друга.
Джон Серл, американский философ
Есть много различных версий этого испытания (в некоторых вариациях судья знает, что одним из проверяемых собеседников является компьютер, в других — не знает об этом), но многие учёные и философы критикуют его по сей день. В своё время американский философ Джон Серл бросил тесту вызов своим мысленным экспериментом, известным как «Китайская комната». Он позволил себе предположить, что способность компьютера вести разговор и убедительно отвечать на вопросы — далеко не то же самое, что иметь разум и мыслить, как человек. «Предположим, что меня заперли в комнате и [...] что я не знаю ни одного китайского слова, ни письменно, ни устно», — пишет Серл в 1980 году. Он представил, что получал вопросы, написанные на китайском языке через щель в стене. Он не был в состоянии прочитать эти символы, но имел набор инструкций на английском, которые позволяли ему реагировать на «один набор формальных символов другим набором формальных символов». Таким образом, Серл теоретически смог бы отвечать на вопросы, просто следуя правилам английского и выбирая правильные китайские иероглифы. И его собеседники были бы убеждены, что он может говорить по-китайски.
Большинство критиков теста Тьюринга как способа оценки искусственного интеллекта придерживаются аналогичного мнения. Они утверждают, что компьютеры могут только использовать наборы правил и огромные базы данных, запрограммированных для ответов на вопросы, чтобы лишь казаться разумными.
Как программа обманула жюри
Профессор университета Рединга Кевин Уорвик
У Eugene Goostman имеется два фактора, которые помогли ему пройти тест. Во-первых, грамматические и стилистические ошибки, которые допускает машина в подражание письму подростка, а во-вторых, отсутствие знаний о специфических культурных и исторических фактах, которое также может быть списано на возраст школьника.
В процессе разработки искусственного интеллекта нет более знакового и противоречивого этапа, чем прохождение теста Тьюринга
«Успех программы, скорее всего, пробудит некоторые опасения по поводу будущего информационных технологий, — заявил профессор университета Рединга Кевин Уорвик. — В процессе разработки искусственного интеллекта нет более знакового и противоречивого этапа, чем прохождение теста Тьюринга, когда компьютер убеждает достаточное количество судей полагать, что с ними общается не машина, а человек. Само существование компьютера, который может обмануть человека, заставив его думать, что он — это человек, является тревожным сигналом, связанным с киберпреступностью». Тест Тьюринга по сей день является важным инструментом в борьбе с этой угрозой. И теперь специалистам предстоит более полно разобраться, как появление подобных продвинутых чат-ботов может повлиять на онлайн-общение в интернете.
Судя по логам, которые можно найти в Сети (опробовать бот самостоятельно пока не получается, вероятно, из-за ажиотажа сайт не выдержал трафика и «упал»), чат-бот довольно-таки примитивен и, как кажется на первый взгляд, не сильно отличается от похожих разработок, которые можно найти в интернете. Один из любопытных диалогов с «Евгением» представил журналист Леонид Бершидский, который задавал ему неудобные вопросы о громком событии, которое не могло пройти мимо юного одессита.
Пример из диалога с Евгением Густманом
Ответы Густмана выделены зеленым цветом, а вопросы журналиста — синим
Полный текст диалога можно найти здесь
Даже учитывая проработанный характер и биографию, ошибки и опечатки, которые может допускать реальный подросток, убедительность бота вызывает сомнения. По сути, он также реагирует на ключевые слова, а когда его ставят в тупик, он выдает заранее заготовленные и не самые оригинальные ответы-заглушки. Если бы программа имела возможность использовать поисковые системы, чтобы находиться в контексте текущей ситуации в мире, мы могли бы видеть гораздо более впечатляющий результат. Вероятно, на это нужно время. Ранее известный футуролог Реймонд Курцвейл, занимающий должность технического директора Google, заявлял, что компьютеры смогут с лёгкостью проходить тест Тьюринга к 2029 году. По его предположениям, к этому времени они смогут освоить человеческий язык и превзойти интеллектом людей.
7 суперкомпьютеров, способных обхитрить человека
ELIZA
В 1966 году Джозеф Уайзенбаум разработал программу ELIZA, принцип которой заключался в анализе введённых пользователем комментариев на ключевые слова. Если такие слова были найдены, программа применяла правило, по которому этот комментарий преобразовывался и возвращался пользователю. Если ключевых слов введено не было, ELIZA возвращала пользователю общий ответ-заглушку либо повторяла один из предыдущих комментариев. Программа также имитировала поведение психотерапевта, работающего по клиент-центрированной методике. Таким образом, она «притворялась, что не знает почти ничего о реальном мире». Благодаря этим способам, программа Уайзенбаума могла вводить в заблуждение людей, заставляя их полагать, что разговаривают они с человеком. ELIZA, возможно, может считаться первой программой, которая смогла пройти тест Тьюринга, но результаты не являются достаточно убедительными. Для 60-х это было такой диковинкой, что люди не могли даже предположить, что они говорят с программой.
PARRY
В 1972 году Кеннет Колби доработал «Элизу» таким образом, что программа пыталась моделировать поведение параноидального шизофреника. Его программу PARRY с помощью одной из модификаций теста Тьюринга проверяли на команде опытных психиатров, анализировавших группу из настоящих пациентов и компьютеров. Команда из 33 психиатров изучила стенограмму бесед и лишь в 48 % случаев смогла вынести верное решение. Но этот тест также не может считаться на 100 % достоверным, потому как для вынесения корректного решения судей требуется, чтобы вопросы можно было задавать в интерактивном режиме.
Лауреаты премии Лёбнера
С 1991 года Кембриджский центр исследований поведения в Массачусетсе проводит ежегодный конкурс на получение премии Лёбнера. И хотя серебряная (за лучшего аудио-чат-бота) и золотая (за лучшего аудио- и зрительного чат-бота) медали ещё ни разу не вручались, на конкурсе ежегодно присуждается бронзовая медаль. Её удостаиваются программы, демонстрирующие «наиболее человеческое» поведение в разговоре. Самыми известными призёрами являются чат-бот A.L.I.C.E. (три награды — в 2000, 2001 и 2004 годах), программа Jabberwacky (две награды — в 2005 и 2006 годах), Elbot (награда 2008 года) — он даже не притворялся человеком, но обманул трёх судей.
Deep Blue
Суперкомпьютер Deep Blue компании IBM, способный оценить 200 миллионов позиций в секунду, 11 мая 1997 года выиграл матч из 6 партий у чемпиона мира по шахматам Гарри Каспарова. После матча гроссмейстер высказал претензии корпорации IBM, обвиняя её в создании нездоровой напряжённости вокруг матча, неравных условиях и нечестной игре.
Watson
Другой суперкомпьютер IBM — Watson — победил в американской телевикторине Jeopardy! (аналог российского проекта «Своя игра»). Машина выиграла у двух бывших чемпионов игры Кена Дженнингса и Бреда Руттера. По итогам Watson получил 1 миллион долларов, в то время как Дженнингс и Раттер получили 300 и 200 тысяч долларов соответственно. Watson состоит из 90 серверов, использующих для работы 360 процессоров. Он «понимает» речь, а чтобы эмулировать процесс мышления, в компьютер были загружены миллионы документов, включая словари, антологии и энциклопедии.
Симулятор «человечности» DI-Guy
Компания Boston Dynamic, известная своими впечатляющими роботами, разработала программный продукт DI-Guy, который моделирует персональную и групповую деятельность человека. Система отвечает за сценарное и ситуационное взаимодействие и коммуникацию в ходе военных операций, аналитику поведения людей для оценки потенциальной опасности и многое другое.
Бот по продаже медицинских страховок
В декабре 2013 года в СМИ всплыл курьёзный случай, когда в вашингтонский офис журнала Time позвонила девушка, представилась Самантой Уэст и предложила купить медицинскую страховку. С ней лично говорил глава издания Майкл Ширер, который через некоторое время заподозрил что-то странное. На прямой вопрос, робот ли она, девушка со смехом ответила, что она вполне реальный человек. Майкл попросил её назвать овощ, который входит в состав томатного супа. На этот вопрос девушка ответить не смогла: сказала, что не понимает вопроса. Просьба назвать вчерашний день недели тоже остался без ответа — в этот раз Саманта сослалась на плохую связь. Позже репортёры Time перезвонили по оставленному номеру и выяснили, что имеют дело с голосовой программой, общающейся по сценарию. Попробовать пообщаться с роботом можно, позвонив в Вашингтон по номеру (484) 589-5611.
Cleverbot
Чат-бот Cleverbot впечатлил многих во время фестиваля Techniche в Индии, где он фактически прошёл тест Тьюринга. В ходе эксперимента всего было подано 1 334 голоса добровольцев, а результаты транслировались на большом экране. В итоге выяснилось, что людей считали людьми 63 % испытуемых, а бота человеком — 59 %. Все дело в том, что Cleverbot, имеющий 45 млн строк записанных чатов, постоянно тренируется на людях онлайн, пополняя свою базу ответов, и этот индекс удваивается ежегодно.
Что несёт победа робота
над человеком?
Большинство учёных не считают тест Тьюринга надёжным способом оценить искусственный интеллект. Идея такого теста была предложена в то время, когда компьютеры занимали собой целые здания, и в нынешнем виде он не может быть действительно полезным при разработке искусственного интеллекта из-за своего антропоцентризма. Член совета Американской ассоциации искусственного интеллекта Питер Норвиг проводит аналогию: проектируя самолёт, инженеры не ставят целью создание машины, которая летает, как голубь, что не мешает им добиваться своих целей. Именно поэтому сегодня исследователи в области искусственного интеллекта уделяют мало внимания прохождению этого теста.
Шумиха вокруг Goostman слегка преувеличена. Этот чат-бот — вовсе не суперкомпьютер и не революционное программное обеспечение, а просто очередной «внук» ELIZA и PARRY, ловко жонглирующий фразами, смысл которых он не понимает. Goostman, как и предшественники, опирается в основном на распознавание образов, а не на подлинное их понимание. Это уточнение старой идеи, не фундаментальное изменение в области искусственного интеллекта. По сути, «мальчик-одессит» точно так же, как «психотерапевт Элиза» (после любой фразы без конкретных ключевых слов начинала увиливать и задавать ответные вопросы: «Как это повлияет на ваши чувства к своей семье?»), обращается к тактике вопрос-уклонение, предлагая «поговорить о чем-то другом».
Победа Goostman говорит вовсе не о том, что киборги SkyNet вот уже дышат нам в затылок, а о таланте программистов, которые научились ловко маскировать ограниченность и примитивность чат-бота с помощью плоских шуток, наводящих вопросов и обрывков фраз. Самое ценное, что может дать победа Goostman, — это обнадёживающие новости для всех разработчиков видеоигр. Подобные чат-боты способны помочь сделать убедительных интерактивных персонажей следующих поколений и навсегда изменить сторителлинг в играх. Кроме того, легко представить, как могут подобные программы пригодиться в сфере онлайн-шопинга. «Умный» чат-бот, внедрённый на главную страницу интернет-магазина, будет способен мгновенно давать дельные советы и консультировать по различным вопросам, начиная от размерной линейки и заканчивая способами оплаты и доставки.
Распространение программ, способных общаться более «человечно», может привести к всплеску онлайн-преступности. Чат-боты уже давно поселились в Skype, где они притворяются друзьями «жертв» или технической поддержкой, после чего пытаются убедить перейти по ссылке, чтобы нагнать трафик или разнести очередное вредоносное ПО.
cover image via shutterstock.com
Комментарии
Подписаться