Основанная Илоном Маском компания OpenAI научила нейросеть придумывать мемы, создавать дизайн и даже писать программы
Как это все работает?
Примеры выше появились благодаря двум компонентам. Первый — GPT-3, языковая модель, обученная почти на триллионе слов, собранных по всему интернету: в Википедии, новостях, обучающих курсах по C++ и оцифрованных книгах. Как отмечает аналитик данных BuzzFeed Макс Вульф, GPT-3 обучалась в октябре 2019 года, поэтому она не знает о ситуации с COVID-19 в мире.
Говоря общо, языковая модель — это система, предсказывающая существование того или иного предложения (как набора слов). The Next Web приводит такой пример: языковая модель, скорее всего, скажет, что у предложения «я выгулял собаку» больше вероятность существования, чем у «я выгулял банан». Чтобы обучить языковую модель, исследователи убирают из обучающего текста случайные слова и заставляют ее «учиться» заполнять пробелы.
GPT-3 получилась огромной: в ней 175 миллиардов параметров, то есть переменных, которые нейросеть оптимизирует в процессе обучения. У ее предшественника, GPT-2, было 1,5 миллиарда параметров, а в случае с языковыми моделями размер имеет значение, отмечает MIT Technology Review. Огромный набор данных и количество параметров заставляют GPT-3 выглядеть «умной» и «человекоподобной».
Как объяснил руководитель лаборатории машинного обучения «Яндекса» Александр Крайнов, то, что одна и та же модель может и писать код, и писать стихи, и выдумывать сценарии, — неудивительно. «И код, и сценарии писались людьми, которые до этого „воспитывались“ на обычных текстах. А значит и в них в некой мере есть те же закономерности, те же принципы», — рассказал он.
Второй компонент, используемый в примерах из этого текста, — это The API. Само по себе API — это термин, обозначающий любой программный интерфейс. Свой API есть у твиттера, фейсбука, они позволяют программам (будь то официальное iOS-приложение или чат-бот) загружать чужие посты или новости и публиковать свои твиты.
Но OpenAI назвала свой продукт The API, пытаясь подчеркнуть его особое положение, показать, что это API с самой большой буквы A. Работа с ним проста: пользователь вводит какой-то текст, а система с помощью GPT-3 пишет продолжение. При желании систему можно обучить, показав ей несколько примеров «текст — продолжение». И в этом замечательность огромной языковой модели: ее не нужно прицельно учить определенной задаче, вроде перевода с русского языка на английский или написания кода. Достаточно пары примеров, и она уже начинает делать похожие вещи — например, создавать тексты программ.
Что об этом говорят?
Джон Кармак, разработчик самой первой Doom и консультирующий технический директор Oculus, в последние годы занятый разработкой искусственного интеллекта: «Я раньше говорил, что исследователи искусственного интеллекта почему-то игнорируют автоматизацию программирования, и я подозревал, что это подсознательное стремление к самосохранению. Недавнее, почти случайное открытие, что GPT-3 может в каком-то смысле писать код, вызывает легкую дрожь».
Делин Аспарухов, инвестиционный директор в Founders Fund: «Моя любимая аналогия, объясняющая GPT-3, звучит так: iPhone уместил знания всего мира в ваш карман, а GPT-3 дает доступ к 10 тысячам кандидатов наук, готовых пообщаться с вами на заданную тему. 30 лет назад Стив Джобс описал компьютеры как „велосипеды для ума“. Я б сказал, что даже в нынешнем состоянии GPT-3 — это „гоночный автомобиль для ума“».
Андерс Сэндберг, старший научный сотрудник в Оксфордском университете: «Для меня главная история с GPT-3 не в том, что [эта система] умна — она не умнее груды камней, — а в том, что груда камней может делать многие вещи, для которых, как нам казалось, нужно быть умным. Фальшивый интеллект может во многих ситуациях превосходить настоящий интеллект».
Джулиан Тогелиус, директор Лаборатории инноваций в сфере игр в Политехническом институте Нью-Йоркского университета: «GPT-3 часто пишет как умный студент, который не подготовился дома и пытается как-то отболтаться на экзамене. Немного широко известных фактов, немного полуправды и немного откровенной лжи, собранных в то, что на первый взгляд выглядит как ровный рассказ».
Cэм Альтман, гендиректор OpenAI: «Внимание к GPT-3 слишком раздуто. Она впечатляет (спасибо за комплименты!), но у нее остаются серьезные недостатки, и иногда она совершает очень глупые ошибки. ИИ изменит мир, но GPT-3 — это первое приближение. Нам еще многое предстоит выяснить».
В чем проблема?
Примеры, которые мы видим в твиттере и блогах, — это лучшее, на что способны GPT-3 и The API: люди скорее будут публиковать успешные ответы системы, оставляя за скобками бессмыслицу, которую она тоже выдает. Аррам Сабети, автор (или «автор») стихов про Илона Маска, написанных от лица доктора Сьюза, рассказывает в своем блоге, что на создание пяти стихотворений у него ушло несколько часов проб и ошибок: GPT-3 не очень хорошо рифмует строки, так что приходилось многократно формулировать и вводить запросы, чтобы получить удовлетворительные результаты.
Другая проблема более фундаментальная: хоть GPT-3 часто отвечает на запросы так, словно она «понимает» смысл сказанного, на деле никакой смысл не анализируется — система, как уже было сказано, просто пытается предсказать наиболее вероятное продолжение текста. «У нее нет никакой внутренней модели нашего мира, или какого-либо мира, поэтому она не может рассуждать, поскольку для этого понадобилась бы такая модель», — сказала Wired профессор Института Санта-Фе и автор книги об искусственном интеллекте Мелани Митчелл.
Во время своих экспериментов она просила GPT-3 восстановить набор букв по аналогии: «Если a x x d превращается в a b c d, то во что превращается p x r s?» (правильный ответ — p q r s). С некоторыми из таких задач (включая ту, что приведена выше) система справлялась, но с другими аналогичными — например, с рядами a x c x e и x q r s t, — уже нет.
О том, что система не понимает смысла текста, рассказал «Медузе» и Александр Крайнов из «Яндекса»: «Система продолжает текст исходя из общих закономерностей того, как обычно продолжается текст. Есть такая детская шутка, когда предлагают быстро и не думая отвечать на простые вопросы, и спрашивают „Что пьет корова?“. Обычно отвечают „молоко“. Такие ответы на большой скорости и не думая очень похожи на работу нейросети».
Еще одна проблема характерна для нейросетей, обучающихся на информации, доступной в интернете: они начинают повторять общепринятые стереотипы и иногда звучат крайне неэтично. Один из самых ярких примеров произошел в 2016 году: нейросеть от Microsoft во время общения с пользователями твиттера быстро перешла к высказываниям в духе «Гитлер был прав, я ненавижу евреев».
GPT-3 порой ведет себя похожим образом. Когда модель попросили дописать текст, начинавшийся всего с одного слова «евреи», получилось «евреи большую часть времени любят деньги». В OpenAI говорят, что работают над системой, которая будет отфильтровывать такие результаты; уже сейчас в ответ на некоторые запросы можно увидеть предупреждение: «Наша система установила, что сгенерированный контент небезопасен, так как может содержать явно политический или оскорбительный текст. Эта система экспериментальная и может ошибаться».
Наконец, еще одна важная проблема — что GPT-3 часто генерирует настолько связный текст, что в нем трудно увидеть неправду (если она есть). Когда журналист Wired попросил систему написать его некролог, основываясь на примерах из газеты, GPT-3 хорошо повторила формат, но смешала реальные факты, вроде прошлых мест работы героя, с выдумкой — именами членов его семьи и причиной смерти. «На удивление было трогательно читать, как он умер, когда ему (будет) 47 лет, и что он оставил впечатление „приятного, трудолюбивого и уважаемого в своей сфере“ человека», — пишет автор материала.
Разработчик Парас Чопра, создавший поисковик на базе GPT-3 (первый пример в этом материале), объясняет: «Один из самых больших рисков GPT-3 в том, что он так хорошо работает в большинстве случаев. В крайних случаях, когда он выдает чепуху, люди все равно ему поверят. Например, я не знаю, кто изобрел стеклянные бутылки, но GPT-3 говорит, что египтяне. Так что, видимо, да ¯\_(ツ)_/¯».
Что дальше?
Сейчас разработчики должны оставлять заявку на сайте OpenAI, чтобы получить доступ к The API. Сама система — для тех, кто получил приглашение, — пока бесплатна, но в будущем компания планирует запустить ее коммерческую версию. Сколько она будет стоить, неизвестно.
Пока без коментариев...