Как создать искусство искусственного интеллекта: DALL-E mini, AI Dungeon и многое другое
DALL-E Mini – это самый простой способ попробовать себя в искусственном интеллекте, но мы нашли лучшее решение, которое также является общедоступным.

содержание
Быстрое и простое введение в искусственный интеллект
Текстовое приключение с искусственным интеллектом: Подземелье с искусственным интеллектом
Добро пожаловать в волшебный мир искусственного интеллекта
Лучший сервис искусственного интеллекта прямо сейчас: Vantage AI Art от Latitude
Искусственный интеллект – это тоже весело
Не у всех из нас есть талант создавать произведения искусства в любой момент. Но алгоритмы, использующие машинное обучение, учатся создавать “искусство искусственного интеллекта” на основе текстовых подсказок — и вы тоже можете их использовать. Это фантастически весело.

Такие алгоритмы, как DALL-E (и, в конечном счете, DALL-E 2), DALL-E mini, Craiyon, Midjourney, Meta’s Make-A-Scene и другие, учатся брать общедоступные рисунки и узнавать, что делает их искусством. Или, по крайней мере, переварите различные элементы и стиль фотографии или художественного произведения и объедините их во что-то новое. Конечно, вы можете спорить, являются ли они на самом деле “искусством” или нет, но эти творения уникальны, оригинальны и неотразимы.

Проще говоря, искусство искусственного интеллекта использует текстовую подсказку: что—то конкретное, например, McDonalds на дне моря, или немного более общее, например, замок времени – подсказка, которая породила искусство в начале этой истории. Затем искусственный интеллект использует то, что он нашел в Интернете, и то, что он знает о запросе, для создания пользовательского художественного рендеринга, соответствующего описанию.

Из-за вычислительных требований, связанных с обучением и использованием алгоритмов, многие из самых мощных алгоритмов все еще заблокированы в рамках бета-тестов, где лишь несколько счастливчиков могут их опробовать. Одним из заметных исключений является DALL-E mini, публичный тест искусственного интеллекта, который доступен для вас и который переносится на Craiyon. Это хорошая новость; разработчики DALL-E Mini переходят на Craiyon по причинам, связанным с торговой маркой, но популярность DALL-E Mini затопила сайт. Но мы также нашли еще лучший вариант под названием Latitude’s Voyage, который можно попробовать бесплатно.

DALL-E mini, Craiyon и их конкуренты создадут произведения искусства практически из любой вашей идеи, и результаты могут быть странными, причудливыми или чем-то средним. Однако искусство искусственного интеллекта имеет некоторые ограничения: оно плохо работает с текстом, изображениями реальных людей, а темы NSFW, похоже, запрещены. И вы быстро обнаружите, что вычислительная мощность и сложность модели, используемой сервисом art, имеют существенное значение, поэтому Voyage является превосходным решением. Однако почти все остальное, по-видимому, является честной игрой. Предел, на самом деле, – это ваше воображение.

Макдональдс подводный Миджурни
Искусство искусственного интеллекта может склоняться к странному и гротескному, поскольку пользователи пробуют новые необычные запросы. Эта сцена, опубликованная Джеффом Ханом в Twitter, похоже, использовала “McDonald’s in underwater” в качестве текстовой подсказки.
Твиттер / @jeffhandesign
Вы можете воспользоваться нашим оглавлением, чтобы перейти непосредственно к приложениям AI art, или прочитать дальше, чтобы узнать, как все это работает.

ПРЕДЛОЖЕНИЯ ДНЯ: ЛУЧШИЕ ЦЕНЫ НА ЭТОТ ПОПУЛЯРНЫЙ ТОВАР НА СЕГОДНЯШНИЙ ДЕНЬ
Подключаемый TBT3-UDZ
Выбор редакторов
Прочитайте наш обзор
Лучшие цены на сегодня: $269,00 на Amazon | $369,00 на Newegg | $369,00 на Walmart
Быстрое и простое введение в искусственный интеллект
В целом, искусственный интеллект работает довольно простым способом. Алгоритм “учится”, когда ему показывают несколько изображений кошки, скажем, без указания того, какие характеристики определяют кошку. Определение этих правил зависит от алгоритма, иногда называемого “машинным обучением”. Затем алгоритм “тестируется” с изображениями кошек вперемешку с фотографиями собак, птиц и так далее. Если алгоритм был достаточно обучен, то он сможет распознавать “кошек” в реальном мире.

Это основы. Однако используемые здесь алгоритмы гораздо более сложны.

OpenAI, компания, соучредителем которой является Илон Маск и другие, в 2018 году разработала GPT (Generative Pre-Trained Transformer), языковую модель, которая использует глубокое обучение для создания текста, похожего на то, что написали бы вы и я. С тех пор OpenAI внедрила GPT в свою третью итерацию, GPT-3, модель которой была лицензирована исключительно Microsoft.

GPT использует так называемые “параметры” для определения взаимосвязей между различными типами данных, в данном случае для понимания значения и контекста различных слов. Согласно документу (PDF), описывающему модель GPT-2 второго поколения, GPT-2 был обучен на 8 миллионах документов, или 40 ГБ текста, с 1,5 миллиардами параметров. GPT-3, самая мощная на сегодняшний день версия, использует 175 миллиардов параметров и требует на порядки больше времени и вычислительной мощности для обучения, согласно Википедии и статье GPT-3.

Что касается лошадиных сил, разработчик искусственного интеллекта Latitude подсчитал, что только для обучения модели GPT-3, разделенной на различные суперкомпьютеры по всему миру, требуется 311 миллиардов терафлопс. Для контекста, суперкомпьютер Frontier Национальной лаборатории Ок-Риджа, самый мощный в мире, теоретически достигает максимума всего в 1,1 миллиона терафлопс. А графический процессор Nvidia GeForce RTX 3080 вычисляет около 30 терафлопс, в зависимости от версии.

Это означает две вещи. Во-первых, полностью привязанная к ПК модель GPT прямо сейчас просто неосуществима. И, во-вторых, GPT-2 и особенно GPT-3 настолько сложны, что дизайнеры искренне беспокоились об их способности обманывать людей с помощью сгенерированного контента. Были ли они правы? Что ж, вы можете решить сами — потому что модель доступна для игры в реальном мире.

Текстовое приключение с искусственным интеллектом: Подземелье с искусственным интеллектом
В 2019 году разработчик Ник Уолтон выпустил AI Dungeon, текстовое приключение на основе искусственного интеллекта, похожее на Zork с открытым миром – и это только на первый взгляд. Сегодня в AI Dungeon можно играть в Интернете, а также через приложения для Windows, Android и iOS, как часть компании под названием Latitude.

Искусственный интеллект позволяет вам играть в текстовое приключение, где вы можете создать среду полностью с нуля или же использовать мир, предварительно настроенный кем-то другим. Вы вольны создавать что угодно: истории, основанные на фэнтези, научной фантастике, вестернах или на чем угодно, что вы можете себе представить, и воспроизводить их с помощью текстовых подсказок. Каждое текстовое приглашение включает в себя три варианта: сделать что-то, сказать что-то или рассказать историю о том, что произошло. Каждое решение еще больше усложняет приключение.

Скриншот подземелья Latitude AI 3 с использованием Vantage
Невозможно охватить истинный масштаб подземелья искусственного интеллекта в рамках одного скриншота, но это неплохой снимок. Первоначально я использовал языковую модель Griffin, затем переключился на Wyvern-Hydra, более сложную модель.
Марк Хачман / IDG

Если хотите, вы можете сыграть в AI Dungeon как в приключение, похожее на Zork, выбрав класс персонажа, расу и так далее. Это может лучше всего сработать в традиционной фэнтезийной среде. Но вы также можете создать совершенно индивидуальный сценарий, который может разыграться совершенно неожиданным образом. Я создал мир, в котором западный город находился на краю бескрайней тьмы, где бродили монстры, используя примерно три предложения в качестве основы для описания того, что содержится в мире и каким будет мой персонаж. Но мой персонаж был почти мгновенно втянут в подзаголовок, где я спас заключенного, которого использовал глава местной гильдии воров.

AI Dungeon – это игра “freemium”: как и во многих мобильных играх, каждый “ход” измеряется, и его можно устранить с помощью платного плана. В данном случае, однако, это оправдано: ваши действия связаны со значительными затратами на стороне сервера с точки зрения ресурсов процессора. (После того, как эта история была опубликована, Latitude опубликовала сообщение в блоге, объявляющее о предстоящем изменении способа оплаты этих действий, заменяя систему “энергия” действиями, которые вы можете оплатить, просмотрев видеорекламу.) Вы также можете платить 14,99 долларов в месяц за так называемое “Путешествие”, которое устраняет ограничение на потребление энергии, а также дает вам доступ к двум дополнительным привилегиям: “Дракон” и 20 кредитам на создание изображений.

В то время как AI Dungeon использует языковые модели GPT-2, платная версия Vantage использует выбор моделей искусственного интеллекта, каждая из которых обладает различными характеристиками. По умолчанию, похоже, используется Griffin, движок искусственного интеллекта с 6 миллиардами параметров, который генерирует ответы быстрее. (AI Dungeon требуется несколько секунд или около того, чтобы сгенерировать ответ, с более длительным ожиданием для более сложных моделей.) Но вы также можете выбрать Dragon, гораздо более сложный движок GPT-3 с 178 миллиардами параметров, и объединить его с Hydra для определения приоритетов ответов. Вы также можете настроить степень случайности.

Меню настроек подземелья с искусственным интеллектом
Меню настроек подземелья искусственного интеллекта. Это немного отличается от настроек видео, которые вы, возможно, привыкли делать в компьютерных играх.
Широта

Хотя вы можете играть в GPT-2 версию AI Dungeon бесплатно, вам может потребоваться использовать подсказку “История”, чтобы помочь сохранить повествование в нужном русле. Версия Voyage GPT-3 (которую я играл в сценарии выше) была заметно лучше, с последовательным и отзывчивым повествованием. Мой рассказ о путешествии получился немного мрачным (и может пойти в направлении NSFW, если вы измените настройки), но это стоило моего и вашего времени. Вы даже можете сохранить повествование для себя или открыть его всему миру. AI Dungeon (Voyage) даже автоматически сгенерирует 2D-пиксельную графику, чтобы проиллюстрировать историю по ходу ее прохождения!

Отдельно Voyage также включает в себя собственное искусство, созданное искусственным интеллектом, называемое искусством искусственного интеллекта, которое вы можете создавать с помощью текстовых подсказок. Однако вы можете выбрать один из трех движков, начиная от пиксельной графики PixRay и заканчивая похожим на живопись Disco Diffusion, который будет генерировать ваш искусственный интеллект в различных стилях. (Мы подробнее рассмотрим это чуть позже.)

И это подводит нас к теме дня: изображения, генерируемые искусственным интеллектом, или искусство искусственного интеллекта.

Добро пожаловать в волшебный мир искусственного интеллекта
AI art использует модель GPT, используемую в AI Dungeon, но делает гигантский скачок вперед. Модель не только понимает взаимосвязь между словами, но и понимает, как эти слова взаимодействуют с изображениями. Это улучшение, которое действительно похоже на перевод текстовых подсказок AI Dungeon в совершенно новое измерение.

ОпенАЙ Далл-Э арт

OpenAI использовала это изображение “кресла в форме авокадо”, чтобы проиллюстрировать свой оригинальный алгоритм DALL-E.
Открывай
Наиболее заметным представителем искусства искусственного интеллекта является DALL-E, модель, выпущенная OpenAI в январе 2021 года. Компания описывает DALL-E как версию GPT-3 с 12 миллиардами параметров, что означает, что с точки зрения параметров она находится где-то между GPT-2 и GPT-3. DALL-E 2, выпущенный в апреле, предлагает “в четыре раза большее разрешение”, чем оригинальный DALL-E, согласно OpenAI, хотя OpenAI не выпускал модель публично. Вместо этого он доступен только через список ожидания для доступа к нему в закрытой бета-версии.

По словам аспиранта Калифорнийского университета в Беркли Чарли Снелла, DALL-E включает в себя автоэнкодер, который может корректно создавать изображения, и преобразователь, который понимает, как само изображение соотносится с текстовым описанием. Третья часть ранжирует изображения и отдает приоритет тем, которые, по ее мнению, являются “лучшими”. DALL-E просто работает в обратном направлении, беря текстовую подсказку и превращая ее в связное, интересное изображение.

ОпенАЙ ДАЛЛ-И 1 против ДАЛЛ-И 2
OpenAI опубликовала эту иллюстрацию, чтобы продемонстрировать различия между моделями DALL-E и DALL-E 2, ни одна из которых не является общедоступной.
Открывай
Как объяснялось выше, сам DALL-E заблокирован. Но Борис Дайма, инженер по машинному обучению, создал DALL-E Mini, чтобы восполнить пробел и сделать его общедоступным. В сообщении в блоге Dayma не говорится, насколько сложна модель, хотя код доступен с основного сайта (сообщество искусственного интеллекта, Hugging Face), чтобы загрузить его самостоятельно — если у вас есть оборудование. Dayma также указывает, что в разработке находится вторая, более мощная модель: DALL-E Mega, “самая большая версия DALL-E Mini”, которая все еще находится в стадии разработки.

DALL-E Mini генерирует сетку 3X3 из изображений, которые, по его мнению, являются лучшими для данного запроса. Они неоднородны, и, вероятно, это хорошо, если вы не приходите с завышенными ожиданиями. DALL-E Mini хорошо справляется с несколько абстрактными представлениями объектов и несколько плохо справляется с лицами и текстом. В каком-то смысле это похоже на путешествие за границу. Если вы отправитесь на поиски “американской” еды в далекие страны, это может показаться несколько странным. Но если вы готовы попробовать что-то дикое, вы можете получить экстраординарный результат.

Однако есть один недостаток: пробки. Спрос на DALL-E Mini вырос вместе с его популярностью, и вы часто будете видеть всплывающее окно с сообщением о том, что “слишком много трафика”, и повторите попытку. Лучше всего попробовать DALL-E Mini поздно вечером или ранним утром, когда движение на дорогах самое слабое. Похоже, что создание изображения занимает около двух минут или около того, так что будьте готовы тоже подождать.

Некоторые мини-изображения DALL-E довольно хороши. Некоторые, ну, в некотором роде ужасны. Некоторые из них просто плохие (и мы их здесь не показывали). Вы можете использовать наш инструмент сравнения изображений ниже, чтобы просмотреть два созданных нами изображения.

Dall-E Мини-голубь Dall-E Мини Анна Кендрик
Рисунок, созданный DALL-E Mini, с использованием подсказок, введенных автором.
Однако неясно, как долго DALL-E Mini будет оставаться в сети. Часто задаваемые вопросы для Craiyon, другого генератора искусственного интеллекта, указывают на то, что Дайма начал переносить модель на новый сайт из-за потенциальной путаницы между его усилиями и собственной моделью DALL-E OpenAI.

На данный момент, однако, вы выиграете. Во-первых, Craiyon, похоже, использует мега-модель DALL-E, которая теоретически должна улучшить качество показываемых изображений. На самом деле мои первые попытки воспользоваться сервисом не произвели на меня особого впечатления, но я подумал, что этот результат был забавным.

Человек-паук Craiyon, продающий арахис на бейсбольном матче
Марк Хачман / IDG

14 июля Meta дебютировала в Make-A-Scene, новом арт-проекте с искусственным интеллектом, который позволит использовать людей для создания произведений искусства с помощью текстовых подсказок, как это делают другие арт-проекты с искусственным интеллектом. Разница здесь в том, что пользователи также смогут набросать, как они хотят, чтобы выглядела общая сцена. Пример Meta, изложенный в сообщении в блоге компании, дает пример сгенерированной искусственным интеллектом сцены с велосипедом в ней: в какую сторону должен быть обращен велосипед? Должен ли он быть большим или маленьким? Это похоже на то, как другие программы искусственного интеллекта могут использовать произведение искусства или фотографию в качестве “затравки”, но больше внимания уделяется пользователю, управляющему творческим процессом в Make-A-Scene.

В остальном Make-A-Scene выглядит довольно похоже на другие проекты искусственного интеллекта. Прямо сейчас он ограничен “создателями” и еще не открыт для широкой публики. Тем не менее, некоторые работы Make-A-Scene выглядят довольно неплохо. Отчасти это связано с тем, что он создает изображения размером 2048 x 2048 пикселей.

Мета устроит сцену
Несколько примеров искусства, созданного командой Meta’s Make-A-Scene.
Мета

Лучший сервис искусственного интеллекта прямо сейчас: Vantage AI Art от Latitude
Так что же лучше сделать? Сервис Latitude Voyage и его возможности искусственного интеллекта Art, который предлагает бесплатную недельную пробную версию. Хотя вам придется подписаться (и ввести кредитную карту), ничто не мешает вам использовать свои кредиты AI Art до истечения срока действия пробной версии. (20 бесплатных кредитов на изображение продлеваются каждый месяц, или вы можете купить дополнительные кредиты за 20 кредитов / 5 долларов за 100 кредитов / 20 долларов.) Еще лучше то, что нет никаких ограничений по трафику, и каждое творение искусственного интеллекта сопровождается оценкой времени, которая обычно составляет около десяти минут или около того. Но более высокая вычислительная нагрузка (и, как следствие, более длительное ожидание) делает искусство более интересным.

Широтный обзор единорога Широтная гроза с молнией
Слева: “Единороги бродят по полю под звездным небом”. Справа: “Инопланетная гроза с молниями в стиле Томаса Кинкейда”. Оба были сгенерированы сервисом искусственного интеллекта Latitude Voyage с использованием подсказок, предоставленных автором.
Опять же, ваши результаты будут неоднозначными, но различные (проприетарные?) движки предлагают широкий выбор стилей. Я неравнодушен к движку Disco Diffusion engine, который рендерит изображения, больше похожие на картины, как показано на нашем основном изображении для этой статьи. AI Art также рекомендует вам отправить текстовое приглашение в художественном стиле, что я и сделал на другом изображении ярмарочной площади в стиле farmpunk (?) художника Саймона Сталенхага. Также стоит попробовать пиксельную графику PixRay и мультяшную эстетику VQGAN. Последние два, как правило, рендерятся намного быстрее. Обратите внимание, что вы можете увеличить размер изображения по умолчанию, но алгоритм “взимает” с вас больше фотокредитов, если вы заходите слишком высоко.

Во всем этом всегда будет присутствовать определенная степень художественной интерпретации. Хотя вы можете попробовать запросить “фотографию” конкретной сцены, вы, вероятно, будете гораздо более довольны чем-то, что больше похоже на творение художника, чем на камеру.

Широта Шталенхагльский замок широты
Слева: “Ярмарочная площадь с прогуливающимся по ней инопланетным роботом в стиле Саймона Столенхага” Справа: “Замок стоит рядом с горным озером, а его стену окружает дракон. Горящее дерево на соседней горе освещает всю сцену. Фантастическая эстетика.” Оба были сгенерированы сервисом искусственного интеллекта Latitude Vantage с использованием подсказок, предоставленных автором.
Ни DALL-E, ни DALL-E Mini, ни Latitude’s Voyage не обладают монополией на искусство искусственного интеллекта. У Midjourney, аналогичного сервиса, который в настоящее время находится в закрытом бета-тестировании, также есть список ожидания, на который можно подать заявку. Изображения Midjourney особенно потрясающие, хотя неясно, насколько легко вы сможете получить доступ к сервису или каковы условия предоставления услуг. По словам автора, изображение “подводного Макдональдса” выше на странице было создано в Midjourney. Рисунок ниже также был создан с использованием Midjourney, согласно постеру.

Посмотрите этот пост в Instagram
Пост, которым поделился Ван ван, занимающийся дизайном (@wan.tseng)

Один большой вопрос, который остается без ответа: кому на самом деле принадлежит это искусство? Если модели были обучены на общедоступных работах из Интернета, а затем изменены с помощью искусственного интеллекта по команде сгенерированной пользователем подсказки, неясно, принадлежит ли это кому-либо.

Искусственный интеллект – это тоже весело
Изображения – не единственный источник искусства искусственного интеллекта. На самом деле преобразование текста в речь – отличный способ скоротать время и даже весело подшутить над своими друзьями. Uberduck.ai это всего лишь один из множества различных сайтов преобразования текста в речь, но сайт известен как своими бесплатными сервисами (просто зарегистрируйтесь с бесплатной учетной записью, включая Google), так и абсолютным количеством синтезированных голосов. Все, что вам нужно сделать, это ввести отрывок или короткое сообщение, и вы можете попросить всех, от Багза Банни до Бивиса, Бэтмена и Барака Обамы, прочитать его в ответ — ну, во всяком случае, синтезированную версию. Вы даже можете загрузить свой собственный голос на сайт (за 15 долларов), если хотите.

И если вам нужно что-то помимо визуального искусства, у OpenAI также есть другой сервис, называемый Jukebox. Музыкальный автомат служит экспериментом по воспроизведению “звука” определенной группы или исполнителя, такого как Фрэнк Синатра или the (Dixie) Chicks, хотя и без возможности настроить пользовательскую мелодию. Музыкальный автомат впечатляет тем, что он делает, но ему не хватает фактора “вау!”, присущего другим сервисам.

Все это действительно демонстрирует потенциал (и подводные камни) искусства искусственного интеллекта. Однако верно и то, что искусственный интеллект — особенно человекоподобные текстовые конструкции, созданные с помощью GPT3, – безусловно, может быть использован для одурачивания людей, уже заваленных дезинформацией. Все эти примеры предназначены для того, чтобы было очевидно, кто и что создает конечный результат, но это не обязательно. Это видео на YouTube, приведенное ниже, абсолютно не относится к королеве Англии. Это известно как “глубокая подделка”, конструкция искусственного интеллекта, предназначенная для обмана (или развлечения, в зависимости от обстоятельств).

В остальном, однако, мы действительно даже не коснулись поверхности видео, сгенерированного искусственным интеллектом, хотя, похоже, мы можем использовать приведенные выше примеры, чтобы предложить некоторые пути продвижения вперед. Например, применение искусственного интеллекта к клипу Сайнфелда и замена голоса Джорджа голосом Билла Гейтса, например, не кажется таким уж надуманным.

Аудио и изображения, созданные искусственным интеллектом, могут быть забавными, но преднамеренное использование искусственного интеллекта для обмана людей – глубоких подделок — может стать реальной угрозой в ближайшие годы.

Однако что еще более захватывающе, так это то, куда ведет эта дорога. На данный момент просто нет способа запустить AI art с какой-либо точностью на ПК. Но с продолжающимися улучшениями в процессорном пространстве вычислительная мощность, необходимая для обработки искусственного интеллекта в серверном пространстве, будет продолжать снижаться, при этом обещается, что качество должно улучшиться. Мы не учитываем, сколько приложений для повышения производительности подключаются к облаку или запускаются в нем, и вполне возможно, что Adobe, Google или Microsoft могли бы использовать свои установленные облака для облегчения такого рода приложений для потребителей и создателей.. Компании, производящие чипы, такие как AMD, Intel и Qualcomm, также изо всех сил пытались оправдать свои инвестиции в технологии искусственного интеллекта для ПК. Уделение большего внимания приложениям искусственного интеллекта для конечных пользователей поможет решить эту проблему.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *