Искусственный интеллект лаборатории Open AI научился генерировать картинки из текста

09 января

12:34 2021

Распечатать статью

Кресла в форме авокадо и маленькой редиски дайкона в пачках являются одними из причудливых образов, созданных новым программным обеспечением от OpenAI, лаборатории искусственного интеллекта при поддержке Илона Маска в Сан-Франциско.

OpenAI обучил программное обеспечение, известное как Dall-E, генерировать изображения из коротких текстовых подписей. Он специально использовал набор данных из 12 миллиардов изображений и их подписей, которые были найдены в Интернете.

Лаборатория сообщила, что Далл-И — смесь испанского художника-сюрреалиста Сальвадора Дали и Валл-И, маленького анимированного робота из одноименного фильма Pixar — научился создавать изображения для самых разных концепций.

OpenAI продемонстрировал некоторые результаты в сообщении в блоге, опубликованном во вторник. «Мы обнаружили, что он [Dall-E] обладает разнообразным набором возможностей, включая создание антропоморфных версий животных и предметов, комбинирование несвязанных концепций правдоподобными способами, рендеринг текста и применение преобразований к существующим изображениям», — написала компания.

fcf30f390dde067d08e2a5e8c3895792.png (824 KB)

Кресло-авокадо, сгенерированое Dall-E

Dall-E построен на нейронной сети, которая представляет собой вычислительную систему, напоминающую человеческий мозг, которая может выявлять закономерности и распознавать отношения между огромными объемами данных.

Хотя нейронные сети и раньше генерировали изображения и видео, Dall-E необычен, потому что он полагается на ввод текста, а другие — нет.

Синтетические видео и изображения в последние годы стали более изощренными, и людям стало трудно различать то, что реально, а что создано компьютером. Общие состязательные сети (GAN), в которых используются две нейронные сети, использовались, например, для создания поддельных видеороликов политиков.

OpenAI признал, что Dall-E имеет «потенциал для значительного, широкого общественного воздействия», добавив, что он планирует проанализировать, как модели, подобные Dall-E, «связаны с социальными проблемами, такими как экономическое влияние на определенные рабочие процессы и профессии, возможность предвзятости в результатах и более долгосрочные этические проблемы, связанные с этой технологией».

Преемник GPT-3

Dall-E появился всего через несколько месяцев после того, как OpenAI объявил о создании текстового генератора под названием GPT-3 (Generative Pre-training), который также поддерживается нейронной сетью.

Инструмент создания языков способен создавать по запросу текст, похожий на человека, и стал относительно известным благодаря программе ИИ, когда люди поняли, что он может писать свои собственные стихи, новостные статьи и рассказы.

«Dall-E — это система Text2Image, основанная на GPT-3, но обученная на тексте и изображениях», — говорит Марк Ридл, доцент Технологической школы Джорджии по интерактивным вычислениям.

«Text2image не нова, но демо Dall-E замечательно тем, что создает иллюстрации, которые намного более связны, чем другие системы Text2Image, которые я видел в последние несколько лет».

OpenAI конкурирует с такими фирмами, как DeepMind и Facebook AI Research, за создание алгоритмов общего назначения, которые могут выполнять широкий спектр задач на уровне человека и за его пределами.

Исследователи создали ИИ, которые могут играть в сложные игры, такие как шахматы и китайская настольная игра го, переводить один человеческий язык на другой и выявлять опухоли на маммограмме. Но заставить систему искусственного интеллекта показать подлинную «креативность» — большая проблема в отрасли.

Ридл сказал, что результаты Dall-E показывают, что он научился согласованно сочетать концепции, добавив, что «способность согласованно сочетать концепции считается ключевой формой творчества у людей».

«С точки зрения творчества это большой шаг вперед», — добавил Ридл. «Хотя нет единого мнения о том, что значит для системы ИИ «понимать» что-то, способность использовать концепции по-новому — важная часть творчества и интеллекта».

Нил Лоуренс, бывший директор по машинному обучению в Amazon Cambridge, сказал, что Dall-E выглядит «очень впечатляюще».

Лоуренс, который сейчас является профессором машинного обучения в Кембриджском университете, охарактеризовал это как «вдохновляющую демонстрацию способности этих моделей хранить информацию о нашем мире и обобщать то, что люди считают очень естественными».

Он сказал: «Я ожидаю, что появятся самые разные приложения этого типа технологий, я даже не могу себе представить. Но это также интересно с точки зрения того, что это еще одна довольно умопомрачительная технология, которая решает проблемы, о которых мы даже не подозревали».

«Не способствует развитию ИИ»

Однако не всех так впечатлил Dall-E.

Гэри Маркус, предприниматель, который продал Uber стартап по машинному обучению в 2016 году за нераскрытую сумму, заявил, что это интересно и «не способствует развитию ИИ».

Он также отметил, что исходный код не был открыт, и компания еще не опубликовала научную статью об исследовании.

Маркус ранее сомневался, следует ли классифицировать некоторые из исследований, опубликованных конкурирующей лабораторией DeepMind в последние годы, как «прорывные».

OpenAI была создана как некоммерческая организация с залогом в 1 миллиард долларов от группы основателей, в которую входил генеральный директор Tesla Илон Маск. В феврале 2018 года Маск покинул правление OpenAI, но продолжает делать пожертвования и консультировать организацию.

OpenAI стала коммерческой компанией в 2019 году и привлекла еще 1 миллиард долларов от Microsoft для финансирования своих исследований. GPT-3 должен стать первым коммерческим продуктом OpenAI, и Reddit стал одним из первых клиентов.

По материалам: CNBC