В Google разработали нейросеть Imagen, которая «лучше DALL-E»
Компания Google представила нейросеть Imagen, которая генерирует изображения по текстовому описанию. Раньше лидером в этой области была лаборатория искусственного интеллекта OpenAI со своей программой DALL-E.
Созданные искусственным интеллектом изображения могут быть в разных стилях – от картин маслом до компьютерной графики и даже фотореалистичных рендеров. Хотя творчество Imagen впечатляет, к нему все же т следует относиться с долей скептицизма. Когда исследовательские группы выпускают новую модель ИИ, они, как правило, выбирают лучшие результаты.
Тем не менее в Google утверждают, что Imagen производит стабильно более качественные картинки, чем DALL-E 2 (обновленная версия нейросети от OpenAI, которая вышла в апреле). В основе этого утверждения – новый эталонный тест DrawBench, созданный для этого проекта. Суть теста в том, что Google ввела в Imagen и другие преобразователи текста в изображение примерно 200 описаний, а результат каждой программы затем оценивали люди.
Хотя модели генерации изображений по тексту обладают творческим потенциалом, у них также есть ряд проблемных точек. Например, такие системы можно использовать для фальшивых новостей, розыгрышей или преследования. Кроме того, они способны проявлять предубеждения, так как обучаются на данных, которые могут их содержать.
В Google отмечают, что модель «кодирует несколько социальных предубеждений и стереотипов», в том числе в отношении расовой и гендерной принадлежности. Это то, что исследователи обнаружили при оценке DALL-E. Попросите DALL-E сгенерировать изображения, например, «бортпроводника» – и почти на всех будут женщины. Попросите фотографии «генерального директора» – и вы получите множество белых мужчин.
По этой причине компания OpenAI решила не делать открытый доступ к DALL-E, а лишь предоставить возможность пользоваться инструментом одобренным бета-тестерам. В Google тоже считают, что их Imagen «не подходит для публичного использования в настоящее время» и планируют разработать и проверить новый способ оценки социальных и культурных предубеждений.