Google DeepMind выпустила новые ИИ-модели для роботов будущего

4.54k

Google DeepMind выпустила новые ИИ-модели для роботов будущего

13.03.2025

Лаборатория Google DeepMind представила две модели генеративного ИИ, созданные для роботов будущего. Обе построены на основе Google Gemini, мультимодальной базовой модели, которая может обрабатывать текст, голос и данные изображений. Новые модели улучшат взаимодействие роботов с окружающей средой. В демонстрационных роликах показано, как роботы успешно выполняют устные команды: собирают фигурки оригами, аккуратно помещают очки в чехол и забрасывают мяч в корзину, даже без разъяснения правил. Модели подходят для работы с любой аппаратной системой, но в основном были протестированы на двурукой системе Aloha 2, которую DeepMind выпустила в прошлом году.

Первую из новых моделей DeepMind называет Gemini Robotics, «продвинутой моделью зрения-языка-действия». Это означает, что она может принимать все те же входные данные, а затем выводить инструкции для физических действий робота.

В демонстрационном видео роборука по голосовой команде осторожно поднимает миниатюрный баскетбольный мяч и бросает его в сетку. Как пояснил Канишка Рао, главный инженер-программист проекта, сам робот никогда не видел ничего, связанного с баскетболом, но его ИИ-модель имела общее представление об игре, знала, как выглядит баскетбольная сетка, и понимала терминологию. Именно поэтому робот смог выполнить задачу в физическом мире.

Вторая представленная модель — это Gemini Robotics-ER, где ER означает «воплощенное рассуждение», что является своего рода интуитивным пониманием физического мира, которое люди развивают с опытом с течением времени. Мы можем, например, смотреть на объект, который никогда раньше не видели, и делать обоснованное предположение о наилучшем способе взаимодействия с ним, и именно это DeepMind стремится воспроизвести с помощью Gemini Robotics-ER. Так, благодаря этой модели робот способен находить подходящую точку захвата для взятия кофейной чашки. Модель ИИ правильно определяет ручку, потому что именно там люди, как правило, берут кофейные кружки.

Каролина Парада, руководитель отдела робототехники в Google DeepMind, рассказала на брифинге, что новые модели превосходят предыдущих роботов компании по трем параметрам: обобщение, адаптивность и ловкость. Все эти достижения необходимы для создания «нового поколения полезных роботов».

Текст: Майя Цветкова

Источник: IEE Spectrum

Изображение: Google DeepMind

Подписывайтесь на каналы Let AI be в Telegram и «ВКонтакте» — оставайтесь в курсе главных новостей в сфере искусственного интеллекта!