Открыт доступ к нейросети BLOOM для обработки текстов на 46 языках
Группа исследователей выпустила нейросеть BLOOM с отрытым исходным кодом. Это усовершенствованная модель обработки естественного языка, которая включает 176 миллиардов параметров. Проект начался в прошлом году в рамках сотрудничества между стартапом в области искусственного интеллекта Hugging Face Inc. и двумя производителями суперкомьютеров во Франции. Компания и ее партнеры сформировали исследовательскую группу под названием BigScience для создания нейросети.
«Это кульминация года работы, в которой приняли участие свыше 1000 исследователей из более 70 стран и более 250 учреждений. Работа завершилась 117-дневным обучением модели BLOOM (с 11 марта по 6 июля) на суперкомпьютере Jean Zay на юге Парижа благодаря гранту на вычислительные ресурсы на сумму около трех миллионов евро от французских исследовательских агентств CNRS и GENCI», — написали участники группы BigScience в своем блоге.
BLOOM умеет обрабатывать и генерировать текст на 46 естественных языках. По словам разработчиков, почти для всех из них (в том числе испанского, французского и арабского), BLOOM станет первой языковой моделью с более чем 100 миллиардами параметров.
Искусственный интеллект может отвечать на вопросы, обобщать текст, извлекать фрагменты информации из документов и выполнять множество других задач. Параметры — это настройки, которые определяют, как ИИ выполняет вычислительную задачу. Чем больше таких настроек включает в себя ИИ-система, тем более сложные задачи ей под силу.
BLOOM поддерживает 13 языков программирования. Организации, согласившиеся с условиями лицензии на ответственное применение искусственного интеллекта (Responsible AI License), могут использовать и развивать модель на локальном компьютере или через облачного провайдера.
Напомним, в прошлом месяце «Яндекс» выложил в свободный доступ YaLM 100B — нейросеть для генерации и обработки текстов на русском и английском языках, которая содержит 100 млрд параметров.
Фото: Unsplash