Microsoft и NVIDIA создали крупнейшую генеративную языковую ИИ-модель

2.84k

Microsoft и NVIDIA создали крупнейшую генеративную языковую ИИ-модель

20.10.2021

Microsoft и NVIDIA совместно создали модель генерации естественного языка Megatron-Turing Natural Language Generation (MT-NLG). Она включает 530 млрд параметров. Разработчики отметили, что это самая крупная и самая мощная монолитная трансформаторная языковая модель, обученная на сегодняшний день.

Параметров у MT-NLG в три раза больше, чем у модели GPT-3 (от компании OpenAI), считавшейся самой крупной. Новая модель решает такие задачи обработки естественного языка (NLP), как:

предсказание завершения текста по смыслу;
понимание прочитанного;
генерация логических выводов;
создание заключений на естественном языке;
различение смысла слов с несколькими значениями.

Инфраструктура модели построена на базе GPU (графического процессора) с программным стеком распределенного обучения. В процессе обучения применялись 15 датасетов, в том числе база данных медицинских и биологических публикаций PubMed, архив статей по математике, астрономии, физике и другим наукам ArXiv, а также Wikipedia и база данных RealNews. Всего – сотни миллиардов единиц контента.

«MT-NLG – пример того, что возможно, когда суперкомпьютеры, такие как NVIDIA Selene или Microsoft Azure NDv4, используются с прорывным программным обеспечением Megatron-LM и DeepSpeed для обучения крупных языковых AI-моделей. Качество и результаты, которые мы получили сегодня, – это большой шаг на пути к раскрытию всех возможностей искусственного интеллекта в области обработки естественного языка», – подчеркнули в Microsoft.

Напомним, на технологиях NLP основаны навигаторы с голосовым управлением, цифровые помощники, чат-боты и программы по переводу речи в текст. О примерах, задачах и методах обработки естественного языка читайте в подробной статье.