Microsoft и NVIDIA создали крупнейшую генеративную языковую ИИ-модель
Microsoft и NVIDIA совместно создали модель генерации естественного языка Megatron-Turing Natural Language Generation (MT-NLG). Она включает 530 млрд параметров. Разработчики отметили, что это самая крупная и самая мощная монолитная трансформаторная языковая модель, обученная на сегодняшний день.
Параметров у MT-NLG в три раза больше, чем у модели GPT-3 (от компании OpenAI), считавшейся самой крупной. Новая модель решает такие задачи обработки естественного языка (NLP), как:
- предсказание завершения текста по смыслу;
- понимание прочитанного;
- генерация логических выводов;
- создание заключений на естественном языке;
- различение смысла слов с несколькими значениями.
Инфраструктура модели построена на базе GPU (графического процессора) с программным стеком распределенного обучения. В процессе обучения применялись 15 датасетов, в том числе база данных медицинских и биологических публикаций PubMed, архив статей по математике, астрономии, физике и другим наукам ArXiv, а также Wikipedia и база данных RealNews. Всего – сотни миллиардов единиц контента.
«MT-NLG – пример того, что возможно, когда суперкомпьютеры, такие как NVIDIA Selene или Microsoft Azure NDv4, используются с прорывным программным обеспечением Megatron-LM и DeepSpeed для обучения крупных языковых AI-моделей. Качество и результаты, которые мы получили сегодня, – это большой шаг на пути к раскрытию всех возможностей искусственного интеллекта в области обработки естественного языка», – подчеркнули в Microsoft.
Напомним, на технологиях NLP основаны навигаторы с голосовым управлением, цифровые помощники, чат-боты и программы по переводу речи в текст. О примерах, задачах и методах обработки естественного языка читайте в подробной статье.