В России сравнили зарубежные большие языковые модели

4.73k

В России сравнили зарубежные большие языковые модели

21.03.2025

Команда проекта LLM Arena, открытой онлайн-площадки для сравнения больших языковых моделей в режиме реального времени, воспользовалась бенчмарком MERA Альянса в сфере искусственного интеллекта для тестирования нескольких зарубежных LLM.

Самую высокую строчку в лидерборде MERA заняла Claude 3.7 Sonnet – гибридная модель с быстрым откликом и пошаговой логикой, улучшенными навыками кодирования и поддержки многоступенчатых процессов. За ней следуют Gemini Flash 2.0 – мультимодальная модель с возможностями генерации и редактирования изображений, функциями кодирования и выполнения сложных инструкций, – а также DeepSeek-V3, обученная на ~15 триллионов токенов, которая превосходит многие открытые модели и конкурирует с проприетарными.

На лидерборде MERA в том числе оказались Meta Llama 3.3*, мультиязыковая модель для диалогов, показывающая высокие результаты на отраслевых тестах, Claude 3.5 Haiku – ускоренная модель с акцентом на точность в кодировании и эффективную работу в реальном времени, Gemma 3 27B, мультимодальная модель с контекстом до 128k токенов, поддержкой 140+ языков и улучшенными вычислительными способностями, и другие.

Альянс в сфере ИИ представил бенчмарк MERA на международной конференции AI Journey в 2023 году. Впоследствии методологию теста также презентовали на ACL, ведущей научной конференции по компьютерной лингвистике, которая проводится с 1963 года и пользуется поддержкой крупнейших IT-компаний со всего мира, в числе которых Apple, Google Deep Mind, Baidu, IBM и другие. В прошлом году ведущий бенчмарк для русскоязычных LLM стал еще лучше: в него добавились новые датасеты, поддержка API и особенностей SFT-моделей, а также обновленный лидерборд с удобной системой фильтрации результатов.

LLM Arena использует альтернативный подход к сравнению языковых моделей. Пользователи могут бесплатно и анонимно оценивать ответы моделей в парных баттлах, выявляя их сильные и слабые стороны. Такой формат дает представление о пользовательских сценариях и приближение как модели с ними справляются.

Источник: пресс-служба Альянса в сфере ИИ

Изображение: Freepik

*Meta признана в РФ экстремистской компанией и запрещена

Подписывайтесь на каналы Let AI be в Telegram и «ВКонтакте» — оставайтесь в курсе главных новостей в сфере искусственного интеллекта!