В России создали первую независимую платформу для оценки нейросетей

4.04k

В России создали первую независимую платформу для оценки нейросетей

05.08.2024

Роман Куцев, бывший технический директор TrainingData, совместно с экс-разработчиками компании и экспертами в области ИИ создали бенчмарк LLM Arena, который позволяет тестировать русскоязычные языковые модели. На платформе пользователи могут сравнить 21 нейросеть и поучаствовать в формировании актуального рейтинга.

LLM Arena дает возможность проверять и сопоставлять различные модели искусственного интеллекта, оставаясь в неведении относительно их разработчиков. Пользователи могут задать свой вопрос и получить ответы от двух случайно выбранных нейросетей. После этого они выбирают наиболее точный ответ и отмечают, насколько ответы схожи и соответствуют поставленной задаче. Это помогает непредвзято оценивать качество текстовой генерации, осуществляемой разными моделями на русском языке.

Платформа была создана по аналогии с зарубежным сервисом для оценки нейронных сетей LMSYS Chatbot Arena. На данный момент пользователи могут сравнить 21 языковую модель, включая ChatGPT, YandexGPT и GigaChat.

«Наша цель — создать объективный, открытый и актуальный рейтинг языковых моделей на русском языке», — рассказал создатель LLM Arena Роман Куцев. В будущем планируется расширение числа нейросетей и добавление возможности оценивать качество ответов по типу запросов: для написания кода, распознавания изображения и т.д.

Напомним, ранее «Сбер» предложил Альянсу в сфере ИИ концепцию бенчмарка MERA.

Текст: Виктория Родичева

Источник: Hi-Tech Mail

Изображение: Freepik

Подписывайтесь на каналы Let AI be в Telegram и «ВКонтакте» — оставайтесь в курсе главных новостей в сфере искусственного интеллекта!