В России создали первую независимую платформу для оценки нейросетей
Роман Куцев, бывший технический директор TrainingData, совместно с экс-разработчиками компании и экспертами в области ИИ создали бенчмарк LLM Arena, который позволяет тестировать русскоязычные языковые модели. На платформе пользователи могут сравнить 21 нейросеть и поучаствовать в формировании актуального рейтинга.
LLM Arena дает возможность проверять и сопоставлять различные модели искусственного интеллекта, оставаясь в неведении относительно их разработчиков. Пользователи могут задать свой вопрос и получить ответы от двух случайно выбранных нейросетей. После этого они выбирают наиболее точный ответ и отмечают, насколько ответы схожи и соответствуют поставленной задаче. Это помогает непредвзято оценивать качество текстовой генерации, осуществляемой разными моделями на русском языке.
Платформа была создана по аналогии с зарубежным сервисом для оценки нейронных сетей LMSYS Chatbot Arena. На данный момент пользователи могут сравнить 21 языковую модель, включая ChatGPT, YandexGPT и GigaChat.
«Наша цель — создать объективный, открытый и актуальный рейтинг языковых моделей на русском языке», — рассказал создатель LLM Arena Роман Куцев. В будущем планируется расширение числа нейросетей и добавление возможности оценивать качество ответов по типу запросов: для написания кода, распознавания изображения и т.д.
Напомним, ранее «Сбер» предложил Альянсу в сфере ИИ концепцию бенчмарка MERA.
Текст: Виктория Родичева
Источник: Hi-Tech Mail
Изображение: Freepik
Подписывайтесь на каналы Let AI be в Telegram и «ВКонтакте» — оставайтесь в курсе главных новостей в сфере искусственного интеллекта!