
Нейросеть НГУ ускорила создание научных аудиокниг в 16 раз
Ученые Новосибирского госуниверситета (НГУ) разработали ИИ-сервис, который автоматически преобразует научную литературу в аудиоформат. Об этом сообщает ТАСС со ссылкой на пресс-службу вуза.
Разработка принадлежит Исследовательскому центру искусственного интеллекта НГУ. Нейросеть извлекает текст из PDF, обрабатывает его и синтезирует речь. В пресс-службе подчеркнули, что проект создается не как замена чтению, а как альтернативный способ доступа к знаниям.
Ключевая особенность технологии — скорость. Как пояснили разработчики, конвертация текста в аудиоформат происходит примерно в 16 раз быстрее, чем если бы тот же объем материала начитывал профессиональный диктор. При этом решение не требует огромных мощностей: на озвучивание одной книги уходит около получаса процессорного времени.
Сейчас сервис проходит этап апробации. Уже озвучены первые сто книг, и команда ждет обратную связь от библиотеки и читателей. В основе проекта лежит фреймворк «Каппа», созданный в центре ИИ НГУ. Он позволяет тестировать модели и снижать риск ошибок, известных как галлюцинации нейросетей.
В планах разработчиков — перевести в аудиоформат весь фонд электронной библиотеки НГУ, который насчитывает около 7 тыс. изданий. Ведущий научный сотрудник Центра ИИ НГУ Евгений Павловский отметил, что само озвучивание технически можно выполнить за месяц, однако на организационную подготовку и проверку качества может уйти до года. После успешного завершения пилотного проекта технологию предложат и другим библиотекам.
Изображение: Freepik
Подписывайтесь на каналы Let AI be в Telegram и «ВКонтакте» — оставайтесь в курсе главных новостей в сфере искусственного интеллекта!