Как ускорить создание переводчиков для малоресурсных языков, рассказали эксперты
На прошлой неделе состоялась I стратегическая сессия «Информационные технологии и языки народов России», в рамках которой эксперты и языковые активисты обсудили различные способы сохранения миноритарных языков России и рассмотрели роль развития цифровых технологий в этом вопросе. Организатором мероприятия выступил Дом народов России при поддержке Федерального агентства по делам национальностей.
В частности, инженеры-исследователи Сергей Кульдин и Давид Дале рассказали об адаптивных подходах к созданию машинных переводчиков для малоресурсных языков, предложив стратегии, которые могут существенно сократить время и затраты на разработку качественных переводческих моделей.
Спикеры отметили, что почти все современные машинные переводчики — нейросетевые и требуют большого объема данных для обучения. Классической проблемой является необходимость набора как минимум ста тысяч пар параллельных предложений, а для высококачественного перевода требуется до миллиона пар. Исходя из расчета, что на перевод одного предложения уходит в среднем семь минут, весь проект может занять около 700 тысяч минут или примерно шесть лет работы одного переводчика, работающего 40 часов в неделю.
Для решения этой проблемы команда предложила адаптивные стратегии, включая использование существующих ресурсов, таких как параллельные корпуса новостных сайтов и переведенных книг, а также применение больших монокорпусов для тренировки моделей на базе трансформеров. Другие подходы включают перекрестное обучение, адаптацию моделей для родственных языков и активное вовлечение сообщества для верификации и корректировки данных.
Эти меры направлены на значительное сокращение времени и стоимости создания машинных переводчиков для малоресурсных языков, что способствует сохранению и развитию этих языков в цифровую эпоху.
Текст: Алексей Алтынбаев
Изображение: Freepik
Подписывайтесь на каналы Let AI be в Telegram и «ВКонтакте» — оставайтесь в курсе главных новостей в сфере искусственного интеллекта!