Let AI be

Яркий онлайн-журнал про искусственный интеллект (Artificial Intelligence, AI)

 

Свяжитесь с нами

Пресс-релизы, предложения об инфопартнерстве и сотрудничестве,
в том числе запросы на рекламу, присылайте на почту редакции:

Ждем вас в соцсетях

Как ускорить создание переводчиков для малоресурсных языков, рассказали эксперты

Как ускорить создание переводчиков для малоресурсных языков, рассказали эксперты

На прошлой неделе состоялась I стратегическая сессия «Информационные технологии и языки народов России», в рамках которой эксперты и языковые активисты обсудили различные способы сохранения миноритарных языков России и рассмотрели роль развития цифровых технологий в этом вопросе. Организатором мероприятия выступил Дом народов России при поддержке Федерального агентства по делам национальностей.

В частности, инженеры-исследователи Сергей Кульдин и Давид Дале рассказали об адаптивных подходах к созданию машинных переводчиков для малоресурсных языков, предложив стратегии, которые могут существенно сократить время и затраты на разработку качественных переводческих моделей.

Спикеры отметили, что почти все современные машинные переводчики — нейросетевые и требуют большого объема данных для обучения. Классической проблемой является необходимость набора как минимум ста тысяч пар параллельных предложений, а для высококачественного перевода требуется до миллиона пар. Исходя из расчета, что на перевод одного предложения уходит в среднем семь минут, весь проект может занять около 700 тысяч минут или примерно шесть лет работы одного переводчика, работающего 40 часов в неделю.

Для решения этой проблемы команда предложила адаптивные стратегии, включая использование существующих ресурсов, таких как параллельные корпуса новостных сайтов и переведенных книг, а также применение больших монокорпусов для тренировки моделей на базе трансформеров. Другие подходы включают перекрестное обучение, адаптацию моделей для родственных языков и активное вовлечение сообщества для верификации и корректировки данных.

Эти меры направлены на значительное сокращение времени и стоимости создания машинных переводчиков для малоресурсных языков, что способствует сохранению и развитию этих языков в цифровую эпоху.

Текст: Алексей Алтынбаев

Изображение: Freepik

Подписывайтесь на каналы Let AI be в Telegram и «ВКонтакте» — оставайтесь в курсе главных новостей в сфере искусственного интеллекта!

 

You don't have permission to register