Конец ИИ подкрался незаметно? Авторское право vs машинное обучение
Юрий Шитов, старший исследователь в Институте экспериментальной и прикладной физики Чешского университета, физик-ядерщик, эксперт в области обработки данных физического эксперимента
Тема, которую хотелось бы затронуть в этой колонке, касается одного из самых революционных достижений современности — искусственного интеллекта. Сегодня ИИ не просто технология; это катализатор глобальных перемен и переосмысления фундаментальных аспектов нашей жизни и работы.
Если рассматривать ИИ в широком контексте, то его ключевым достижением стало умение агрегировать и перерабатывать социальный опыт человечества, накопленный в текстах, изображениях, видео. Используя этот накопленный опыт, ИИ способен эффективно ассистировать людям, в том числе в генерации новаторских идей и концепций. Эти возможности искусственного интеллекта значительно ускорили продуктивность в различных сферах деятельности человека, сократили время обучения и упростили процесс разработки новых продуктов.
Однако на безоблачном горизонте индустрии ИИ начали сгущаться тучи. Основная проблема, которая долгое время оставалась незамеченной, недавно обрела актуальность и касается авторских прав на контент. Ключевым моментом в этом вопросе стал судебный иск, поданный медиакорпорацией The New York Times против OpenAI и Microsoft. Компании были обвинены в нарушении авторских прав из-за использования публикаций издания для обучения их искусственного интеллекта.
Этот случай поднял на поверхность серьезные вопросы о правовом регулировании и этике в индустрии ИИ. Хотя, не углубляясь в детали конкретного иска, можно утверждать, что за этим стоит борьба за контроль над интеллектуальной собственностью. Владельцы авторских прав стремятся получить свою долю от быстрорастущего и экономически привлекательного рынка ИИ. Эта тенденция открывает дискуссию о необходимости нового подхода к регулированию авторских прав в эпоху цифровых технологий.
Мы уже проходили этот этап в отношении онлайн-контента, когда судебным преследованиям подвергались фирмы, которые собирали (парсили) публично размещенную на сайтах информацию для ее применения в бизнес-целях. Ранее эти случаи были фрагментарными и носили единичный характер, поскольку сам бизнес в интернете не достигал больших масштабов. Однако даже при ограниченном объеме претензий сегодня мы видим значительное сокращение возможностей для свободного сбора информации в интернете. Многие владельцы контента активно противодействуют любым попыткам сбора и использования их данных, даже если они публично доступны на их сайтах.
Примером может служить случай с компанией LinkedIn, которая в 2017 году подала в суд на стартап HiQ Labs за сбор данных с ее платформы (соцсети для поиска деловых контактов). LinkedIn утверждала, что HiQ нарушает права на личные данные пользователей, в то время как HiQ доказывала, что собирает только публично доступную информацию. В итоге это дело привлекло внимание к вопросу о границах легального сбора данных и использования публичной информации в коммерческих целях. После продолжительных разбирательств Апелляционный суд США решил, что скрапинг публичных сайтов (то есть извлечение из них данных) не противоречит принятому в стране антихакерскому закону о компьютерном мошенничестве и злоупотреблениях (Computer Fraud and Abuse Act, CFAA).
Такие случаи поднимают серьезные вопросы о балансе между защитой авторских прав и свободным доступом к информации. Ограничения, наложенные на сбор информации, могут удушить многие потенциально полезные бизнес-инициативы и инновации. Однако неограниченный и нерегулируемый сбор данных может привести к злоупотреблениям и нарушениям конфиденциальности.
В итоге общество стоит перед дилеммой: с одной стороны, необходима защита интеллектуальной собственности и личных данных, с другой — поддержание свободного обмена информацией и инноваций. Нахождение баланса между этими двумя аспектами становится ключевым вызовом современности.
С развитием коммерческой индустрии искусственного интеллекта проблемы, связанные с авторскими правами на контент, набирают обороты. Рынок ИИ, оцениваемый в триллионы долларов, стал ареной жесткой конкуренции. Ранее основными участниками борьбы были компании, занимающиеся разработкой ИИ, но теперь к ним присоединились обладатели прав на контент. Они стремятся получить долю от огромных прибылей, рассчитывая продать свой контент заново, исходя из его использования в ИИ.
Судебный процесс между The New York Times и OpenAI стал важным и решающим моментом в этой борьбе. Его исход может серьезно повлиять на всю индустрию ИИ. В случае победы The New York Times это создаст прецедент, который может вызвать лавину исков против разработчиков ИИ от других владельцев контента. В таком сценарии в условиях использования многих веб-сайтов могут появиться изменения, включающие запрет на применение их контента для обучения ИИ.
Это может привести к существенным трансформациям в способах разработки и функционирования ИИ. Компаниям придется искать новые пути сбора данных или заключать договоры напрямую с владельцами контента. В долгосрочной перспективе это может означать увеличение стоимости и снижение инновационного потенциала в индустрии ИИ, а также затруднения в доступе к разнообразным и качественным данным для обучения моделей. В результате весь мир ИИ может столкнуться с новыми вызовами и ограничениями, что повлияет на его развитие и внедрение в различные сферы жизни.
Обладатели авторских прав, сталкиваясь с вызовами, представленными генеративными моделями ИИ, активно занимаются лоббированием законов, которые ограничивают использование ИИ в коммерческих целях. Один из ярких примеров — предложения в Европейском союзе о введении специальных правил для ИИ, включая требования к раскрытию информации об использованных в обучении ИИ объектах авторского права. Это указывает на попытку контролировать и ограничивать поток данных, который является жизненно важным для обучения и развития искусственного интеллекта.
Кроме того, аналогичные тенденции наблюдаются и в других регионах. Например, в США обсуждаются вопросы о регулировании использования личных данных в ИИ, что может затруднить сбор и обработку больших данных, необходимых для машинного обучения. В Азии, в частности в Китае, государство активно участвует в разработке правил и стандартов для ИИ, что также может включать ограничения, связанные с авторскими правами и использованием данных. Эти меры, хотя и направлены на защиту прав собственности и личных данных, могут существенно затруднить развитие инноваций в сфере ИИ. Они создают барьеры для доступа к широкому спектру данных, что является критически важным для обучения и развития мощных и эффективных ИИ-моделей.
В нынешней ситуации общество рискует лишиться потенциала искусственного интеллекта, который мог бы стать катализатором прогресса. Это произойдет из-за стремления владельцев контента защитить свои права без учета более широких последствий. Если они добьются уничтожения всех ИИ-моделей, за обучение которых не было уплачено, технологии вроде ChatGPT могут остаться лишь историческим примером потерянных возможностей и кратковременного всплеска инноваций, подавленных жадностью и близорукостью.
Философски говоря, прогресс человечества всегда зависел от способности накапливать и передавать социальный опыт от поколения к поколению. Одной из ключевых проблем этого процесса всегда было освоение накопленного опыта новыми поколениями. С увеличением объема знаний оно становится все более сложным и времязатратным. Молодому поколению необходимо потратить все больше времени, прежде чем оно сможет вносить свой вклад в развитие человечества. В итоге мы рискуем оказаться в ситуации, когда на освоение всего накопленного социального опыта уйдет столько времени, что человеку не хватит всей жизни. Это может замедлить или даже остановить процесс получения новых знаний.
Искусственный интеллект представляет собой решение этой проблемы, обещая сократить время на освоение знаний и ускорить процесс их передачи. Однако, с учетом текущих тенденций в области авторских прав, мы рискуем потерять этот шанс на ускорение социального и технологического развития. Если ИИ будет подавлен из-за юридических и финансовых ограничений, мы можем столкнуться с уникальной ситуацией, когда технологический прогресс, который мог бы способствовать общему благу, будет задержан из-за конфликта интересов и недальновидной политики.
Решение текущей проблемы с авторскими правами и искусственным интеллектом лежит в осознании необходимости освобождения разработчиков ИИ от обязательства платить за использование контента правообладателям. Это критически важно для поддержания социального прогресса и процветания. Основной аргумент в пользу такого подхода заключается в том, что многие владельцы контента уже получили достаточную выгоду от его первичной продажи и эксплуатации. Более того, отдельные правообладатели не в состоянии предложить обществу такой же уровень инноваций и полезности, какой может предложить искусственный интеллект, обученный на широком и разнообразном массиве данных.
Совместное и открытое использование контента в моделях ИИ представляет собой ключ к будущему развитию. Это позволит ускорить процесс инноваций, облегчить передачу знаний и стимулировать технологическое развитие. Если мы продолжим ограничивать применение данных из-за жестких правил в отношении авторских прав, общество может столкнуться с задержкой в технологическом прогрессе, что в конечном счете приведет к уменьшению общего благосостояния.
Таким образом, для продвижения вперед, а не «возвращения в пещеры», необходим компромисс между защитой авторских прав и поддержкой инновационной деятельности в сфере ИИ. Возможно, стоит рассмотреть создание новых законодательных и экономических моделей, которые позволят разработчикам ИИ свободно использовать данные для обучения своих моделей, при этом уважая базовые права и интересы правообладателей. Это может включать в себя новые формы лицензирования, компенсационные механизмы или другие инновационные подходы к управлению интеллектуальной собственностью.
Эта колонка была создана с помощью пока еще действующего искусственного интеллекта ChatGPT, за что я выражаю ему огромную благодарность. Возможно, скоро нам еще придется вспомнить все прелести работы в стиле XIX века — с пером в руках, чернильницей на столе и свечой, освещающей страницы в темноте. Мы снова будем ценить прелесть написания каждой буквы вручную, вспомним, как это — ждать вдохновения без подсказок ИИ. Возможно, ощутим радость неспешной, но глубокой работы над письмом, которое отвезет ямщик…
Изображения: Freepik; из личного архива автора
Подписывайтесь на каналы Let AI be в Telegram и «ВКонтакте» — оставайтесь в курсе главных новостей в сфере искусственного интеллекта!