Семь продавцов контента, лицензирующих музыку, изображения, видео и другие датасеты, сформировали Альянс поставщиков наборов данных (Dataset Providers Alliance, DPA), который будет выступать за «этический источник данных» для обучения систем искусственного интеллекта и защиту прав владельцев контента на интеллектуальную собственность. DPA в том числе будет следить за тем, чтобы в данных для машинного обучения не использовались изображения и голоса людей без их явного согласия.
В число учредителей альянса входят американская компания по лицензированию музыки Rightsify, служба лицензирования изображений vAIsual, японский поставщик стоковых фотографий Pixta и немецкая торговая площадка данных Datarade.
Группа планирует опубликовать официальный документ, в котором будет изложена ее позиция, в июле.
Напомним, развитие генеративных технологий искусственного интеллекта, которые могут имитировать творческие способности человека, вызвало протест со стороны создателей контента и серию исков о нарушении авторских прав против таких технологических компаний, как Google, OpenAI и Microsoft. Проблема в том, что разработчики обучают ИИ-модели на контенте, большая часть которого бесплатно взята из интернета без согласия его правообладателей.
Повышающийся спрос на лицензионные данные привел к появлению компаний, которые упаковывают контент и продают доступ к нему для использования системами искусственного интеллекта. Так, например, в этом году была создана Fairly Trained — некоммерческая организация, которая сертифицирует ИИ-модели, не использовавшие защищенные авторским правом данные.
Между тем компания OpenAI в мае этого года анонсировала Media Manager — инструмент, который позволит создателям и владельцам контента сообщать разработчикам о своих предпочтениях относительно использования их материалов в обучении ИИ-систем.