Подпишитесь на наши ежедневные и еженедельные рассылки, чтобы получать последние обновления и эксклюзивный контент о ведущих в отрасли материалах об ИИ. Узнать больше
Anthropic, стартап искусственного интеллекта, поддерживаемый Amazon, в четверг запустил расширенную программу вознаграждений за ошибки, предлагая вознаграждение до $15 000 за выявление критических уязвимостей в своих системах ИИ. Эта инициатива знаменует собой одну из самых агрессивных попыток ИИ-компании по краудсорсингу тестирования безопасности расширенных языковых моделей.
Программа нацелена на атаки «универсального джейлбрейка» — методы, которые могут последовательно обходить ограждения безопасности ИИ в областях высокого риска, таких как химические, биологические, радиологические и ядерные (ХБРЯ) угрозы и кибербезопасность. Anthropic пригласит этичных хакеров протестировать свою систему смягчения рисков безопасности следующего поколения перед публичным развертыванием, стремясь предотвратить потенциальные эксплойты, которые могут привести к ненадлежащему использованию ее моделей ИИ.
Премии за безопасность ИИ: новый рубеж в технической безопасности
Этот шаг происходит в решающий момент для отрасли ИИ. Управление по конкуренции и рынкам Великобритании только что объявило о расследовании инвестиций Amazon в Anthropic в размере 4 млрд долларов, ссылаясь на потенциальные проблемы с конкуренцией. На фоне этого усиления контроля со стороны регулирующих органов внимание Anthropic к безопасности может помочь укрепить ее репутацию и выделить ее среди конкурентов.
Подход контрастирует с подходами других крупных игроков в области ИИ. Хотя OpenAI и Google поддерживают программы вознаграждения за ошибки, они обычно фокусируются на традиционных уязвимостях программного обеспечения, а не на эксплойтах, специфичных для ИИ. Meta столкнулась с критикой за свою относительно закрытую позицию в отношении исследований безопасности ИИ. Явное нацеливание Anthropic на проблемы безопасности ИИ и приглашение внешнего контроля устанавливают новый стандарт прозрачности в этой области.
Этичный хакерский подход и искусственный интеллект: палка о двух концах?
Однако эффективность вознаграждений за ошибки в решении всего спектра проблем безопасности ИИ остается спорной. Выявление и исправление конкретных уязвимостей ценно, но может не решить более фундаментальные проблемы согласования ИИ и долгосрочной безопасности. Более комплексный подход, включающий обширное тестирование, улучшенную интерпретируемость и потенциально новые структуры управления, может быть необходим для обеспечения соответствия систем ИИ человеческим ценностям по мере их роста.
Инициатива Anthropic также подчеркивает растущую роль частных компаний в установлении стандартов безопасности ИИ. Поскольку правительствам трудно идти в ногу с быстрым прогрессом, технологические компании все чаще берут на себя инициативу в установлении лучших практик. Это поднимает важные вопросы о балансе между корпоративными инновациями и общественным надзором в формировании будущего управления ИИ.
Гонка за более безопасный ИИ: станут ли награды за обнаружение ошибок лидерами?
Расширенная программа вознаграждений за ошибки начнется как инициатива только по приглашению в партнерстве с HackerOne, платформой, связывающей организации с исследователями кибербезопасности. Anthropic планирует открыть программу более широко в будущем, потенциально создавая модель для общеотраслевого сотрудничества в области безопасности ИИ.
Поскольку системы ИИ все больше интегрируются в критическую инфраструктуру, обеспечение их безопасности и надежности становится все более важным. Смелый шаг Anthropic представляет собой значительный шаг вперед, но он также подчеркивает сложные проблемы, с которыми сталкивается отрасль ИИ, поскольку она сталкивается с последствиями все более мощной технологии. Успех или неудача этой программы может создать важный прецедент для того, как компании ИИ будут подходить к безопасности в ближайшие годы.