RAGChecker от Amazon может изменить ИИ, каким мы его знаем, но пока им нельзя воспользоваться

Подпишитесь на наши ежедневные и еженедельные рассылки, чтобы получать последние обновления и эксклюзивный контент о ведущих в отрасли материалах об ИИ. Узнать больше


Команда Amazon AWS AI представила новый исследовательский инструмент, предназначенный для решения одной из наиболее сложных проблем искусственного интеллекта: обеспечения того, чтобы системы ИИ могли точно извлекать и интегрировать внешние знания в свои ответы.

Инструмент под названием RAGChecker представляет собой фреймворк, который предлагает подробный и тонкий подход к оценке систем Retrieval-Augmented Generation (RAG). Эти системы объединяют большие языковые модели с внешними базами данных для генерации более точных и контекстно-релевантных ответов, что является важнейшей возможностью для помощников ИИ и чат-ботов, которым необходим доступ к актуальной информации за пределами их первоначальных данных обучения.

Внедрение RAGChecker происходит по мере того, как все больше организаций полагаются на ИИ для задач, требующих актуальной и фактической информации, таких как юридические консультации, медицинская диагностика и сложный финансовый анализ. По словам команды Amazon, существующие методы оценки систем RAG часто не оправдывают ожиданий, поскольку они не в состоянии полностью охватить все тонкости и потенциальные ошибки, которые могут возникнуть в этих системах.

«RAGChecker основан на проверке выводов на уровне утверждений», — объясняют исследователи в своей статье, отмечая, что это позволяет проводить более детальный анализ как компонентов поиска, так и компонентов генерации систем RAG. В отличие от традиционных метрик оценки, которые обычно оценивают ответы на более общем уровне, RAGChecker разбивает ответы на отдельные утверждения и оценивает их точность и релевантность на основе контекста, извлеченного системой.

На данный момент, похоже, RAGChecker используется внутри компании Amazon, исследователи и разработчики, без объявления публичного релиза. Если он станет доступным, он может быть выпущен как инструмент с открытым исходным кодом, интегрирован в существующие сервисы AWS или предложен как часть исследовательского сотрудничества. На данный момент тем, кто заинтересован в использовании RAGChecker, возможно, придется подождать официального объявления от Amazon о его доступности. VentureBeat обратился к Amazon за комментариями о деталях релиза, и мы обновим эту историю, если и когда получим ответ.

Инструмент двойного назначения для предприятий и разработчиков

Новая структура предназначена не только для исследователей или энтузиастов ИИ. Для предприятий она может представлять собой значительное улучшение в том, как они оценивают и совершенствуют свои системы ИИ. RAGChecker предоставляет общие метрики, которые предлагают целостное представление о производительности системы, позволяя компаниям сравнивать различные системы RAG и выбирать ту, которая лучше всего соответствует их потребностям. Но она также включает диагностические метрики, которые могут выявить конкретные слабые места на этапах извлечения или генерации работы системы RAG.

В статье подчеркивается двойственная природа ошибок, которые могут возникать в системах RAG: ошибки поиска, когда система не может найти наиболее релевантную информацию, и ошибки генератора, когда система пытается правильно использовать полученную информацию. «Причины ошибок в ответе можно разделить на ошибки поиска и ошибки генератора», — пишут исследователи, подчеркивая, что метрики RAGChecker могут помочь разработчикам диагностировать и исправлять эти проблемы.

Результаты тестирования в критических областях

Команда Amazon протестировала RAGChecker на восьми различных системах RAG, используя эталонный набор данных, охватывающий 10 различных доменов, включая области, где точность имеет решающее значение, такие как медицина, финансы и юриспруденция. Результаты выявили важные компромиссы, которые необходимо учитывать разработчикам. Например, системы, которые лучше извлекают релевантную информацию, также склонны вводить больше нерелевантных данных, что может запутать фазу генерации процесса.

Исследователи заметили, что хотя некоторые системы RAG умело извлекают нужную информацию, они часто не в состоянии отфильтровать нерелевантные детали. «Генераторы демонстрируют точность на уровне фрагментов», — отмечается в статье, что означает, что после извлечения релевантной части информации система имеет тенденцию в значительной степени полагаться на нее, даже если она содержит ошибки или вводящий в заблуждение контент.

Исследование также выявило различия между моделями с открытым исходным кодом и фирменными моделями, такими как GPT-4. Исследователи отметили, что модели с открытым исходным кодом склонны слепо доверять предоставленному им контексту, что иногда приводит к неточностям в их ответах. «Модели с открытым исходным кодом верны, но склонны слепо доверять контексту», — говорится в статье, что предполагает, что разработчикам, возможно, следует сосредоточиться на улучшении возможностей рассуждений этих моделей.

Улучшение ИИ для приложений с высокими ставками

Для предприятий, которые полагаются на контент, сгенерированный ИИ, RAGChecker может стать ценным инструментом для постоянного улучшения системы. Предлагая более подробную оценку того, как эти системы извлекают и используют информацию, фреймворк позволяет компаниям гарантировать, что их системы ИИ остаются точными и надежными, особенно в средах с высокими ставками.

Поскольку искусственный интеллект продолжает развиваться, такие инструменты, как RAGChecker, будут играть важную роль в поддержании баланса между инновациями и надежностью. Команда AWS AI приходит к выводу, что «показатели RAGChecker могут помочь исследователям и практикам в разработке более эффективных систем RAG», и это утверждение, если оно подтвердится, может оказать существенное влияние на то, как ИИ используется в различных отраслях.