Salesforce выпускает «xGen-MM» — мультимодальные модели искусственного интеллекта с открытым исходным кодом для улучшения понимания визуального языка

Подпишитесь на наши ежедневные и еженедельные рассылки, чтобы получать последние обновления и эксклюзивный контент о ведущих в отрасли материалах об ИИ. Узнать больше


Salesforce, гигант корпоративного программного обеспечения, выпустил новый набор больших мультимодальных моделей ИИ с открытым исходным кодом, которые могут ускорить исследования и разработку более эффективных систем искусственного интеллекта.

Модели, получившие название xGen-MM (также известные как BLIP-3), представляют собой значительный прогресс в способности ИИ понимать и генерировать контент, объединяющий текст, изображения и другие типы данных.

В статье, опубликованной на arXiv, исследователи из Salesforce AI Research подробно описали фреймворк xGen-MM, который включает предварительно обученные модели, наборы данных и код для тонкой настройки. Самая большая модель с 4 миллиардами параметров достигает конкурентоспособной производительности на различных бенчмарках по сравнению с моделями с открытым исходным кодом аналогичного размера.

«Мы открываем исходный код наших моделей, курируемых крупномасштабных наборов данных и нашей тонкой настройки кодовой базы, чтобы способствовать дальнейшему прогрессу в исследовании LMM», — пишут авторы в статье. Этот шаг знаменует собой отход от тенденции сохранения продвинутых моделей ИИ в частной собственности, потенциально демократизируя доступ к передовой мультимодальной технологии ИИ.

Схематическая диаграмма фреймворка xGen-MM (BLIP-3), показывающая, как он обрабатывает чередующиеся данные изображений и текста. Модель использует Vision Transformer для кодирования изображений, сэмплер токенов для сжатия визуальной информации и предварительно обученную большую языковую модель для генерации текста с потерями, применяемыми к текстовым токенам. Кредит: Salesforce AI Research

Раскрытие потенциала ИИ: революционные модели Salesforce с открытым исходным кодом

Ключевым нововведением xGen-MM является его способность обрабатывать «перемежающиеся данные», объединяя несколько изображений и текст, что исследователи описывают как «наиболее естественную форму мультимодальных данных». Эта возможность позволяет моделям выполнять сложные задачи, такие как ответы на вопросы о нескольких изображениях одновременно, навык, который может оказаться бесценным в реальных приложениях, начиная от медицинской диагностики и заканчивая автономными транспортными средствами.

Релиз включает в себя варианты модели, оптимизированные для различных целей, включая базовую предварительно обученную модель, модель «настроенную на инструкции» для следования указаниям и модель «настроенную на безопасность», разработанную для снижения вредных результатов. Этот диапазон моделей отражает растущее понимание в сообществе ИИ необходимости баланса между возможностями, безопасностью и этическими соображениями.

Решение Salesforce открыть исходный код этих моделей может значительно ускорить инновации в этой области. Предоставляя исследователям и разработчикам доступ к высококачественным моделям и наборам данных, Salesforce позволяет более широкому кругу участников вносить свой вклад в развитие мультимодального ИИ. Этот шаг контрастирует с более закрытыми подходами некоторых технологических гигантов, которые держат свои самые передовые модели в тайне.

Однако выпуск таких мощных моделей также поднимает важные вопросы о потенциальных рисках и социальных последствиях все более эффективных систем ИИ. Хотя Salesforce включила настройку безопасности для снижения рисков, более широкие последствия широкого доступа к передовым моделям ИИ остаются темой для дискуссий в технологическом сообществе и за его пределами.

За пределами текста и изображений: развитие многослойного, мультимодального ИИ

Модели xGen-MM были обучены на огромных наборах данных, подготовленных командой Salesforce, включая набор данных масштабом в триллион токенов, состоящий из чередующихся изображений и текстовых данных под названием «MINT-1T». Исследователи также создали новые наборы данных, ориентированные на оптическое распознавание символов и визуальное заземление — области, которые имеют решающее значение для более естественного взаимодействия систем ИИ с визуальным миром.

Поскольку системы ИИ становятся все более продвинутыми и повсеместными, выпуск Salesforce с открытым исходным кодом предоставляет ценные инструменты для исследователей, чтобы лучше понимать и совершенствовать эти мощные технологии. Он также создает прецедент прозрачности в области, часто критикуемой за отсутствие открытости. Этот шаг может заставить других технологических гигантов быть более открытыми в своих собственных исследованиях и разработках ИИ.

Демократизация ИИ: как xGen-MM от Salesforce может изменить технологический ландшафт

Поскольку гонка вооружений ИИ продолжает накаляться, открытый подход Salesforce может оказаться стратегическим отличием. Способствуя созданию экосистемы сотрудничества вокруг своих моделей, компания может быстрее внедрять инновации и создавать репутацию в исследовательском сообществе. Однако еще предстоит увидеть, как эта стратегия сработает в высококонкурентном мире корпоративных решений ИИ.

Код, модели и наборы данных для xGen-MM доступны в репозитории Salesforce GitHub, а дополнительные ресурсы вскоре появятся на веб-сайте проекта. По мере того, как исследователи и разработчики начнут изучать и развивать эти модели, истинное влияние вклада Salesforce в область мультимодального ИИ станет яснее в ближайшие месяцы и годы.