Подпишитесь на наши ежедневные и еженедельные рассылки, чтобы получать последние обновления и эксклюзивный контент о ведущих в отрасли материалах об ИИ. Узнать больше
Стартап искусственного интеллекта Galileo в понедельник выпустил комплексный бенчмарк, показывающий, что модели языков с открытым исходным кодом быстро сокращают разрыв в производительности с их проприетарными аналогами. Этот сдвиг может изменить ландшафт ИИ, потенциально демократизируя передовые возможности ИИ и ускоряя инновации в различных отраслях.
Второй ежегодный индекс галлюцинаций от Galileo оценил 22 ведущие крупные языковые модели по их тенденции генерировать неточную информацию. Хотя модели с закрытым исходным кодом по-прежнему лидируют в целом, разрыв значительно сократился всего за восемь месяцев.
«Огромные улучшения в моделях с открытым исходным кодом было совершенно невероятно видеть», — сказал Викрам Чаттерджи, соучредитель и генеральный директор Galileo, в интервью VentureBeat. «Тогда (в октябре 2023 года) первые пять или шесть были моделями API с закрытым исходным кодом, в основном моделями OpenAI. В отличие от сегодняшнего дня, открытый исходный код сокращает разрыв».
Эта тенденция может снизить барьеры для входа на рынок для стартапов и исследователей, одновременно заставляя существующих игроков быстрее внедрять инновации, иначе они рискуют потерять свои преимущества.
Новая королевская власть ИИ: сонет Клода 3.5 от Anthropic свергает OpenAI
Claude 3.5 Sonnet от Anthropic возглавил индекс как самая производительная модель по всем задачам, опередив предложения OpenAI, которые доминировали в рейтингах прошлого года. Этот сдвиг указывает на смену караула в гонке вооружений ИИ, когда новые участники бросают вызов устоявшимся лидерам.
«Мы были чрезвычайно впечатлены последним набором моделей Anthropic», — сказал Чаттерджи. «Sonnet не только смог отлично работать в коротких, средних и длинных контекстных окнах, набрав в среднем 0,97, 1 и 1 балл соответственно по задачам, но и поддержка моделью контекстного окна до 200 тыс. позволяет предположить, что она может поддерживать даже большие наборы данных, чем мы тестировали».
Индекс также подчеркнул важность учета экономической эффективности наряду с чистой производительностью. Gemini 1.5 Flash от Google оказался самым эффективным вариантом, обеспечив хорошие результаты за малую часть цены топовых моделей.
«Стоимость доллара за миллион токенов-подсказок для Flash составила 0,35 доллара, а для Sonnet — 3 доллара», — сказал Чаттерджи VentureBeat. «Если посмотреть на результат, стоимость доллара за миллион токенов-ответов для Flash составит около 1 доллара, а для Sonnet — 15 долларов. Так что теперь любой, кто использует Sonnet, должен немедленно иметь деньги в банке, что, по крайней мере, в 15–20 раз больше, тогда как Flash в буквальном смысле не намного хуже».
Такая разница в стоимости может оказаться решающей для компаний, стремящихся к масштабному развертыванию ИИ, потенциально способствуя внедрению более эффективных моделей, даже если они не достигают наивысших показателей производительности.
Глобальная конкуренция обостряется: модель Alibaba с открытым исходным кодом производит фурор
Qwen2-72B-Instruct от Alibaba показала наилучшие результаты среди моделей с открытым исходным кодом, набрав высокие баллы на коротких и средних входных данных. Этот успех сигнализирует о более широкой тенденции, когда неамериканские компании добиваются значительных успехов в разработке ИИ, бросая вызов идее американского доминирования в этой области.
Чаттерджи рассматривает это как часть более масштабной демократизации технологии ИИ. «То, что я вижу, это разблокировка — используя Llama 3, используя Qwen — команды по всему миру, в разных экономических слоях, могут просто начать создавать действительно невероятные продукты», — сказал он.
Он добавил, что мы, вероятно, увидим, как эти модели будут оптимизированы для периферийных и мобильных устройств, что приведет к «невероятным мобильным приложениям, веб-приложениям и приложениям на периферии, созданным с использованием этих моделей с открытым исходным кодом».
Индекс представляет новый фокус на том, как модели обрабатывают контексты разной длины, от коротких фрагментов до длинных документов, отражая растущее использование ИИ для таких задач, как резюмирование длинных отчетов или ответы на вопросы об обширных наборах данных. Этот подход обеспечивает более детальное представление о возможностях модели, что необходимо для предприятий, рассматривающих развертывание ИИ в различных сценариях.
«Мы сосредоточились на разбиении этого на основе длины контекста — малая, средняя и большая», — сказал Чаттерджи VentureBeat. «Это и другая большая часть здесь — соотношение стоимости и производительности. Потому что это очень важно для людей».
Индекс также показал, что больше не всегда лучше, когда дело касается моделей ИИ. В некоторых случаях меньшие модели превзошли своих более крупных аналогов, что говорит о том, что эффективный дизайн иногда может превзойти чистый масштаб.
«Модель Gemini 1.5 Flash стала для нас абсолютным откровением, поскольку она превзошла более крупные модели», — сказал Чаттерджи. «Это говорит о том, что если у вас отличная эффективность проектирования модели, это может перевесить весы».
Это открытие может привести к сдвигу в разработке ИИ, поскольку компании будут больше концентрироваться на оптимизации существующих архитектур, а не просто на увеличении размера модели.
Хрустальный шар ИИ: предсказание будущего языковых моделей
Результаты исследования Galileo могут существенно повлиять на внедрение ИИ на предприятиях. По мере того, как модели с открытым исходным кодом совершенствуются и становятся более экономически эффективными, компании могут развертывать мощные возможности ИИ, не полагаясь на дорогие фирменные сервисы. Это может привести к более широкой интеграции ИИ в различных отраслях, что может повысить производительность и инновации.
Стартап, предоставляющий инструменты для мониторинга и улучшения систем ИИ, позиционирует себя как ключевого игрока, помогающего предприятиям ориентироваться в быстро меняющемся ландшафте языковых моделей. Предлагая регулярные практические бенчмарки, Galileo стремится стать важным ресурсом для технических лиц, принимающих решения.
«Мы хотим, чтобы наши корпоративные клиенты и пользователи нашей команды ИИ могли использовать это как мощный, постоянно развивающийся ресурс для поиска наиболее эффективного способа создания приложений ИИ, а не просто нащупывать путь в темноте и пытаться во всем разобраться», — сказал Чаттерджи.
Поскольку гонка вооружений ИИ усиливается, а новые модели выпускаются почти еженедельно, индекс Galileo предлагает моментальный снимок отрасли в движении. Компания планирует обновлять бенчмарк ежеквартально, предоставляя постоянное представление о меняющемся балансе между технологиями ИИ с открытым исходным кодом и фирменными технологиями.
Заглядывая вперед, Чаттерджи предвидит дальнейшие разработки в этой области. «Мы начинаем видеть большие модели, которые похожи на операционные системы для этого очень мощного рассуждения», — сказал он. «И это будет становиться все более и более обобщаемым в течение следующих, может быть, одного-двух лет, а также увидим, что длины контекста, которые они могут поддерживать, особенно в области открытого исходного кода, начнут намного увеличиваться. Стоимость значительно снизится, просто законы физики вступят в силу».
Он также прогнозирует рост мультимодальных моделей и систем на основе агентов, что потребует новых фреймворков оценки и, вероятно, подстегнет новый виток инноваций в отрасли ИИ.
Поскольку компании сталкиваются с быстрыми темпами развития ИИ, такие инструменты, как индекс галлюцинаций Галилео, вероятно, будут играть все более важную роль в информировании о принятии решений и стратегии. Демократизация возможностей ИИ в сочетании с растущей важностью экономической эффективности предполагает будущее, в котором продвинутый ИИ будет не только более мощным, но и более доступным для более широкого круга организаций.
Этот меняющийся ландшафт представляет как возможности, так и проблемы для бизнеса. Хотя наличие высокопроизводительных, экономически эффективных моделей ИИ может стимулировать инновации и эффективность, оно также требует тщательного рассмотрения того, какие технологии следует внедрять и как эффективно их интегрировать.
Поскольку граница между открытым исходным кодом и проприетарным ИИ продолжает размываться, компаниям необходимо оставаться информированными и гибкими, готовыми адаптировать свои стратегии по мере развития технологий. Тест Galileo служит не просто моментальным снимком текущего состояния ИИ, но и дорожной картой для навигации в сложном и быстро меняющемся мире искусственного интеллекта.