Крошечная модель искусственного интеллекта от Google «Gemma 2 2B» неожиданно и неожиданно бросает вызов технологическим гигантам

Подпишитесь на наши ежедневные и еженедельные рассылки, чтобы получать последние обновления и эксклюзивный контент о ведущих в отрасли материалах об ИИ. Узнать больше


Google только что представила Gemma 2 2B — компактную, но мощную модель искусственного интеллекта, которая может соперничать с лидерами отрасли, несмотря на свой значительно меньший размер. Новая языковая модель, содержащая всего 2,6 миллиарда параметров, демонстрирует производительность на уровне или даже выше гораздо более крупных аналогов, включая OpenAI GPT-3.5 и Mistral AI Mixtral 8x7B.

Анонсированная в блоге разработчиков Google, Gemma 2 2B представляет собой значительный шаг вперед в создании более доступных и развертываемых систем ИИ. Ее небольшой размер делает ее особенно подходящей для приложений на устройствах, что потенциально может оказать большое влияние на мобильный ИИ и периферийные вычисления.

Маленький ИИ, который смог: Ударить выше своей весовой категории

Независимое тестирование LMSYS, исследовательской организации в области искусственного интеллекта, показало, что Gemma 2 2B набрала 1130 баллов в своей области оценки. Этот результат немного опережает GPT-3.5-Turbo-0613 (1117) и Mixtral-8x7B (1114), модели с в десять раз большим количеством параметров.

Возможности модели выходят за рамки простой эффективности размера. Google сообщает, что Gemma 2 2B набрала 56,1 балла на тесте MMLU (Massive Multitask Language Understanding) и 36,6 балла на тесте MBPP (Mostly Basic Python Programming), что свидетельствует о значительных улучшениях по сравнению с предшественником.

Это достижение бросает вызов преобладающему мнению в разработке ИИ, что более крупные модели изначально работают лучше. Успех Gemma 2 2B предполагает, что сложные методы обучения, эффективные архитектуры и высококачественные наборы данных могут компенсировать количество необработанных параметров. Этот прорыв может иметь далеко идущие последствия для этой области, потенциально смещая фокус с гонки за все более крупными моделями на совершенствование более мелких и эффективных.

Модель Gemma 2 2B от Google превосходит более крупные чат-боты с искусственным интеллектом в рейтинге Chatbot Arena Elo Score, демонстрируя потенциал более мелких и эффективных языковых моделей. Диаграмма иллюстрирует превосходную производительность Gemma 2 2B по сравнению с известными моделями, такими как GPT-3.5 и Llama 2, бросая вызов представлению о том, что более крупные модели всегда лучше. (Изображение: Google)

Извлечение гигантов: искусство сжатия ИИ

Разработка Gemma 2 2B также подчеркивает растущую важность методов сжатия и дистилляции моделей. Эффективно перегоняя знания из более крупных моделей в более мелкие, исследователи могут создавать более доступные инструменты ИИ, не жертвуя производительностью. Такой подход не только снижает вычислительные требования, но и решает проблемы воздействия на окружающую среду обучения и запуска крупных моделей ИИ.

Google обучил Gemma 2 2B на массивном наборе данных из 2 триллионов токенов, используя свое передовое оборудование TPU v5e. Многоязычная модель повышает ее потенциал для глобальных приложений.

Этот релиз соответствует растущей отраслевой тенденции к более эффективным моделям ИИ. Поскольку опасения по поводу воздействия на окружающую среду и доступности больших языковых моделей растут, технологические компании сосредотачиваются на создании меньших, более эффективных систем, которые могут работать на потребительском оборудовании.

Революция открытого исходного кода: демократизация ИИ для всех

Открывая исходный код Gemma 2 2B, Google подтверждает свою приверженность прозрачности и совместной разработке в области ИИ. Исследователи и разработчики могут получить доступ к модели через Hugging Face через Gradio, с реализациями, доступными для различных фреймворков, включая PyTorch и TensorFlow.

Хотя долгосрочное влияние этого релиза еще предстоит увидеть, Gemma 2 2B, несомненно, представляет собой значительный шаг к демократизации технологии ИИ. Поскольку компании продолжают расширять границы возможностей более мелких моделей, мы, возможно, вступаем в новую эру развития ИИ — ту, где расширенные возможности больше не являются исключительной прерогативой ресурсоемких суперкомпьютеров.