Подпишитесь на наши ежедневные и еженедельные рассылки, чтобы получать последние обновления и эксклюзивный контент о ведущих в отрасли материалах об ИИ. Узнать больше
Google только что представила Gemma 2 2B — компактную, но мощную модель искусственного интеллекта, которая может соперничать с лидерами отрасли, несмотря на свой значительно меньший размер. Новая языковая модель, содержащая всего 2,6 миллиарда параметров, демонстрирует производительность на уровне или даже выше гораздо более крупных аналогов, включая OpenAI GPT-3.5 и Mistral AI Mixtral 8x7B.
Анонсированная в блоге разработчиков Google, Gemma 2 2B представляет собой значительный шаг вперед в создании более доступных и развертываемых систем ИИ. Ее небольшой размер делает ее особенно подходящей для приложений на устройствах, что потенциально может оказать большое влияние на мобильный ИИ и периферийные вычисления.
Маленький ИИ, который смог: Ударить выше своей весовой категории
Независимое тестирование LMSYS, исследовательской организации в области искусственного интеллекта, показало, что Gemma 2 2B набрала 1130 баллов в своей области оценки. Этот результат немного опережает GPT-3.5-Turbo-0613 (1117) и Mixtral-8x7B (1114), модели с в десять раз большим количеством параметров.
Возможности модели выходят за рамки простой эффективности размера. Google сообщает, что Gemma 2 2B набрала 56,1 балла на тесте MMLU (Massive Multitask Language Understanding) и 36,6 балла на тесте MBPP (Mostly Basic Python Programming), что свидетельствует о значительных улучшениях по сравнению с предшественником.
Это достижение бросает вызов преобладающему мнению в разработке ИИ, что более крупные модели изначально работают лучше. Успех Gemma 2 2B предполагает, что сложные методы обучения, эффективные архитектуры и высококачественные наборы данных могут компенсировать количество необработанных параметров. Этот прорыв может иметь далеко идущие последствия для этой области, потенциально смещая фокус с гонки за все более крупными моделями на совершенствование более мелких и эффективных.
Извлечение гигантов: искусство сжатия ИИ
Разработка Gemma 2 2B также подчеркивает растущую важность методов сжатия и дистилляции моделей. Эффективно перегоняя знания из более крупных моделей в более мелкие, исследователи могут создавать более доступные инструменты ИИ, не жертвуя производительностью. Такой подход не только снижает вычислительные требования, но и решает проблемы воздействия на окружающую среду обучения и запуска крупных моделей ИИ.
Google обучил Gemma 2 2B на массивном наборе данных из 2 триллионов токенов, используя свое передовое оборудование TPU v5e. Многоязычная модель повышает ее потенциал для глобальных приложений.
Этот релиз соответствует растущей отраслевой тенденции к более эффективным моделям ИИ. Поскольку опасения по поводу воздействия на окружающую среду и доступности больших языковых моделей растут, технологические компании сосредотачиваются на создании меньших, более эффективных систем, которые могут работать на потребительском оборудовании.
Революция открытого исходного кода: демократизация ИИ для всех
Открывая исходный код Gemma 2 2B, Google подтверждает свою приверженность прозрачности и совместной разработке в области ИИ. Исследователи и разработчики могут получить доступ к модели через Hugging Face через Gradio, с реализациями, доступными для различных фреймворков, включая PyTorch и TensorFlow.
Хотя долгосрочное влияние этого релиза еще предстоит увидеть, Gemma 2 2B, несомненно, представляет собой значительный шаг к демократизации технологии ИИ. Поскольку компании продолжают расширять границы возможностей более мелких моделей, мы, возможно, вступаем в новую эру развития ИИ — ту, где расширенные возможности больше не являются исключительной прерогативой ресурсоемких суперкомпьютеров.