Qwen2.5-Max: Исследование интеллекта крупномасштабной модели MoE

Раздел: Новости мира

Опубликовано 29 января, 2025 г.

Современные исследования подтверждают, что увеличение объемов данных и размеров моделей ведет к значительным улучшениям интеллектуальных возможностей нейросетей. Однако как академическое сообщество, так и индустрия обладают ограниченным опытом в эффективном масштабировании экстремально крупных моделей, будь то плотные (Dense) или модели с механизмом Mixture-of-Experts (MoE). Многие важные детали этого процесса были раскрыты лишь с выходом DeepSeek V3.

В настоящее время мы активно разрабатываем Qwen2.5-Max – крупномасштабную MoE-модель, предварительно обученную на более чем 20 триллионах токенов. Для повышения ее интеллектуальных возможностей мы использовали Supervised Fine-Tuning (SFT) и Reinforcement Learning from Human Feedback (RLHF). Сегодня мы рады представить результаты производительности Qwen2.5-Max, а также объявить о доступности ее API через Alibaba Cloud. Вы также можете опробовать модель в Qwen Chat.

Производительность

Была произведена оценка Qwen2.5-Max наряду с ведущими моделями, включая как проприетарные, так и с открытым исходным кодом. Основные метрики, по которым проводилось тестирование:

• MMLU-Pro – проверка знаний на уровне университетских курсов

• LiveCodeBench – тестирование навыков программирования

• LiveBench – комплексная оценка интеллектуальных возможностей

• Arena-Hard – анализ предпочтений пользователей

Сравнение с другими моделями

При сравнении инструктивных моделей (Instruct Models), используемых для задач вроде общения и программирования, Qwen2.5-Max продемонстрировала превосходство над DeepSeek V3 в таких тестах, как:

• Arena-Hard

• LiveBench

• LiveCodeBench

• GPQA-Diamond

А также показала конкурентоспособные результаты в MMLU-Pro, где проверяются сложные интеллектуальные задачи.

При сравнении базовых моделей (Base Models), Qwen2.5-Max была сопоставлена с:

• DeepSeek V3 – ведущая MoE-модель с открытым кодом

• Llama-3.1-405B – крупнейшая плотная (Dense) модель с открытым кодом

• Qwen2.5-72B – одна из топовых плотных моделей с открытым кодом

Результаты показывают значительные преимущества Qwen2.5-Max в большинстве тестов, что подтверждает эффективность масштабирования и использования современных методов пост-тренировки. Мы уверены, что дальнейшие исследования в области усиленного обучения (RLHF) помогут вывести следующую версию Qwen2.5-Max на новый уровень.

Использование Qwen2.5-Max

Теперь Qwen2.5-Max доступна в Qwen Chat. Вы можете:

• Общаться с моделью в интерактивном режиме

• Экспериментировать с артефактами

• Выполнять поиск информации

Также доступен API Qwen2.5-Max (идентификатор модели: qwen-max-2025-01-25). Чтобы воспользоваться API:

• Зарегистрируйте аккаунт Alibaba Cloud

• Активируйте сервис Alibaba Cloud Model Studio

• Перейдите в консоль и создайте API-ключ

API совместим с OpenAI API, поэтому можно использовать стандартные методы вызова. Например, следующий код на Python демонстрирует, как работать с Qwen2.5-Max через OpenAI-совместимый API:


from openai import OpenAI
import os
client = OpenAI(
api_key=os.getenv("API_KEY"),
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
completion = client.chat.completions.create(
model="qwen-max-2025-01-25",
messages=[
{'role': 'system', 'content': 'You are a helpful assistant.'},
{'role': 'user', 'content': 'Which number is larger, 9.11 or 9.8?'}
]
)
print(completion.choices[0].message)

Будущее развитие

Масштабирование данных и моделей не только улучшает интеллектуальные способности ИИ, но и отражает наше стремление к передовым исследованиям. Мы активно работаем над тем, чтобы усилить аналитические и логические способности больших языковых моделей с помощью масштабированного усиленного обучения (RLHF).

Qwen2.5-Max представляет собой одно из самых мощных решений на основе MoE, успешно конкурируя с передовыми моделями. Ее можно использовать для общения, генерации кода, анализа данных и многого другого. Благодаря открытому API в Alibaba Cloud, разработчики могут интегрировать ее в свои проекты и исследовать новые возможности искусственного интеллекта.

Qwen2.5-Max: Исследование интеллекта крупномасштабной модели MoE

Производительность

Сравнение с другими моделями

Использование Qwen2.5-Max

Будущее развитие

Читайте также