Современные исследования подтверждают, что увеличение объемов данных и размеров моделей ведет к значительным улучшениям интеллектуальных возможностей нейросетей. Однако как академическое сообщество, так и индустрия обладают ограниченным опытом в эффективном масштабировании экстремально крупных моделей, будь то плотные (Dense) или модели с механизмом Mixture-of-Experts (MoE). Многие важные детали этого процесса были раскрыты лишь с выходом DeepSeek V3.
В настоящее время мы активно разрабатываем Qwen2.5-Max – крупномасштабную MoE-модель, предварительно обученную на более чем 20 триллионах токенов. Для повышения ее интеллектуальных возможностей мы использовали Supervised Fine-Tuning (SFT) и Reinforcement Learning from Human Feedback (RLHF). Сегодня мы рады представить результаты производительности Qwen2.5-Max, а также объявить о доступности ее API через Alibaba Cloud. Вы также можете опробовать модель в Qwen Chat.
Производительность
Была произведена оценка Qwen2.5-Max наряду с ведущими моделями, включая как проприетарные, так и с открытым исходным кодом. Основные метрики, по которым проводилось тестирование:
• MMLU-Pro – проверка знаний на уровне университетских курсов
• LiveCodeBench – тестирование навыков программирования
• LiveBench – комплексная оценка интеллектуальных возможностей
• Arena-Hard – анализ предпочтений пользователей
Сравнение с другими моделями
При сравнении инструктивных моделей (Instruct Models), используемых для задач вроде общения и программирования, Qwen2.5-Max продемонстрировала превосходство над DeepSeek V3 в таких тестах, как:
• Arena-Hard
• LiveBench
• LiveCodeBench
• GPQA-Diamond
А также показала конкурентоспособные результаты в MMLU-Pro, где проверяются сложные интеллектуальные задачи.
При сравнении базовых моделей (Base Models), Qwen2.5-Max была сопоставлена с:
• DeepSeek V3 – ведущая MoE-модель с открытым кодом
• Llama-3.1-405B – крупнейшая плотная (Dense) модель с открытым кодом
• Qwen2.5-72B – одна из топовых плотных моделей с открытым кодом
Результаты показывают значительные преимущества Qwen2.5-Max в большинстве тестов, что подтверждает эффективность масштабирования и использования современных методов пост-тренировки. Мы уверены, что дальнейшие исследования в области усиленного обучения (RLHF) помогут вывести следующую версию Qwen2.5-Max на новый уровень.
Использование Qwen2.5-Max
Теперь Qwen2.5-Max доступна в Qwen Chat. Вы можете:
• Общаться с моделью в интерактивном режиме
• Экспериментировать с артефактами
• Выполнять поиск информации
Также доступен API Qwen2.5-Max (идентификатор модели: qwen-max-2025-01-25). Чтобы воспользоваться API:
• Зарегистрируйте аккаунт Alibaba Cloud
• Активируйте сервис Alibaba Cloud Model Studio
• Перейдите в консоль и создайте API-ключ
API совместим с OpenAI API, поэтому можно использовать стандартные методы вызова. Например, следующий код на Python демонстрирует, как работать с Qwen2.5-Max через OpenAI-совместимый API:
from openai import OpenAI
import os
client = OpenAI(
api_key=os.getenv("API_KEY"),
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
completion = client.chat.completions.create(
model="qwen-max-2025-01-25",
messages=[
{'role': 'system', 'content': 'You are a helpful assistant.'},
{'role': 'user', 'content': 'Which number is larger, 9.11 or 9.8?'}
]
)
print(completion.choices[0].message)
Будущее развитие
Масштабирование данных и моделей не только улучшает интеллектуальные способности ИИ, но и отражает наше стремление к передовым исследованиям. Мы активно работаем над тем, чтобы усилить аналитические и логические способности больших языковых моделей с помощью масштабированного усиленного обучения (RLHF).
Qwen2.5-Max представляет собой одно из самых мощных решений на основе MoE, успешно конкурируя с передовыми моделями. Ее можно использовать для общения, генерации кода, анализа данных и многого другого. Благодаря открытому API в Alibaba Cloud, разработчики могут интегрировать ее в свои проекты и исследовать новые возможности искусственного интеллекта.