Janus-Pro: Новый Прорыв в Объединённом Мультимодальном Понимании и Генерации.
Janus-Pro представляет собой инновационную авторегрессионную модель, разработанную для объединённого мультимодального понимания и генерации данных. Её ключевой особенностью является раздельная обработка визуальной информации, что устраняет ограничения предыдущих подходов. При этом модель сохраняет единое архитектурное ядро на основе трансформеров, обеспечивающее эффективную обработку данных. Такое разделение ролей визуального энкодера не только улучшает производительность, но и повышает гибкость системы. Благодаря этим особенностям, Janus-Pro демонстрирует выдающиеся результаты, превосходя предыдущие универсальные модели и зачастую догоняя специализированные.
Основные характеристики модели
Janus-Pro — это универсальная мультимодальная модель, способная как к пониманию, так и к генерации данных. Она построена на базе архитектуры DeepSeek-LLM-1.5b-base и DeepSeek-LLM-7b-base, что обеспечивает высокий уровень точности и масштабируемости.
• Мультимодальное понимание: Для обработки изображений используется визуальный энкодер SigLIP-L, поддерживающий входные изображения с разрешением до 384 x 384 пикселей.
• Генерация изображений: Для задачи генерации используется токенайзер с коэффициентом уменьшения масштаба 16. Этот подход обеспечивает высокую эффективность и точность в создании изображений.
Преимущества Janus-Pro
1. Гибкость: Разделение обработки визуальной информации на два направления позволяет модели легко адаптироваться к различным задачам.
2. Единая архитектура: Использование унифицированного трансформера упрощает интеграцию в различные приложения.
3. Высокая производительность: Janus-Pro показывает результаты, сравнимые с узкоспециализированными моделями, сохраняя универсальность.
Эти особенности делают модель одним из самых перспективных решений для следующего поколения мультимодальных систем.
Лицензия
Кодовая база Janus-Pro распространяется под лицензией MIT. Однако использование модели регулируется лицензионным соглашением DeepSeek Model License, что подчёркивает необходимость соблюдения авторских прав.
Научная публикация и авторы
Исследование, лежащее в основе разработки Janus-Pro, было представлено в 2025 году. Над проектом работала команда ведущих специалистов, включая Сяокана Чена, Чжию У, Синчжао Лю и других.
Цитата:
@misc{chen2025januspro,
title={Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling},
author={Xiaokang Chen and Zhiyu Wu and Xingchao Liu and Zizheng Pan and Wen Liu and Zhenda Xie and Xingkai Yu and Chong Ruan},
year={2025},
}
Контакты
В случае возникновения вопросов разработчики модели предлагают обращаться через открытие issues на GitHub или по электронной почте: [email protected].