Разработчики: | Alibaba Group |
Дата премьеры системы: | август 2023 г. |
Отрасли: | Информационные технологии |
Содержание[Свернуть] |
2025
Представлено семейство моделей Qwen3
28 апреля 2025 г Alibaba представила семейство моделей Qwen3, которое по синтетическим бенчмаркам вырываются в группу лидеров, но не является лидером по совокупности параметров, хотя заявка очень сильная.
Интегрально, Qwen3 конкурирует с Gemini 2.5 flash по соотношению цена/качество/производительность, опережая GPT o3 и o4-mini за счет лучшей доступности, но проигрывая по результативности, если цель состоит в генерации лучшего ответа/решения.
Моделей много, но выделю флагманскую - Qwen3-235B-A22B, которая активирует 22 млрд активных параметров из 235 млрд потенциально доступных, снижая требования к вычислительным ресурсам на 85%, сохраняя качество выходных токенов.
Qwen3 построены на базе архитектуры Mixture-of-Experts (MoE). Это подход в машинном обучении, который разделяет модель на специализированные подсети («эксперты»), активируемые динамически для каждого входного запроса. Её ключевая идея - повысить эффективность и качество модели за счёт условных вычислений, когда только часть параметров задействуется для обработки конкретного входа, позволяя генерировать токены быстрее и дешевле без потери качества.
Для понимания эффективности архитектуры, Qwen3-4B (4 млрд параметров) превосходит Qwen2.5-72B-Instruct в задачах общего понимания, а MoE-версия Qwen3-30B-A3B обходит QwQ-32B, активируя лишь 10% параметров.ERP-системы в России: как меняется этот рынок и кто лидирует в поставке таких решений. Обзор TAdviser
Для пользователей это означает возможность развертывания локальных очень мощных и производительных моделей с ограниченными ресурсами, буквально на домашних компьютерах, писал Spydell Finance.
Эффективность ресурсов: 235B-A22B требует на 65-70% меньше VRAM, чем Llama4 Maverick 402B.
Скорость вывода: 320 токенов/сек на RTX 4090 против 180 у DeepSeek-R1.
Точность длинного контекста: 98% на 32k контекстном окне против 75-95% у последних моделей конкурентов. Этот параметр показывает точность удержания контекстного окна, тогда как старые LLM «сыпались» при большом окне, забывая нить повествования и детали.
Qwen3 изначально создавалась, как думающая модель (Thinking Mode), тогда как к Qwen2.5 этот модуль прикрутили через «костыли».
Объём тренировочных данных увеличен в 3 раза - до 36 триллионов токенов, с акцентом на STEM-дисциплины (35% данных) и синтетические наборы для рассуждений.
- +42% точности в математических бенчмарках (MATH, AIME25)
- +37% эффективности в задачах программирования (LiveCodeBench)
- Поддержка 119 языков против 32 в Qwen2.5.
В сравнении с предыдущей версией и основными конкурентами Qwen3 демонстрирует прорыв в эффективности ресурсопотребления при сохранении лидирующих позиций в математических и кодирующих задачах.
Значительно улучшены возможности в мультимодальности (обработка видео и изображений), заявлена способность поглощать видео длительностью до 1 часа с точностью до секунды, не теряя детали.
Предварительный срез позволяет судить, что сейчас Qwen3-235B-A22B на третьем месте, уступая лучшей LLM в мире – GPT o3 и рядом с ней находящиеся Gemini 2.5 Pro, но выигрывая у Grok 3, и точно впереди DeepSeek R1, который произвёл фурор в январе-феврале.
Весьма достойный ответ от китайцев, ждем DeepSeek R2, который должен выйти 15-25 мая. В начале мая Илон Маск обещал представить Grok 3.5. Конкуренция обостряется.
Qwen3 доступен бесплатно на официальном сайте.
Анонс версии Qwen 2.5-Max
29 января 2025 года компания Alibaba Cloud, облачное подразделение китайской корпорации Alibaba, представила большую языковую модель Qwen 2.5-Max. Утверждается, что эта нейросеть по возможностям превосходит мощную открытую модель искусственного интеллекта DeepSeek V3, которая, в свою очередь, опережает большинство открытых и закрытых аналогов, включая ChatGPT.
Qwen 2.5-Max использует архитектуру Mixture-of-Experts (MoE). Она предполагает применение множества подмоделей (экспертов), каждая из которых специализируется на разных аспектах входных данных или типов задач. Такой подход позволяет значительно увеличить скорость, а также повысить качество обработки запросов и генерируемых результатов.
Нейросеть Qwen 2.5-Max предварительно обучена на более чем 20 трлн токенов. Дополнительно проведены контролируемая тонкая настройка (SFT) и обучение с подкреплением на основе отзывов людей (RLHF). Модель Qwen 2.5-Max, как утверждается, превосходит DeepSeek V3 в таких бенчмарках, как Arena-Hard, LiveBench, LiveCodeBench и GPQA-Diamond, а также демонстрирует конкурентоспособные результаты в других оценках, включая MMLU-Pro.
![]() | Qwen 2.5-Max превосходит почти по всем показателям GPT-4o, DeepSeek V3 и Llama-3.1-405B. Наши базовые модели продемонстрировали значительные преимущества в большинстве тестов, и мы с оптимизмом ожидаем, что усовершенствования в методах постобучения выведут следующую версию Qwen на новый уровень, — заявляет Alibaba. | ![]() |
Модель Qwen 2.5-Max доступна через сервис Qwen Chat, который можно использовать для тестирования возможностей нейросети, оценки ее эффективности и пр. В дальнейшем Alibaba Cloud планирует интегрировать Qwen 2.5-Max в свои облачные сервисы, что позволит расширить их функциональность.[1]
2023: Запуск нейросети
25 августа 2023 года китайская корпорация Alibaba представила две модели искусственного интеллекта — Qwen-VL[2] (Qwen Large Vision Language Model) и Qwen-VL-Chat, которые обеспечивают расширенные возможности в плане анализа изображений и ведения диалогов на естественном языке.
Вышедшие решения имеют открытый исходный код, а это означает, что независимые исследователи, научные организации и компании по всему миру смогут использовать их для создания собственных ИИ-приложений без необходимости обучения своих систем. Это позволит экономить аппаратные ресурсы, время и деньги. Кроме того, ускорится выход конечных продуктов на коммерческий рынок.
Модель Qwen-VL может распознавать изображения и текст. Алгоритм способен обрабатывать запросы, связанные с графическими файлами, генерировать ответы, подписи к изображениям и пр. В свою очередь, модель Qwen-VL-Chat предназначена для более сложного взаимодействия: она может сравнивать несколько графических файлов, отвечать на серии вопросов, а также генерировать повествования. ИИ-алгоритмы дают возможность формировать изображения на основе фотографий, которые предоставляет пользователь, а также решать математические задачи, показанные на картинке. Например, можно задать искусственному интеллекту вопрос о местонахождении той или иной компании, загрузив фото ее вывески.
Анонсированные ИИ-модели, как отмечается, призваны улучшить взаимодействие с пользователем, предоставляя более точную и актуальную информацию. Вместе с тем, отмечают специалисты, существуют вопросы, связанные с обеспечением конфиденциальности. ИИ-алгоритмы с возможностью визуальной локализации теоретически позволяют определять местоположение людей, запечатленных на фотографиях: эти сведения могут использоваться для слежки или в преступных целях.[3]