Логотип
Баннер в шапке 1
Баннер в шапке 2

Qwen

Продукт
Разработчики: Alibaba Group
Дата премьеры системы: август 2023 г.
Отрасли: Информационные технологии

Содержание

[Свернуть]

2025

Представлено семейство моделей Qwen3

28 апреля 2025 г Alibaba представила семейство моделей Qwen3, которое по синтетическим бенчмаркам вырываются в группу лидеров, но не является лидером по совокупности параметров, хотя заявка очень сильная.

Интегрально, Qwen3 конкурирует с Gemini 2.5 flash по соотношению цена/качество/производительность, опережая GPT o3 и o4-mini за счет лучшей доступности, но проигрывая по результативности, если цель состоит в генерации лучшего ответа/решения.

Моделей много, но выделю флагманскую - Qwen3-235B-A22B, которая активирует 22 млрд активных параметров из 235 млрд потенциально доступных, снижая требования к вычислительным ресурсам на 85%, сохраняя качество выходных токенов.

Qwen3 построены на базе архитектуры Mixture-of-Experts (MoE). Это подход в машинном обучении, который разделяет модель на специализированные подсети («эксперты»), активируемые динамически для каждого входного запроса. Её ключевая идея - повысить эффективность и качество модели за счёт условных вычислений, когда только часть параметров задействуется для обработки конкретного входа, позволяя генерировать токены быстрее и дешевле без потери качества.

Для понимания эффективности архитектуры, Qwen3-4B (4 млрд параметров) превосходит Qwen2.5-72B-Instruct в задачах общего понимания, а MoE-версия Qwen3-30B-A3B обходит QwQ-32B, активируя лишь 10% параметров.ERP-системы в России: как меняется этот рынок и кто лидирует в поставке таких решений. Обзор TAdviser 12.5 т

Для пользователей это означает возможность развертывания локальных очень мощных и производительных моделей с ограниченными ресурсами, буквально на домашних компьютерах, писал Spydell Finance.

Эффективность ресурсов: 235B-A22B требует на 65-70% меньше VRAM, чем Llama4 Maverick 402B.

Скорость вывода: 320 токенов/сек на RTX 4090 против 180 у DeepSeek-R1.

Точность длинного контекста: 98% на 32k контекстном окне против 75-95% у последних моделей конкурентов. Этот параметр показывает точность удержания контекстного окна, тогда как старые LLM «сыпались» при большом окне, забывая нить повествования и детали.

Qwen3 изначально создавалась, как думающая модель (Thinking Mode), тогда как к Qwen2.5 этот модуль прикрутили через «костыли».

Объём тренировочных данных увеличен в 3 раза - до 36 триллионов токенов, с акцентом на STEM-дисциплины (35% данных) и синтетические наборы для рассуждений.

  • +42% точности в математических бенчмарках (MATH, AIME25)
  • +37% эффективности в задачах программирования (LiveCodeBench)
  • Поддержка 119 языков против 32 в Qwen2.5.

В сравнении с предыдущей версией и основными конкурентами Qwen3 демонстрирует прорыв в эффективности ресурсопотребления при сохранении лидирующих позиций в математических и кодирующих задачах.

Значительно улучшены возможности в мультимодальности (обработка видео и изображений), заявлена способность поглощать видео длительностью до 1 часа с точностью до секунды, не теряя детали.

Предварительный срез позволяет судить, что сейчас Qwen3-235B-A22B на третьем месте, уступая лучшей LLM в мире – GPT o3 и рядом с ней находящиеся Gemini 2.5 Pro, но выигрывая у Grok 3, и точно впереди DeepSeek R1, который произвёл фурор в январе-феврале.

Весьма достойный ответ от китайцев, ждем DeepSeek R2, который должен выйти 15-25 мая. В начале мая Илон Маск обещал представить Grok 3.5. Конкуренция обостряется.

Qwen3 доступен бесплатно на официальном сайте.

Анонс версии Qwen 2.5-Max

29 января 2025 года компания Alibaba Cloud, облачное подразделение китайской корпорации Alibaba, представила большую языковую модель Qwen 2.5-Max. Утверждается, что эта нейросеть по возможностям превосходит мощную открытую модель искусственного интеллекта DeepSeek V3, которая, в свою очередь, опережает большинство открытых и закрытых аналогов, включая ChatGPT.

Qwen 2.5-Max использует архитектуру Mixture-of-Experts (MoE). Она предполагает применение множества подмоделей (экспертов), каждая из которых специализируется на разных аспектах входных данных или типов задач. Такой подход позволяет значительно увеличить скорость, а также повысить качество обработки запросов и генерируемых результатов.

Alibaba Cloud выпустила бесплатную нейросеть, которая мощнее DeepSeek

Нейросеть Qwen 2.5-Max предварительно обучена на более чем 20 трлн токенов. Дополнительно проведены контролируемая тонкая настройка (SFT) и обучение с подкреплением на основе отзывов людей (RLHF). Модель Qwen 2.5-Max, как утверждается, превосходит DeepSeek V3 в таких бенчмарках, как Arena-Hard, LiveBench, LiveCodeBench и GPQA-Diamond, а также демонстрирует конкурентоспособные результаты в других оценках, включая MMLU-Pro.

«
Qwen 2.5-Max превосходит почти по всем показателям GPT-4o, DeepSeek V3 и Llama-3.1-405B. Наши базовые модели продемонстрировали значительные преимущества в большинстве тестов, и мы с оптимизмом ожидаем, что усовершенствования в методах постобучения выведут следующую версию Qwen на новый уровень, — заявляет Alibaba.
»

Модель Qwen 2.5-Max доступна через сервис Qwen Chat, который можно использовать для тестирования возможностей нейросети, оценки ее эффективности и пр. В дальнейшем Alibaba Cloud планирует интегрировать Qwen 2.5-Max в свои облачные сервисы, что позволит расширить их функциональность.[1]

2023: Запуск нейросети

25 августа 2023 года китайская корпорация Alibaba представила две модели искусственного интеллекта — Qwen-VL[2] (Qwen Large Vision Language Model) и Qwen-VL-Chat, которые обеспечивают расширенные возможности в плане анализа изображений и ведения диалогов на естественном языке.

Вышедшие решения имеют открытый исходный код, а это означает, что независимые исследователи, научные организации и компании по всему миру смогут использовать их для создания собственных ИИ-приложений без необходимости обучения своих систем. Это позволит экономить аппаратные ресурсы, время и деньги. Кроме того, ускорится выход конечных продуктов на коммерческий рынок.

Китайская корпорация Alibaba представила две модели искусственного интеллекта

Модель Qwen-VL может распознавать изображения и текст. Алгоритм способен обрабатывать запросы, связанные с графическими файлами, генерировать ответы, подписи к изображениям и пр. В свою очередь, модель Qwen-VL-Chat предназначена для более сложного взаимодействия: она может сравнивать несколько графических файлов, отвечать на серии вопросов, а также генерировать повествования. ИИ-алгоритмы дают возможность формировать изображения на основе фотографий, которые предоставляет пользователь, а также решать математические задачи, показанные на картинке. Например, можно задать искусственному интеллекту вопрос о местонахождении той или иной компании, загрузив фото ее вывески.

Анонсированные ИИ-модели, как отмечается, призваны улучшить взаимодействие с пользователем, предоставляя более точную и актуальную информацию. Вместе с тем, отмечают специалисты, существуют вопросы, связанные с обеспечением конфиденциальности. ИИ-алгоритмы с возможностью визуальной локализации теоретически позволяют определять местоположение людей, запечатленных на фотографиях: эти сведения могут использоваться для слежки или в преступных целях.[3]


Показать больше