Разработчики: | Anthropic |
Дата премьеры системы: | март 2024 г. |
Отрасли: | Информационные технологии |
Содержание |
2025
Anthropic представила Claude 3.7 Sonnet
Официальный релиз состоялся 24 февраля 2025 г, но так и не был представлен долгожданный поисковой агент, зато представили адаптированную рассуждающую модель.
Anthropic смещает приоритеты в сторону программирования и пользовательских агентов – именно на этом была построена большая часть презентации.
Anthropic представила Claude Code, инструмент командной строки для кодирования, который находится в ограниченном предварительном исследовании. Этот инструмент может искать, читать и редактировать код, писать и запускать тесты, а также взаимодействовать с GitHub, поддерживая разработку на основе тестов, отладку и рефакторинг.
Одной из ключевых особенностей является гибридный режим, позволяющий пользователям выбирать между стандартным режимом для быстрых ответов и расширенным режимом для углубленного, пошагового мышления.
Новая версия демонстрирует лучшую производительность в решении многошаговых задач, включая математику, финансовый анализ, юридические запросы и даже прохождение сложных игровых сценариев. Это делает её особенно полезной (потенциально, на практике не так все хорошо, как в презентациях) для бизнес-приложений и научных исследований, где требуется высокая надёжность и прозрачность работы модели.
Заявляется, что расширенный режим мышления значительно улучшает результаты в математике, программировании и науке.
Внутренние тесты Anthropic показали, что новая модель уменьшает количество необоснованных отказов в ответах примерно на 45% по сравнению с предыдущей версией. Снижено количество ошибок в генерации (галлюцинации).
Модель поддерживает контекст до 200 тыс токенов и может генерировать до 128 тыс выходных токенов.
По тестам от Anthropic выглядит впечатляюще, но не революционно, писал Spydell Finance. Сопоставимо с GPT o1/o3-high, DeepSeek R1 и Grok 3 в зависимости от тестов, но интегрально претендует на лучшую в мире LLM, конкурируя с Grok 3.Эксплуатация ЦОДов в условиях постоянно меняющегося рынка
Качественного прорыва не произошло, справедливо говорить о выравнивании конкуренции.
Таким образом, на 25 февраля в мире существуют только 5 передовых рассуждающих моделей:
- Claude 3.7 Sonnet Thinking
- Grok 3 Reasoner
- GPT o1/o3-high
- DeepSeek R1
- Gemini 2.0 Thinking mode.
Anthropic ожидаемо врывается в группу лидеров, но нужны более полные тесты.
Для профессиональных пользователей приоритетным является прямой доступ к платным моделям под тонкую настройку, но большая часть текущих задач решается без углубленных модификаций моделей.
Темп инноваций запредельный: DeepSeek R1 в середине января, GPT-o3 в начале февраля, спустя неделю Gemini 2.0, на днях Илон Маск порадовал с Grok 3, а теперь Claude 3.7 Sonnet.
GPT-4o и другие нейросети не справляются с большинством задач по программированию — исследование OpenAI
Большие языковые модели (LLM) значительно упрощают и ускоряют написание программного кода, однако они не способны самостоятельно справляться с большинством задач по программированию. Об этом говорится в исследовании OpenAI, результаты которого опубликованы в середине февраля 2025 года. Подробнее здесь.
2024: Анонс модели Claude 3
4 марта 2024 года компания Anthropic, основанная выходцами из OpenAI, анонсировала модели искусственного интеллекта семейства Claude 3. Говорится, что они превосходят аналоги как самой OpenAI, так и Google.
В семейство входят три решения: Claude 3 Haiku, Claude 3 Sonnet и Claude 3 Opus. В зависимости от исполнения эти модели позволяют выбирать оптимальный баланс ИИ-производительности и стоимости для конкретного применения. Opus и Sonnet доступны для использования на платформе claude.ai. Кроме того, получить доступ к ним можно через специализированный программный интерфейс (API).
Anthropic утверждает, что ее модель Claude 3 Opus превосходит GPT-4 и Gemini в решении математических задач, компьютерном кодировании, общих знаниях и других областях. Более того, как отмечается, Opus демонстрирует «почти человеческий уровень понимания» и беглости при ответах на сложные вопросы. Кроме того, все модели семейства Claude 3 показывают расширенные возможности анализа и прогнозирования, создания детального контента, генерации кода и общения на различных языках, включая испанский, японский и французский.
По состоянию на начало марта 2024 года Claude 3 Haiku, по заявлениям Anthropic, — это самая быстрая и экономичная ИИ-модель на рынке в своей категории. Модели Claude 3 обладают развитыми возможностями машинного зрения: они могут обрабатывать широкий спектр графических материалов, включая фотографии, диаграммы и технические данные. Модели Claude 3 также могут применяться в интерактивных чатах с пользователями.
В тесте, который требует рассуждений уровня магистратуры, модель Claude 3 Opus продемонстрировала результат в 50,4% против 35,7% у GPT-4. А у версии Claude 3 Sonnet этот показатель составил 40,4%.[1]