Opus 4.7 с низкой степенью размышления превосходит максимальное значение Sonnet 4.6, Anthropic публикует первое руководство по настройке управления агентами.

robot
Генерация тезисов в процессе
AIMPACT сообщение, 20 мая (UTC+8), по данным мониторинга Beating, Anthropic опубликовал первое официальное руководство для разработчиков, подробно раскрыв лимиты разрешения, соотношение глубины размышлений и механизм снижения затрат на кэширование для Claude 4.6 и Opus 4.7 в сценариях управления компьютером и браузером.
Разрешение экрана напрямую определяет точность кликов агента. Для Claude 4.6 верхний предел длинной стороны обрабатываемого скриншота составляет 1568 пикселей, для Opus 4.7 — 2576 пикселей. Если скриншот превышает лимит, сервер API автоматически пропорционально уменьшает изображение, что приводит к смещению координат кликов, сгенерированных моделью, относительно исходного изображения на клиенте.
Поэтому разработчики должны заранее масштабировать скриншот на клиенте до 1280x720 (рекомендуется для Claude 4.6) или 1080p (рекомендуется для Opus 4.7).
Управление интерфейсом в основном зависит от визуального восприятия и позиционирования элементов и не требует высокой производительности в длинных цепочках логических рассуждений.
Тесты показывают, что производительность Opus 4.7 при низкой глубине размышлений (low) догоняет производительность Sonnet 4.6 при максимальной глубине размышлений (max), а затраты токенов составляют лишь одну десятую от последнего.
Официальные рекомендации: установите опцию размышлений на high. По сравнению с глубиной max, потребление токенов сокращается вдвое, а уровень успеха полностью идентичен. Следует избегать включения max, чтобы предотвратить удвоение счетов из-за избыточных размышлений модели.
Поскольку один скриншот потребляет до 1800 токенов в контексте, официальные лица предлагают трехуровневую схему снижения затрат: постоянное использование 1 системного кэш-точки, а также динамическое распределение оставшихся 3 точек на результаты выполнения последних нескольких раундов инструментов; выполнение прокрутки и обрезки на клиенте, сохраняя в контексте только последние 3 скриншота, остальные заменяются плейсхолдерами; при приближении глубины контекста к 90% запускается сжатие сводки.
Кроме того, API вводит пакетный инструмент computer_batch, поддерживающий выполнение нескольких операций, не зависящих от визуализации, в одном вызове; а также механизм советника агента (Advisor Tool), позволяющий основной модели напрямую вызывать высокоуровневую модель Opus в фоновом режиме для аудита шагов выполнения.
Разработчики также могут значительно повысить уровень успеха задач с помощью режима записи и обучения (Teach Mode, то есть запись реальных траекторий действий пользователя и использование их в качестве справочных инструкций при воспроизведении).
(Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено