Cloudflare, который помогает вам блокировать веб-скреперов, запустил «Одноклик полносайт Crawler API», идеально поддерживающий RAG, добавочные обновления и обучение моделей

動區BlockTempo

Cloudflare 10 марта выпустила совершенно новую точку API /crawl для своей услуги Browser Rendering (отображение в браузере), которая в настоящее время находится в стадии открытой бета-версии. Эта новая функция позволяет разработчикам осуществлять сканирование всего сайта одним вызовом API, автоматически преобразуя содержимое в HTML, Markdown или структурированный JSON-формат, что предоставляет мощный и соответствующий требованиям инструмент для создания обучающих наборов данных для ИИ и каналов RAG (поиск с усилением генерации).
(Предыстория: крупный сбой Cloudflare вызвал масштабный сбой глобальной сети, — разве «децентрализованная архитектура» — будущее инфраструктуры?)
(Дополнительный фон: 24 часа после сбоя Cloudflare: почему сеть «обрушилась и полностью остановилась»? Риски централизации для Web3 и RWA в будущем)

Содержание статьи

Переключить

  • Асинхронная обработка, поддержка Markdown и структурированного JSON
  • Основной упор на «послушных» краулеров, строгие правила соответствия и механизмы защиты
  • Инкрементальное сканирование для снижения затрат, бесплатные планы для тестирования

С учетом стремительного роста генеративного ИИ и технологий RAG (поиск с усилением генерации), эффективное и соответствующее требованиям получение данных с сайтов становится одной из главных задач разработчиков. В ответ на это, гигант интернет-инфраструктуры Cloudflare 10 марта официально объявила о запуске революционной новой функции для своей услуги Browser Rendering — полностью нового API /crawl.

Эта функция, находящаяся в стадии открытого тестирования (Open Beta), предназначена для того, чтобы разработчики могли «одним вызовом API сканировать весь сайт».

Асинхронная обработка, поддержка Markdown и структурированного JSON

Согласно объявлению Cloudflare, новый API для краулинга работает в асинхронном режиме. Разработчики просто отправляют начальный URL, и система возвращает идентификатор задачи (Job ID), после чего в фоновом режиме с помощью безголового браузера (Headless Browser) автоматически обнаруживает и рендерит страницы. Разработчики могут в любой момент проверять статус и результаты сканирования по этому ID.

Чтобы идеально интегрировать его в текущие рабочие процессы разработки ИИ, API поддерживает несколько форматов вывода. Помимо традиционного HTML, он может напрямую выдавать Markdown — формат, очень любимый крупными языковыми моделями (LLM), — а также структурированный JSON, управляемый AI-движком Workers. Это значительно сокращает время, затрачиваемое на очистку данных и преобразование форматов.

Основной упор на «послушных» краулеров, строгие правила соответствия и механизмы защиты

В отличие от множества существующих на рынке вредоносных краулеров, пытающихся обходить защитные механизмы, новая точка API /crawl от Cloudflare ориентирована на «соответствие и прозрачность». В официальной документации подчеркивается, что этот агент — подписанный прокси-агент (Signed-agent), который по умолчанию строго соблюдает правила robots.txt целевого сайта (включая ограничения по задержкам), а также уважает собственные стандарты Cloudflare «AI Crawl Control» (контроль за краулингом ИИ).

Кроме того, Cloudflare ясно заявляет, что этот инструмент «самоотмечается как робот» и не может обходить системы обнаружения роботов или CAPTCHA. Такой дизайн гарантирует, что поведение краулеров не нарушает волю владельцев сайтов и не создает нагрузку на их серверы.

Инкрементальное сканирование для снижения затрат, бесплатные планы для тестирования

Для повышения эффективности и снижения затрат API включает ряд расширенных функций управления:

  • Инкрементальное сканирование (Incremental crawling): поддержка параметров modifiedSince и maxAge, позволяющих автоматически пропускать страницы, которые не изменялись или недавно уже были сканированы, что экономит ресурсы на повторное сканирование.
  • Тонкая настройка диапазона: разработчики могут задавать глубину сканирования, лимит количества страниц, а также использовать универсальные шаблоны (Wildcard) для включения или исключения определенных URL.
  • Статический режим (Static mode): для сайтов, не требующих рендеринга JavaScript, можно установить render: false, чтобы пропустить запуск безголового браузера и добиться максимально быстрой выборки.

На данный момент эта мощная функция краулинга полностью доступна как для бесплатных, так и для платных пользователей Cloudflare Workers. Это безусловно привлекательное обновление инфраструктуры для команд, регулярно мониторящих содержимое сайтов, собирающих исследовательские данные или создающих корпоративные базы знаний на базе ИИ.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев