Sendehinweis, 23. April — Das Forschungsteam von Perplexity veröffentlichte einen technischen Artikel, der seine Post-Training-Methodik für Web-Search-Agenten im Detail beschreibt. Der Ansatz nutzt zwei Open-Source-Qwen3.5-Modelle (Qwen3.5-122B-A10B und Qwen3.5-397B-A17B) und setzt auf eine Zwei-Phasen-Pipeline: Supervised Fine-Tuning (SFT), um regelkonformes Befolgen von Anweisungen und sprachliche Konsistenz zu etablieren, gefolgt von Online Reinforcement Learning (RL), um Suchgenauigkeit und Tool-Use-Effizienz zu optimieren.
Die RL-Phase nutzt den GRPO-Algorithmus mit zwei Datenquellen: einen proprietären Multi-Hop-verifizierbaren Frage-Antwort-Datensatz, der aus internen Seed-Queries erstellt wurde, die 2–4 Reasoning-Hops mit Multi-Solver-Verifikation erfordern, sowie rubrikbasierte allgemeine Konversationsdaten, die die Einsatzanforderungen in objektiv prüfbare atomare Bedingungen umwandeln, um eine Degradation des SFT-Verhaltens zu verhindern.
Das Reward-Design verwendet gated Aggregation — Preferences-Scores tragen nur bei, wenn die Baseline-Korrektheit erreicht ist (question-answer match oder alle Rubrik-Kriterien erfüllt), wodurch verhindert wird, dass starke Preference-Signale faktische Fehler überdecken. Effizienz-Strafen verwenden innerhalb von Gruppen verankertes Ankern: Es werden glatte Strafen für Tool-Calls und für die Generationslänge angewendet, die die Baseline der korrekten Antworten in derselben Gruppe überschreiten.
Die Evaluierung zeigt, dass Qwen3.5-397B-SFT-RL eine erstklassige Performance über Such-Benchmarks hinweg erreicht. Bei FRAMES erzielt es 57,3% Genauigkeit mit einem einzelnen Tool-Call und übertrifft GPT-5.4 um 5,7 Prozentpunkte sowie Claude Sonnet 4.6 um 4,7 Prozentpunkte. Bei moderatem Budget (vier Tool-Calls) erreicht es 73,9% Genauigkeit bei $0.02 pro Query, im Vergleich zu GPT-5.4s 67,8% Genauigkeit bei $0.085 pro Query und Sonnet 4.6s 62,4% Genauigkeit bei $0.153 pro Query. Die Kostendaten basieren auf der öffentlich verfügbaren API-Preisgestaltung jedes Anbieters und schließen Caching-Optimierungen aus.