Perplexity offenbart Methode zum Post-Training von Web-Search-Agenten; auf Qwen3.5 basierendes Modell übertrifft GPT-5.4 bei Genauigkeit und Kosten

Sendehinweis, 23. April — Das Forschungsteam von Perplexity veröffentlichte einen technischen Artikel, der seine Post-Training-Methodik für Web-Search-Agenten im Detail beschreibt. Der Ansatz nutzt zwei Open-Source-Qwen3.5-Modelle (Qwen3.5-122B-A10B und Qwen3.5-397B-A17B) und setzt auf eine Zwei-Phasen-Pipeline: Supervised Fine-Tuning (SFT), um regelkonformes Befolgen von Anweisungen und sprachliche Konsistenz zu etablieren, gefolgt von Online Reinforcement Learning (RL), um Suchgenauigkeit und Tool-Use-Effizienz zu optimieren.

Die RL-Phase nutzt den GRPO-Algorithmus mit zwei Datenquellen: einen proprietären Multi-Hop-verifizierbaren Frage-Antwort-Datensatz, der aus internen Seed-Queries erstellt wurde, die 2–4 Reasoning-Hops mit Multi-Solver-Verifikation erfordern, sowie rubrikbasierte allgemeine Konversationsdaten, die die Einsatzanforderungen in objektiv prüfbare atomare Bedingungen umwandeln, um eine Degradation des SFT-Verhaltens zu verhindern.

Das Reward-Design verwendet gated Aggregation — Preferences-Scores tragen nur bei, wenn die Baseline-Korrektheit erreicht ist (question-answer match oder alle Rubrik-Kriterien erfüllt), wodurch verhindert wird, dass starke Preference-Signale faktische Fehler überdecken. Effizienz-Strafen verwenden innerhalb von Gruppen verankertes Ankern: Es werden glatte Strafen für Tool-Calls und für die Generationslänge angewendet, die die Baseline der korrekten Antworten in derselben Gruppe überschreiten.

Die Evaluierung zeigt, dass Qwen3.5-397B-SFT-RL eine erstklassige Performance über Such-Benchmarks hinweg erreicht. Bei FRAMES erzielt es 57,3% Genauigkeit mit einem einzelnen Tool-Call und übertrifft GPT-5.4 um 5,7 Prozentpunkte sowie Claude Sonnet 4.6 um 4,7 Prozentpunkte. Bei moderatem Budget (vier Tool-Calls) erreicht es 73,9% Genauigkeit bei $0.02 pro Query, im Vergleich zu GPT-5.4s 67,8% Genauigkeit bei $0.085 pro Query und Sonnet 4.6s 62,4% Genauigkeit bei $0.153 pro Query. Die Kostendaten basieren auf der öffentlich verfügbaren API-Preisgestaltung jedes Anbieters und schließen Caching-Optimierungen aus.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare