根據 Beating 动察,SubQ 發布了其 1.1 Small 版本,並附上一份技術報告,聲稱在極端的 12 百萬 tokens(12,000,000 tokens)情境長度下,檢索準確率達 98%,且經第三方評估機構 Appen 驗證。該模型在實用程式設計測試中達成的表現,與領先的前沿模型相當。
開發公司 Subquadratic 揭露,該模型並非從零開始訓練,而是透過修改開源前沿模型的注意力機制打造,並在 1 千億 tokens 上進行累進式訓練。
儘管經過第三方驗證,開發者社群仍持懷疑態度。研究人員指出,所宣稱的突破缺乏基本的技術新穎性,只是套用了既有的稀疏注意力機制。部分人士指出技術報告中包含 AI 生成的填充文字,而另一些人則警告,該過濾機制可能在同時使用時引入排程負擔,並可能導致邊緣案例出現嚴重延遲。