Gate News 消息,4 月 24 日 — V4 已公開披露其 V4-Pro 模型的內部自我測試(dogfooding)數據。該公司從超過 50 位工程師收集了約 200 項真實世界的工程任務,涵蓋功能開發、錯誤修復、重構以及跨技術棧的診斷,包括 PyTorch、CUDA、Rust 和 C++。經過嚴格篩選後,保留了 30 項任務用於基準評估。
V4-Pro-Max 的程式通過率達到 67%,顯著超越 Sonnet 4.5 的 47%,並接近 Opus 4.5 的 70%。不過,它仍落後於 Opus 4.5 Thinking (73%) 與 Opus 4.6 Thinking (80%),同時遠高於 Haiku 4.5 的 13%。
在一項包含 85 位受訪者的內部調查中,所有參與者都表示在日常工作流程中使用 V4-Pro 進行具代理(agentic)的程式編寫。52% 將 V4-Pro 作為其預設的主要程式模型,39% 傾向於表示批准,而不到 9% 表達不認同。回報的問題包括底層錯誤、對含糊指令的誤解,以及偶爾出現過度思考的行為。
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見
聲明。
相關文章
OpenAI Engineer Clive Chan Challenges V4 Hardware Recommendations, Citing Errors and Vagueness vs. V3
Gate News message, April 24 — OpenAI engineer Clive Chan has raised detailed objections to the hardware recommendations chapter in the V4 technical report, calling it "surprisingly mediocre and error-prone" compared to the acclaimed V3 version. V3's hardware guidance, which included Q&A sessions
GateNews31分鐘前
Naver 推出 AI Tab 封閉測試版,Google Gemini 進入南韓搜尋市場
Gate News 消息,4 月 24 日——Naver 宣布,其新推出的對話式搜尋功能 AI Tab 將啟動封閉測試,時間是在 Google 於南韓推出在 Chrome 中整合 Gemini 之後。
AI Tab 將與 Naver 現有的搜尋分頁並列,為用戶提供一個專用空間,用於對話式
GateNews43分鐘前
印度 AI 工程招聘激增 59.5%,擴展至科技樞紐之外
LinkedIn 的《AI 人才市場報告 2026》於 4 月 24 日發布,發現印度的 AI 工程師招聘年增 59.5%,在該平台所研究的市場中,創下最快的成長速度。
這一成長由需求擴散至既有科技中心以外所推動。其中包括城市,例如
Crypto Frontier1小時前
聯邦銀行(Commonwealth Bank)在擴大 AI 之際裁撤 120 個職位
澳洲聯邦銀行(Commonwealth Bank of Australia)宣布,隨著該國最大銀行檢視職缺並擴大使用人工智慧,其將裁減約120個工作機會,據彭博社報導。裁員包括在西澳的Bankwest裁減43個職位,其中有六個職位受到自動化影響。這是
Crypto Frontier1小時前
Cursor 揭選 XAI 訓練原因:算力被卡住,SpaceX 另握 600 億美元收購選擇權
Anysphere 公告稱 Cursor 將與 xAI 使用 Colossus 基礎設施訓練新模型以突破算力瓶頸;SpaceX 提出 600 億美元的收購選擇權(2026 年內可整體收購),不行就支付約 100 億美元作為合作補償。兩筆交易同時進行,重塑誰能訓練 Cursor 以及誰能買下 Cursor,Cursor 仍允許多模型後端,但長期走向取決於 SpaceX 是否行使收購權。
鏈新聞abmedia1小時前
Anthropic 二級市場估值破 1 兆美元:Forge Global 反超 OpenAI 的 8,800 億
根據 Decrypt 報導,Forge Global 的 Anthropic 二級估值約 1 兆美元,OpenAI 約 8,800 億美元,二級市場首次出現領先逆轉。Anthropic ARR 由 2025 底的約 90 億增至 2026 年 3 月約 300 億,三個月成長 233%,推升私募估值。二級估值與一級融資不同,反映退出信心;未來仍看技術、政策、商業與敘事四線道。
鏈新聞abmedia1小時前