👀 家人們,每天看行情、刷大佬觀點,卻從來不開口說兩句?你的觀點可能比你想的更有價值!
廣場新人 & 回歸福利正式上線!不管你是第一次發帖還是久違回歸,我們都直接送你獎勵!🎁
每月 $20,000 獎金等你來領!
📅 活動時間: 長期有效(月底結算)
💎 參與方式:
用戶需爲首次發帖的新用戶或一個月未發帖的回歸用戶。
發帖時必須帶上話題標籤: #我在广场发首帖 。
內容不限:幣圈新聞、行情分析、曬單吐槽、幣種推薦皆可。
💰 獎勵機制:
必得獎:發帖體驗券
每位有效發帖用戶都可獲得 $50 倉位體驗券。(注:每月獎池上限 $20,000,先到先得!如果大家太熱情,我們會繼續加碼!)
進階獎:發帖雙王爭霸
月度發帖王: 當月發帖數量最多的用戶,額外獎勵 50U。
月度互動王: 當月帖子互動量(點讚+評論+轉發+分享)最高的用戶,額外獎勵 50U。
📝 發帖要求:
帖子字數需 大於30字,拒絕純表情或無意義字符。
內容需積極健康,符合社區規範,嚴禁廣告引流及違規內容。
💡 你的觀點可能會啓發無數人,你的第一次分享也許就是成爲“廣場大V”的起點,現在就開始廣場創作之旅吧!
Grok 4.1 新登場:AI 幻覺降 3 倍,情感理解與創意寫作全面升級
xAI 於 11/17 宣布,最新模型 Grok 4.1 已正式向所有用戶開放,包含 grok.com、推特 (X) 以及 iOS、Android App。xAI 表示,這次升級著重在「真實世界的可用性」,包括更強的情感理解、更自然的人格表現、更高的創作力與更低的幻覺率,同時保留之前 Grok 4 的推理能力與穩定度。
祕密測試勝率近 65%,Grok 4.1 確認全面上線
xAI 先在 11/1 – 11/14 進行兩週的祕密測試,把 Grok 4.1 測試版以小比例導入 Grok.com、X 與手機 App 的真實流量,並透過「盲測比對」與上一版模型 Grok 4 直接 PK。
xAI 表示盲測時,Grok 4.1 在真實流量上的偏好指數為 64.78%,明顯勝過 Grok 4,並宣布於 11/17 正式向所有用戶開放使用。也同時表示從現在起,所有用戶都能使用 Grok 4.1。只要用戶開啟 Auto 模式,它會自動使用 Grok 4.1,用戶也可以在模型選單中自己選。
Grok 4.1 三大技術亮點一次看
Grok 4.1 技術亮點 1:全新強化學習架構,讓回覆更自然也更懂人
Grok 4.1 的核心升級來自於使用與 Grok 4 相同的「大規模強化學習基礎架構」,但這次進一步引入新的方法,讓模型能在更大規模下自動優化回覆。而這次訓練主要著重在不可驗證的回覆品質,像是語氣、人設一致性、情緒互動、理解意圖等,這些都不是單靠資料就能直接評分的。
為了解決這個問題,xAI 使用了「前沿推理模型」作為獎勵模型 (Reward Model),讓這些具備深度推理能力的 AI 來自動評估 Grok 4.1 的回覆,並在大量的比較中自行學習什麼是更好、更符合人類期待的回答,並且做調整。因此 Grok 4.1 在語氣、個性、情緒、互動自然度上明顯提升,同時保持原本的推理能力與穩定性。
Grok 4.1 技術亮點 2:盲測評比全面登頂,情緒理解與創作力大幅升級
xAI 也公布多項實測結果,顯示 Grok 4.1 在多個能力測試上都有明顯提升。
在 LMArena 全球盲測對戰平台中:
Grok 4.1 Thinking 以 1483 Elo 排名世界第一。
Grok 4.1 Non-Thinking 以 1465 Elo 排名第二,甚至超越其他模型的「完整推理模式」。
情緒理解測試 (EQ-Bench 3):採用 45 個高難度情境與 3 回合互動,由 Claude Sonnet 3.7 評分。Grok 4.1 在同理心、情緒洞察、人際理解等方面表現顯著提升。
創意寫作能力 (Creative Writing v3):在 32 題 × 3 回合的寫作測試中,Grok 4.1 在創作風格、敘事品質、故事流暢度上都有更高分數,官方並展示多個樣本回覆。
整體來看,Grok 4.1 不只在推理力提升,而是在「情感互動」與「創作能力」方面也有明顯升級。
從圖可得知,Grok 4.1 在推理模型綜合排名、情緒理解與創意寫作比較上,皆佔前三名。
(註:Elo,意指 Grok 4.1 在全球盲測平台 LMArena 上的戰力分數,採用原本用於西洋棋的 Elo 排名系統來評比模型回覆優劣。)
Grok 4.1 技術亮點 3: AI 幻覺下降 3 倍,資訊來源更可靠
對於常見的資訊查詢類問題,xAI 特別強調 Grok 4.1 的幻覺率明顯下降。先前 Gork 的快速模式 (Non-Reasoning) 原本容易因推理深度不足而出現幻覺,但在 4.1 的後訓練中,xAI 明確針對這問題進行改善。xAI 的驗證方式包括:
從用戶在真實情況下問的、真正出現在平台上的問題,來進行抽樣測試。
對照 Grok 4.1 與舊版模型的回答差異。
評估在 FActScore 上的表現。
結果顯示,新版本在查詢事實、回覆資訊性問題時,幻覺率明顯下降,回答更穩定、更可信。使得 Grok 4.1 在「快速答題」與「查資料」的場景中,比前代版本更實用、更精準。
從圖可得知,Grok 4.1 的幻覺率從 12.09% 下降至 4.22%,下降約三倍。事實驗證評分 (FActScore) 也從 9.89% 降到 2.97%,表示 Grok 4.1 準確度有大幅改善。
(註:FActScore 為由 500 題真實人物傳記問題組成的公開測試,用來檢驗模型在搜尋事實、判斷正確性與回答一致性上的表現,可稱作驗證事實評分。)
(2025 最新五大主流 AI 語言模型 (LLM) 全解析,付費、應用與安全性一次看懂)
這篇文章 Grok 4.1 新登場:AI 幻覺降 3 倍,情感理解與創意寫作全面升級 最早出現於 鏈新聞 ABMedia。