DeepSeek,一家總部位於杭州的人工智慧公司,透過一項名為「影像辨識模式」的新功能,已將影像與影片辨識能力新增到其主要聊天機器人中,使其與其他主要 AI 聊天機器人看齊。該功能推出的時點,正好與中國晶片供應鏈的一個重大里程碑同日重疊:四家國內半導體公司——華為昇騰(Huawei Ascend)、寒武紀(Cambricon)、海光信息(Hygon Information)與摩爾線程(Moore Threads)——確認當天就支援 DeepSeek 最新旗艦模型 DeepSeek-V4,這標誌著相較於先前通常出現在英偉達(Nvidia)生態系之外、長達數月的調適期出現了轉變。
DeepSeek 悄悄地在當月較早推出的另外兩種模式之同時,上線了影像辨識模式: 「expert」與「flash」。根據負責 DeepSeek 多模態團隊的陳曉康(Chen Xiaokang)表示,該工具最初在網站與行動應用程式上,先讓一小群使用者進行測試。該公司資深研究員陳德利(Chen Deli)在一則提及公司標誌的貼文中慶祝上線:「小鯨魚現在能看見了。」
影像與影片功能是在 DeepSeek 發布 DeepSeek-V4 預覽並提供模型權重供公眾下載與使用後的數天內到達。V4 被構造成兩個獨立模型:DeepSeek-V4-Pro,具備 1.6 兆(trillion)參數,旨在進行複雜推理與多步自動化工作流程;以及 DeepSeek-V4-Flash,針對以較低成本處理大量請求進行最佳化。兩個模型都支援 100 萬(one million)tokens 的上下文視窗,並採用混合注意力(hybrid attention)設計;該公司表示,這種設計在推論期間可降低運算能力與記憶體需求。
吸引產業關注的並不只是該模型本身,而是 V4 發布當天所展現的協同硬體支援。華為昇騰確認其 A2、A3 與 950 晶片相容;其中昇騰 950 透過融合運算(fused computing)流程與平行處理串流(parallel processing streams)加速 V4-Pro 與 V4-Flash 的推論。寒武紀(Cambricon)使用開源的 vLLM 推論框架完成調適,並在 GitHub 發布其程式碼。海光信息(Hygon Information)在其 DCU 平台上進行深入的模型最佳化,以確保從模型釋出到部署能夠順暢切換。摩爾線程(Moore Threads)與北京人工智慧研究院合作,透過 FlagOS 軟體堆疊(software stack)在其 MTT S5000 卡上運行 V4。
多款晶片平台在同一天提供支援,代表了背離既有模式。過去,英偉達(Nvidia)生態系之外的硬體通常需要數月才能支援主要的新模型。產業觀察者指出,在發布當天就能實現與四種不同國內晶片的相容,意味著中國半導體與 AI 基礎設施的成熟度出現了真實轉變。
DeepSeek 此次推出的更廣泛意義,不僅限於個別的技術成就。透過讓 V4 能同時在多款中國晶片上原生運行,DeepSeek 降低了對出口限制的依賴風險;而這些限制在過去曾阻擋中國公司取得最先進的美國處理器。成本效率仍是 DeepSeek 戰略的核心——該公司優先確保模型運行成本保持低水準,使企業能夠在不付出高昂運算成本的情況下,建置自動化系統。
產業觀察者將這次發布形容為反映的是整條供應鏈的成熟,而非單一技術突破。DeepSeek、晶片製造商與軟體框架之間的協調,展現了整合型生態系的發展路徑。這一趨勢顯示,AI 的競爭格局正在從聚焦單一模型的先進程度,轉向能在長期維度上維持完整、具成本效益且獨立的系統能力。
DeepSeek 的聊天機器人新增了哪些新能力?
DeepSeek 新增了一種「影像辨識模式」,使其聊天機器人不僅能理解文字,還能理解照片與影片。該功能最初在網站與行動應用程式上,先讓一小群使用者進行測試;藉此使 DeepSeek 的能力能與其他提供類似能力的主要 AI 聊天機器人看齊。
在發布當天,哪些中國晶片公司支援了 DeepSeek-V4?
四家中國晶片公司確認在發布當天支援 DeepSeek-V4:華為昇騰 (with A2, A3, and 950 chips)、寒武紀(Cambricon)、海光信息(Hygon Information)與摩爾線程(Moore Threads)。在多款晶片平台之間實現同日相容,過去在英偉達(Nvidia)生態系之外相當罕見,通常需要數月的調適工作。
DeepSeek-V4 的兩個版本是什麼?它們有何差異?
DeepSeek-V4-Pro 具備 1.6 兆(trillion)參數,並設計用於複雜推理與多步自動化工作流程;而 DeepSeek-V4-Flash 則針對在較低成本下處理大量請求進行最佳化。兩者都支援 100 萬(one million)tokens 的上下文視窗,並使用混合注意力(hybrid attention)設計以降低運算能力與記憶體需求。