掃描下載 Gate App
qrCode
更多下載方式
今天不再提醒

中國的Z-Image取代Flux成爲AI藝術之王——而你的土豆電腦也能運行它

簡要說明

  • 新的Z-Image模型運行在6GB VRAM上—硬件Flux2連碰都碰不着。
  • Z-Image 已經擁有 200+ 個社區資源和超過一千條正面評價,而 Flux2 只有 157 條評價。
  • 它被評爲迄今爲止最佳的開源模型。

Decrypt的藝術、時尚和娛樂中心。


深入了解 SCENE

阿裏巴巴的通義實驗室Z-Image Turbo,一個擁有60億參數的圖像生成模型,上周發布,簡單承諾:在你實際擁有的硬件上提供最先進的質量。

這一承諾的落地效果顯著。在發布幾天後,開發者們已經以超過Flux2的速度推出了LoRA——定制的微調適配版本,Flux2是黑森林實驗室備受追捧的、對廣受歡迎的Flux模型的繼任者。

Z-Image 的絕活是高效性。雖然像 Flux2 這樣的競爭對手要求至少 24GB 的 VRAM (,完整模型需要高達 90GB ),但 Z-Image 可以在量化設置下以僅 6GB 的內存運行。

這屬於RTX 2060的領域—基本上是2019年的硬件。根據分辨率,用戶可以在短短30秒內生成圖像。

對於愛好者和獨立創作者來說,這扇門以前是鎖着的。

AI藝術社區迅速贊揚了該模型。

"這就是SD3本該是的樣子,"用戶Saruhey在CivitAI上寫道,這是全球最大的開源AI藝術工具庫。“提示遵循度非常出色……能夠立即處理文本的模型是顛覆性的。這東西的能力與Flux相比不相上下,甚至更強大。中國在AI領域遙遙領先。”

Z-Image Turbo 自上周四以來已在 Civitai 上線,已經獲得超過 1,200 條積極評價。作爲背景,Flux2——在 Z-Image 之前幾天發布——有 157 條評價。

該模型完全從頭開始不受限制。名人、虛構角色,以及是的,露骨內容都在討論之中。

截至今天,Civitai上大約有200個資源(,包含finetunes、LoRAs和工作流),其中許多是NSFW.

在Reddit上,用戶Regular-Forever5876測試了模型的極限,使用了血腥的提示,結果讓他們震驚:"天哪!!!這個東西對血腥內容的理解簡直太棒了!它生成得毫無瑕疵,"他們寫道。

Z-Image Turbo背後的技術祕密是其S3-DiT架構——一種單流變壓器,它從一開始就一起處理文本和圖像數據,而不是在後期合並。這樣的緊密集成,再加上激進的蒸餾技術,使得該模型能夠達到通常需要五倍於其大小的模型才能達到的質量基準。

測試模型

我們對Z-Image Turbo進行了多維度的廣泛測試。以下是我們發現的結果。

速度:SDXL速度,下一代質量

在九個步驟下,Z-Image Turbo生成圖像的速度大致與SDXL相同,而在通常的30個步驟下——這是一個在2023年發布的模型。

區別在於Z-Image的輸出質量與Flux相匹配或超越。在一臺配備6GB VRAM的RTX 2060 GPU的筆記本電腦上,一張圖像花費了34秒。

相比之下,Flux2生成一張可比較的圖像所需的時間大約是十倍。

現實主義:新的基準

Z-Image Turbo 是目前可用於消費級硬件的最逼真的開源模型。它完全超越了 Flux2,並且基礎蒸餾模型的表現優於 Flux 的專用現實主義精調版本。

皮膚和頭發的質感看起來細致而自然。臭名昭著的"Flux下巴"和"塑料皮膚"大多消失了。身體比例始終保持穩固,增強現實感的LoRA已經在流通。

文本生成:最終,行之有效的詞匯

這是Z-Image真正閃耀的地方。它是圖像內文本生成的最佳開源模型,其性能與谷歌的Nanobanana和Seedream相當——這些模型設定了當前的標準。

對於普通話使用者來說,Z-Image 是明顯的選擇。它能夠以本地語言理解中文,並正確渲染字符。

專業提示:一些用戶報告說,用普通話提示實際上有助於模型產生更好的輸出,開發者甚至發布了一個普通話的“提示增強器”。

英文文本同樣強大,但有一個例外:像“去中心化”這樣的不常見長詞可能會讓它絆倒——這是Nanobanana也存在的限制。

空間意識和及時遵守:卓越

Z-Image的提示遵循性非常出色。它以驚人的精確度理解風格、空間關係、位置和比例。

例如,取這個提示:

一只戴着紅色帽子的狗站在一臺電視上,屏幕上顯示着"Decrypt 是世界上最好的加密貨幣與人工智能媒體網站"的字樣。左邊有一位穿着商務套裝的金發女性手持一枚硬幣;右邊有一個機器人站在一個急救箱上,箱子後面是一個綠色的金字塔。整體場景超現實。一只貓倒立在一個白色足球上,旁邊是那只狗。一名來自NASA的宇航員手持一塊寫着"Emerge"的標牌,放置在機器人旁邊。

顯而易見,它只有一個拼寫錯誤,可能是由於語言混合,但除此之外,所有元素都準確地表示出來了。

提示出血很少,復雜場景中的多個主體保持一致。它在這個指標上勝過Flux,並在與Nanobanana的對比中不落下風。

接下來是什麼?

阿裏巴巴計劃發布兩個新變種:用於微調的 Z-Image-Base 和用於基於指令的修改的 Z-Image-Edit。如果它們能像 Turbo 一樣精致落地,開源領域將發生巨大的變化。

目前,社區的裁決很明確:Z-Image 已經奪走了 Flux 的王冠,就像 Flux 曾經推翻 Stable Diffusion 一樣。

真正的贏家將是吸引最多開發者在其上構建的人。

但是如果你問我們,是的,Z-Image是我們目前最喜歡的家庭導向開源模型。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)