中国のZ-ImageがAIアートの王者Fluxを打ち負かし、あなたのポテトPCでも実行可能

Decrypt

2025-12-02 02:24:01

簡潔に言うと

新しいZ-Imageモデルは6GBのVRAMで動作します—ハードウェアFlux2はそれにさえも触れることができません。
Z-Imageはすでに200以上のコミュニティリソースと、Flux2の157件のレビューに対して1000件以上のポジティブなレビューを持っています。
現在までで最高のオープンソースモデルとしてランキングされています。

デクリプトのアート、ファッション、エンターテインメントハブ。

SCENEを見る

アリババのTongyi Lab Z-Image Turboは、60億パラメータの画像生成モデルで、先週リリースされました。そのシンプルな約束は、実際に所有しているハードウェアでの最先端の品質を提供することです。

その約束は厳しい現実を突きつけています。リリースから数日で、開発者たちはLoRAs—カスタムファインチューニングされたアダプテーション—を生み出すペースが、Flux2をすでに上回っています。Flux2は、非常に人気のあるFluxモデルの後継として大いに期待されているBlack Forest Labsの製品です。

Z-Imageのパーティートリックは効率性です。Flux2のような競合他社は最低24GBのVRAMを要求し(、フルモデルでは最大90GBを必要としますが、Z-Imageはわずか6GBの量子化されたセットアップで動作します。

それはRTX 2060の領域です—基本的に2019年のハードウェアです。解像度によっては、ユーザーはわずか30秒で画像を生成できます。

趣味人やインディクリエイターにとって、これは以前は閉ざされていた扉です。

AIアートコミュニティは、そのモデルをすぐに称賛しました。

“これがSD3があるべき姿だった,” とユーザーSaruheyは世界最大のオープンソースAIアートツールのリポジトリであるCivitAIに書きました。 “プロンプトへの遵守は非常に優れている… テキストをすぐに処理できるモデルは画期的です。このものは、Fluxが独自に持つ魔法以上の力を持っているか、少なくとも同等の力を持っています。中国はAIゲームで遥かに先を行っています。”

Z-Image Turboは先週の木曜日からCivitaで利用可能で、すでに1,200以上の肯定的なレビューを受けています。参考までに、Z-Imageの数日前にリリースされたFlux2は157件です。

このモデルは完全に無修正でゼロから作られています。セレブ、架空のキャラクター、そしてもちろん、露骨なコンテンツもすべて対象です。

今日現在、Civitaiにだけでも約200のリソース)ファインチューニング、LoRA、ワークフロー(があり、その多くはNSFWです。

Redditで、ユーザーのRegular-Forever5876はモデルの限界をグロテスクなプロンプトで試し、驚きました。「なんてこった！このやつはグロテスクを完璧に理解している！完璧に生成する」と彼らは書きました。

Z-Image Turbo の技術的秘密は、その S3-DiT アーキテクチャにあります—テキストと画像データを最初から一緒に処理するシングルストリームトランスフォーマーであり、後で統合するのではありません。この密接な統合と積極的な蒸留技術の組み合わせにより、モデルは通常、サイズが 5 倍のモデルが必要とする品質基準を満たすことができます。

モデルのテスト

私たちはZ-Image Turboを複数の次元にわたって徹底的にテストしました。ここで私たちが見つけたことです。

スピード: SDXLペース、次世代の品質

9ステップで、Z-Image TurboはSDXLとほぼ同じ速度で画像を生成し、通常の30ステップでは、2023年に発表されたモデルです。

違いは、Z-Imageの出力品質がFluxに匹敵するか、それを上回ることです。6GBのVRAMを搭載したRTX 2060 GPUを搭載したノートパソコンで、1枚の画像に34秒かかりました。

Flux2は、比較すると、同等の画像を生成するのに約10倍の時間がかかります。

リアリズム: 新たなベンチマーク

Z-Image Turboは、現在コンシューマー向けハードウェアに利用可能な最もフォトリアルなオープンソースモデルです。Flux2を完全に上回り、ベースの蒸留モデルはFluxの専用リアリズムファインチューニングを上回ります。

肌と髪の質感は詳細で自然に見えます。悪名高い「フラックス顎」と「プラスチック肌」はほとんど消えました。体の比率は一貫してしっかりしており、リアリズムをさらに高めるLoRAがすでに流通しています。

テキスト生成: ついに、機能する言葉

ここがZ-Imageが真に輝く場所です。これは、画像内テキスト生成のための最高のオープンソースモデルであり、GoogleのNanobananaやSeedreamと同等の性能を発揮します。これらのモデルは現在の標準を設定しています。

中国語を話す人にとって、Z-Imageは明らかな選択肢です。中国語をネイティブに理解し、文字を正しく表示します。

プロのヒント：一部のユーザーは、マンダリンでのプロンプトがモデルの出力を改善するのに実際に役立つと報告しており、開発者はマンダリンで「プロンプト強化ツール」を発表しました。

英語のテキストは同じくらい強力ですが、一つの例外があります： “decentralized” のような珍しい長い言葉は混乱させることがあります—これはNanobananaにも共通する制限です。

空間認識と迅速な遵守:例外的

Z-Imageのプロンプトの遵守は素晴らしいです。スタイル、空間関係、位置、比率を驚くほどの精度で理解しています。

例えば、このプロンプトを取ってみてください：

赤い帽子をかぶった犬が、画面に「Decrypt 是世界上最好的加密货币与人工智能媒体网站」と表示されたテレビの上に立っています。左側には、コインを持った金髪の女性がビジネススーツを着て立っており、右側には、救急箱の上に立っているロボットがいて、その箱の後ろには緑のピラミッドがあります。全体の風景は超現実的です。犬の隣には、白いサッカーボールの上に逆さまに立っている猫がいます。NASAの宇宙飛行士が「Emerge」と書かれたサインを持っており、ロボットの隣に置かれています。

目立つように、それには一つの誤字しかありませんでした。おそらく言語の混合によるものでしょうが、それ以外はすべての要素が正確に表現されています。

プロンプトの漏れは最小限であり、複数の被写体を含む複雑なシーンも一貫性を保ちます。この指標ではFluxを上回り、Nanobananaにも対抗しています。