超大杯Stable Diffusion免費來襲！「最強文生圖開放模型」，提示詞也更簡單

巴比特_

2023-07-27 05:53:15

來源：量子位

Stable Diffusion最強版本，來了！

剛剛，SDXL 1.0正式發布，可免費在線試玩。

效果上，無論是以假亂真的寫實大片：

超現實的熊貓喝啤酒：

還是賽博朋克漫畫，都非常nice~

Stability AI表示，SDXL 1.0能生成更加鮮明準確的色彩，在對比度、光線和陰影方面做了增強，可生成100萬像素的圖像（1024×1024）。

而且還支持在網頁上直接對生成圖像進行後期編輯。

（有一股和Midjourney、Firefly打擂台的味兒了）

網友們已經按捺不住上手試玩了~

和基礎Stable Diffusion相比，SDXL 1.0生成結果更加準確和逼真。

而且官方表示，提示詞也能比之前更簡單了。

這是因為SDXL 1.0的基礎模型參數量達到了35億，理解能力更強。

對比基礎版Stable Diffusion，參數量只有10億左右。

由此，SDXL 1.0也成為當前最大規模的開放圖像模型之一。官方甚至直接說這就是世界上最好的開放圖像模型。

話不多說，我們來上手體驗了~

把馬斯克印在青花瓷上

SDXL 1.0在操作上很便捷，直接輸入即可，還能從下面勾選風格、尺寸參數等。

一次生成默認是出4張圖，如果不滿意還可以點下方“加號”讓它繼續畫。

官方介紹說，現在讓SDXL 1.0生成大作，無需再加入“傑作”這種提示詞了。

讓它生成一幅日漫風格的圖像，畫風非常貼合，而且在光影的處理上也更加自然了。

1990 年代動漫低分辨率屏幕抓取夫婦晚上在街上走開

或者是一幅風景照？也能以假亂真了。

甚至是讓馬斯克站在中式庭院裡，抬頭斜望著天空……

埃隆·馬斯克在中國古代宮殿

或者是把蘋果收購了？

在「WWDC」上，他舉著全新款iPhone向人們展示，身邊還圍滿了記者和粉絲（doge）。

埃隆·馬斯克 (Elon Musk) 在 WWDC 上發布新款 iPhone

除了這些老馬的洋蔥新聞之外，繪畫風格的作品效果也不錯。

左邊的是齊白石水墨風格，而右邊是一幅漫畫。

左：埃隆·馬斯克發表演講，水墨畫，齊白石風格右：埃隆·馬斯克漫畫

除了繪畫，也可以把老馬放進我們的元青花。

元代青花瓷造型埃隆·馬斯克

上面展示的這些「老馬的故事」，用的都比較簡單。

但從效果並沒有因為提示詞簡單而拉胯，這也與官方的說法相印證。

不過我們還是想看看，如果用更加複雜精緻的，會是什麼樣子？

我們找到了Midjourney創作的一張老馬在蘇聯擔任汽修工人的珍貴照片，重新餵給MJ，讓它生成個。

MJ生成了下面這樣的，我們就用它來測試SDXL：

Elon Musk（這裡MJ生成的是一個男人）站在工作室裡，工業機械美學風格，德國製造聯盟，統一的舞台圖像，蘇聯，淺靛藍和深青銅色，新美國彩色攝影，詳細的面部特徵

風格完全符合我們的預期，細節也還不錯。

再來一個複雜的圖作為收尾，同樣是MJ根據此前的作品生成後餵給SDXL。

伊隆·馬斯克用筷子吃東西，彼得·庫爾森風格，交叉處理/處理，針孔攝影，香草修剪，詹姆斯·蒂索，跨先鋒，點測光

左邊是SDXL的作品，右邊是MJ的原版，大家可以對比一下。

提示詞同樣支持中文，不過似乎會在給出結果中傾向於國風，準確性可能也會受到影響。

比如輸入“一隻老虎在海邊”後，意外給出了一個國風妹子。

效果大家都已經看到了，那麼SDXL生成圖片的速度如何呢？

對於免費用戶來說，時間主要花費在排隊上了，不過也不會等待太久。

在5.5秒的時間內，排隊人數從160減少到了99。

除了生成圖像外，SDXL還提供了很多後期編輯功能。

具體來說，包括去除背景、細節處理、畫幅擴增等等。

這些功能是SDXL所在的Clipdrop平台上已有的，而SDXL可以一鍵將生成的圖片傳入對應模塊。

這裡我們選擇背景消除功能展示一下，可以看出邊緣的細節幾乎沒有什麼破綻。

目前，SDXL的免費使用額度還是比較高的，登錄後每個賬戶每天可生成400張（需要排隊）。

月付的價格是9美元每月，年付則相當於7美元（約50元人民幣）每月，包含了1500張每天的SDXL額度，且無需排隊。

不過不同區域的價格似乎也有所區別，比如阿根廷的年付價格平攤到每月是742比索（約合19.4元人民幣或2.7美元）。

此外，由於付費版本實際上是Clipdrop平台的Pro訂閱，所以也包含了該平台的其他功能。

除了Pro賬戶，還有API版本可供開發者使用（可以訪問Stability AI、Amazon等平台）。

開放圖像模型中的“最大杯”

在最新博客中，Stability AI介紹了SDXL 1.0的更多技術細節。

首先，模型在規模和架構上都有了新突破。

它創新性地使用了一個基礎模型（base model）+一個細化模型（refiner model）。

二者的參數規模分別為35億和66億。

這也使得SDXL 1.0成為目前規模最大的開放圖像模型之一。

Stability AI創始人莫斯塔克（Emad Mostaque）表示，更大規模的參數量能讓模型理解更多概念，教會它更深層次的東西。

同時在SDXL 0.9版本還進行了RLHF強化。

這也是為什麼現在SDXL 1.0支持短提示詞，而且能分清紅場（the Red Square）和一個紅色的廣場（a Red Square）。

在具體合成過程中，第一步，基礎模型產生有噪聲的latent，然後由細化模型進行去噪。

其中基礎模型也可以作為獨立模塊使用。

這兩種模型結合能生成質量更好的圖像，且不需要消耗更多計算資源。

官方介紹SDXL 1.0可以運行在8GB VRAM的消費級GPU上，或者是雲端。

除此之外，SDXL 1.0在微調也有了提升，可以生成自定義LoRAs或者checkpoints。

Stability AI團隊現在也正在構建新一代可用於特定任務的結構、風格和組合控件，其中T2I/ControlNet專門用於SDXL。

不過目前這些功能還處於beta測試階段，後續可以關注官方更新。

總結來說，文生圖都是一個逐漸迭代的過程，SDXL 1.0的目標就是讓這個過程更加簡單。

莫斯塔克表示，現在只需要5-10張圖片，就能快速微調模型。

從用戶反饋中也能看到，相較於Stable Diffusion，SDXL 1.0更能讓大家滿意。

實際上，從今年4月以來，Stability AI就發布了SDXL最早的測試版。

6月份開始進行內測，前段時間發布了0.9版本，當時就預告了會在7月發布一個開放版本，即最新的1.0版本。目前相關代碼權重已經發佈在GitHub上。

而且Stability AI機器學習負責人表示，相較於SDXL 0.9，1.0版本降低了對算力的需求。

感興趣的童鞋快去試玩吧~

試玩入口：

GitHub：

參考鏈接： [1] [2] [3]

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

留言

0/400

暫無留言