來源:量子位
Stable Diffusion最強版本,來了!
剛剛,SDXL 1.0正式發布,可免費在線試玩。
效果上,無論是以假亂真的寫實大片:
超現實的熊貓喝啤酒:
還是賽博朋克漫畫,都非常nice~
Stability AI表示,SDXL 1.0能生成更加鮮明準確的色彩,在對比度、光線和陰影方面做了增強,可生成100萬像素的圖像(1024×1024)。
而且還支持在網頁上直接對生成圖像進行後期編輯。
(有一股和Midjourney、Firefly打擂台的味兒了)
網友們已經按捺不住上手試玩了~
和基礎Stable Diffusion相比,SDXL 1.0生成結果更加準確和逼真。
而且官方表示,提示詞也能比之前更簡單了。
這是因為SDXL 1.0的基礎模型參數量達到了35億,理解能力更強。
對比基礎版Stable Diffusion,參數量只有10億左右。
由此,SDXL 1.0也成為當前最大規模的開放圖像模型之一。官方甚至直接說這就是世界上最好的開放圖像模型。
話不多說,我們來上手體驗了~
SDXL 1.0在操作上很便捷,直接輸入即可,還能從下面勾選風格、尺寸參數等。
一次生成默認是出4張圖,如果不滿意還可以點下方“加號”讓它繼續畫。
官方介紹說,現在讓SDXL 1.0生成大作,無需再加入“傑作”這種提示詞了。
讓它生成一幅日漫風格的圖像,畫風非常貼合,而且在光影的處理上也更加自然了。
1990 年代動漫低分辨率屏幕抓取夫婦晚上在街上走開
或者是一幅風景照?也能以假亂真了。
甚至是讓馬斯克站在中式庭院裡,抬頭斜望著天空……
埃隆·馬斯克在中國古代宮殿
或者是把蘋果收購了?
在「WWDC」上,他舉著全新款iPhone向人們展示,身邊還圍滿了記者和粉絲(doge)。
埃隆·馬斯克 (Elon Musk) 在 WWDC 上發布新款 iPhone
除了這些老馬的洋蔥新聞之外,繪畫風格的作品效果也不錯。
左邊的是齊白石水墨風格,而右邊是一幅漫畫。
左:埃隆·馬斯克發表演講,水墨畫,齊白石風格 右:埃隆·馬斯克漫畫
除了繪畫,也可以把老馬放進我們的元青花。
元代青花瓷造型埃隆·馬斯克
上面展示的這些「老馬的故事」,用的都比較簡單。
但從效果並沒有因為提示詞簡單而拉胯,這也與官方的說法相印證。
不過我們還是想看看,如果用更加複雜精緻的,會是什麼樣子?
我們找到了Midjourney創作的一張老馬在蘇聯擔任汽修工人的珍貴照片,重新餵給MJ,讓它生成個。
MJ生成了下面這樣的,我們就用它來測試SDXL:
Elon Musk(這裡MJ生成的是一個男人)站在工作室裡,工業機械美學風格,德國製造聯盟,統一的舞台圖像,蘇聯,淺靛藍和深青銅色,新美國彩色攝影,詳細的面部特徵
風格完全符合我們的預期,細節也還不錯。
再來一個複雜的圖作為收尾,同樣是MJ根據此前的作品生成後餵給SDXL。
伊隆·馬斯克用筷子吃東西,彼得·庫爾森風格,交叉處理/處理,針孔攝影,香草修剪,詹姆斯·蒂索,跨先鋒,點測光
左邊是SDXL的作品,右邊是MJ的原版,大家可以對比一下。
提示詞同樣支持中文,不過似乎會在給出結果中傾向於國風,準確性可能也會受到影響。
比如輸入“一隻老虎在海邊”後,意外給出了一個國風妹子。
效果大家都已經看到了,那麼SDXL生成圖片的速度如何呢?
對於免費用戶來說,時間主要花費在排隊上了,不過也不會等待太久。
在5.5秒的時間內,排隊人數從160減少到了99。
除了生成圖像外,SDXL還提供了很多後期編輯功能。
具體來說,包括去除背景、細節處理、畫幅擴增等等。
這些功能是SDXL所在的Clipdrop平台上已有的,而SDXL可以一鍵將生成的圖片傳入對應模塊。
這裡我們選擇背景消除功能展示一下,可以看出邊緣的細節幾乎沒有什麼破綻。
目前,SDXL的免費使用額度還是比較高的,登錄後每個賬戶每天可生成400張(需要排隊)。
月付的價格是9美元每月,年付則相當於7美元(約50元人民幣)每月,包含了1500張每天的SDXL額度,且無需排隊。
不過不同區域的價格似乎也有所區別,比如阿根廷的年付價格平攤到每月是742比索(約合19.4元人民幣或2.7美元)。
此外,由於付費版本實際上是Clipdrop平台的Pro訂閱,所以也包含了該平台的其他功能。
除了Pro賬戶,還有API版本可供開發者使用(可以訪問Stability AI、Amazon等平台)。
在最新博客中,Stability AI介紹了SDXL 1.0的更多技術細節。
首先,模型在規模和架構上都有了新突破。
它創新性地使用了一個基礎模型(base model)+一個細化模型(refiner model)。
二者的參數規模分別為35億和66億。
這也使得SDXL 1.0成為目前規模最大的開放圖像模型之一。
Stability AI創始人莫斯塔克(Emad Mostaque)表示,更大規模的參數量能讓模型理解更多概念,教會它更深層次的東西。
同時在SDXL 0.9版本還進行了RLHF強化。
這也是為什麼現在SDXL 1.0支持短提示詞,而且能分清紅場(the Red Square)和一個紅色的廣場(a Red Square)。
在具體合成過程中,第一步,基礎模型產生有噪聲的latent,然後由細化模型進行去噪。
其中基礎模型也可以作為獨立模塊使用。
這兩種模型結合能生成質量更好的圖像,且不需要消耗更多計算資源。
官方介紹SDXL 1.0可以運行在8GB VRAM的消費級GPU上,或者是雲端。
除此之外,SDXL 1.0在微調也有了提升,可以生成自定義LoRAs或者checkpoints。
Stability AI團隊現在也正在構建新一代可用於特定任務的結構、風格和組合控件,其中T2I/ControlNet專門用於SDXL。
不過目前這些功能還處於beta測試階段,後續可以關注官方更新。
總結來說,文生圖都是一個逐漸迭代的過程,SDXL 1.0的目標就是讓這個過程更加簡單。
莫斯塔克表示,現在只需要5-10張圖片,就能快速微調模型。
從用戶反饋中也能看到,相較於Stable Diffusion,SDXL 1.0更能讓大家滿意。
實際上,從今年4月以來,Stability AI就發布了SDXL最早的測試版。
6月份開始進行內測,前段時間發布了0.9版本,當時就預告了會在7月發布一個開放版本,即最新的1.0版本。目前相關代碼權重已經發佈在GitHub上。
而且Stability AI機器學習負責人表示,相較於SDXL 0.9,1.0版本降低了對算力的需求。
感興趣的童鞋快去試玩吧~
試玩入口:
GitHub:
參考鏈接: [1] [2] [3]