8月15日,騰訊混元文生圖開源大模型(開源項目名稱為“HunyuanDiT”,以下簡稱為“混元DiT”)聯(lián)合社區(qū)發(fā)布了最新的三款可控制插件ControlNet,包括tile(高清放大)、inpainting(圖像修復(fù)與擴(kuò)充)、lineart(線稿生圖)等不同類型,與此前官方插件一同形成混元DiT的ControlNet矩陣,組合使用可以覆蓋包括美術(shù)、創(chuàng)意、建筑、攝影、美妝、電商等80%案例和場景。
這意味著,全球的企業(yè)與個人開發(fā)者、創(chuàng)作者們,都可以基于豐富混元DiT模型的ControlNet生態(tài)更加精準(zhǔn)地生成圖片,創(chuàng)造更具個性化的專屬模型,進(jìn)行更大自由度的創(chuàng)作。
騰訊混元DiT ControlNet矩陣,實現(xiàn)多樣化場景創(chuàng)作
AI生圖領(lǐng)域的可控制插件ControlNet是一種應(yīng)用于文生圖領(lǐng)域的可控化生成算法,它允許用戶通過添加額外條件來更好地控制圖像的生成。
Tile(高清放大)可以為畫面擴(kuò)充信息,用于增加細(xì)節(jié)輔助超清放大,將畫面清晰度變成4K甚至8K,連毛發(fā)都清晰可見,非常適合對于圖片有極致細(xì)節(jié)追求的場景使用。
使用tile模型將人物寫真畫面放大八倍
適當(dāng)調(diào)整使用方法的情況下,tile插件也可以對畫面進(jìn)行其他操作,比如通過如衰減權(quán)重后把下面圖中的真人寫真變成一個可愛的動漫人物。
Inpainting(圖像修復(fù)與擴(kuò)充)插件的能力類似于部分圖像處理軟件的AI涂抹重繪、AI擴(kuò)圖,該能力可以將圖片中被涂抹和斑駁褪色的部分,根據(jù)創(chuàng)作者的需要進(jìn)行填充。通過該插件可以實現(xiàn)圖片背景、人物主體改變、局部修改畫面等需求,能處理高達(dá)70%面積涂抹重繪。
通過騰訊混元DiT Inpainting插件改變圖片背景
通過騰訊混元DiT Inpainting插件實現(xiàn)多點重繪,將原來的深色貓咪改變?yōu)辄S色貓咪,并保持四肢和臉部毛發(fā)的一致性
通過騰訊混元DiT Inpainting插件實現(xiàn)局部細(xì)節(jié)修改,將原來的睜眼的人物變成閉眼
通過騰訊混元DiT Inpainting插件實現(xiàn)擴(kuò)圖
Lineart(線稿生圖)則可參考各種不同類型線條,創(chuàng)作真人、動漫和建筑圖片,既可用戶建筑行業(yè)效果圖的生成,也可以給手稿上色作為創(chuàng)作參考。
Lineart插件可以接受由原有混元DiT插件canny提取的線稿,也能兼容預(yù)處理模型 anyline輸出的線稿,根據(jù)線稿生成精致的場景。
在建筑設(shè)計場景下,用lineart生成建筑設(shè)計效果圖后,還能搭配inpainting模型更換內(nèi)容、調(diào)整材質(zhì),最后使用tile模型放大輸出最終效果圖。在動漫創(chuàng)作場景下,將原有動漫圖片稍加反色處理輸入給模型,就能通過提示詞為角色上色。
使用騰訊混元DiT lineart插件生成建筑設(shè)計效果圖
使用騰訊混元DiT lineart插件給動漫手稿上色
此前,騰訊混元DiT官方發(fā)布了能提取與應(yīng)用圖像的canny(邊緣)、depth(深度)、pose(人體姿勢)等條件的三個首發(fā)ControlNet模型,開發(fā)者可直接使用其進(jìn)行推理。該三個ControlNet插件能實現(xiàn)通過線稿生成全彩圖、生成具有同樣深度結(jié)構(gòu)的圖、生成具有同樣姿態(tài)的人等能力。同時,混元DiT也開源了ControlNet的訓(xùn)練方案,開發(fā)者與創(chuàng)作者可以訓(xùn)練自定義的ControlNet模型。
騰訊混元DiT官方上線的三個ControlNet插件效果演示
本次騰訊混元DiT新增的三款可控制插件ControlNet由混元DiT聯(lián)合社區(qū)模型制作者調(diào)參訓(xùn)練,選取了創(chuàng)作者最為常用的場景方向進(jìn)行制作。
三款ControlNet模型的加入,將擴(kuò)充混元DiT已有的ControlNet插件矩陣,并可互相組合搭配進(jìn)行創(chuàng)作。隨著騰訊混元DiT ControlNet生態(tài)的完善,并在ComfyUI等多種工具支持下,混元DiT模型的繪圖質(zhì)量、多樣性和可靠性大大提高,將更能激發(fā)使用者的創(chuàng)意,產(chǎn)出更多優(yōu)秀視覺作品。
眾多開發(fā)者關(guān)注,成最受歡迎國產(chǎn)DiT開源模型
今年5月,騰訊混元文生圖大模型宣布全面升級并對外開源,可供企業(yè)與個人開發(fā)者免費(fèi)商用。這是業(yè)內(nèi)首個中文原生的DiT架構(gòu)文生圖開源模型,支持中英文雙語輸入及理解。
作為首個中文原生DiT開源模型,混元DiT自全面開源以來,一直持續(xù)建設(shè)開發(fā)者生態(tài)。
6月,混元DiT發(fā)布的專屬加速庫,可將推理效率進(jìn)一步提升,生圖時間縮短75%;并進(jìn)一步開源了推理代碼;發(fā)布LoRA和ControlNet等插件。
與此同時,模型易用性大幅提升,用戶可以通過Hugging Face Diffusers快速調(diào)用混元DiT模型及其插件,或基于Kohya和ComfyUI等圖形化界面訓(xùn)練與使用混元DiT。
7月4日,騰訊混元文生圖大模型(混元DiT)升級至1.2版本并宣布開源小顯存版本,僅需6G顯存即可運(yùn)行,對使用個人電腦本地部署的開發(fā)者十分友好;并新增對Kohya圖形化界面的支持,讓開發(fā)者可以低門檻地訓(xùn)練LoRA模型。
目前,在眾多開發(fā)者的支持下,混元DiT發(fā)布僅3個月,Github Star數(shù)已經(jīng)超過3.1k,成為最受歡迎的國產(chǎn)DiT開源模型。
(免責(zé)聲明:此文內(nèi)容為廣告,相關(guān)素材由廣告主提供,廣告主對本廣告內(nèi)容的真實性負(fù)責(zé)。本網(wǎng)發(fā)布目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé),請自行核實相關(guān)內(nèi)容。廣告內(nèi)容僅供讀者參考。)
【免責(zé)聲明】【廣告】本文僅代表作者本人觀點,與和訊網(wǎng)無關(guān)。和訊網(wǎng)站對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。郵箱:news_center@staff.hexun.com
最新評論