鳳凰網科技訊 8月5日,通義千問官方宣布開源一個20B的MMDiT模型Qwen-Image,這是通義千問系列中的首個圖像生成基礎模型,在復雜文本渲染和精確圖像編輯方面進展顯著。
該模型具備卓越的文本渲染能力、一致性的圖像編輯能力及強大的跨基準性能表現。
在多個公開基準測試中,包括GenEval、DPG、OneIG - Bench(通用圖像生成),GEdit、ImgEdit、GSO(圖像編輯)以及LongText - Bench、ChineseWord、TextCraft(文本渲染)等,Qwen-Image在各類生成與編輯任務中均獲得SOTA。
在性能表現上,Qwen-Image能在不同場景中實現高保真文本渲染。例如,在海報制作中,它不僅能準確展示海報風格,還能保留人物姿勢和神態(tài)刻畫,準確生成指定的中英文文字;在分模塊案例中,能完成排版并生成各部分的圖標、標題和介紹文本;除此之外,即使紙張面積小且段落文字長,也能準確生成文字,還可在雙語間靈活切換。
同時,Qwen-Image 在通用圖像生成方面支持多種藝術風格,從照片級寫實到印象派繪畫,從動漫風格到極簡設計,能靈活響應創(chuàng)意提示。
通義千問表示,希望Qwen-Image能進一步推動圖像生成領域發(fā)展,降低視覺內容創(chuàng)作技術門檻,激發(fā)更多創(chuàng)新應用可能,同時期待社區(qū)積極參與和反饋,共同構建開放、透明、可持續(xù)發(fā)展的生成式AI生態(tài)。
目前,該模型已在魔搭社區(qū)與Hugging Face開源。
上一篇:夸克AI,攻入百度腹地
下一篇:沒有了