比PS更懂你的AI图片剪辑用具——MagicQuill(魔法羽毛)来了!
1分钟出图:不必打字、通俗勾勒几笔就能剪辑图片。
还撑抓成功在iPad上在线剪辑!
接头团队来自香港科技大学、蚂聚首团、浙江大学和香港大学等机构。
咱们先全部看个例子感受一下——
有了MagicQuill,目下当你想要给东谈主物更换一稔时,就可以成功画出领子,它会自动帮你补全。
加条项链、去除路东谈主,几秒钟就守护:
你还可以更换发色、让东谈主物戴上花环,以至改变花朵的热沈:
只需要1分钟多的本事,就可以杀青上头这样多剪辑后果,尤其是关于想要快速修改像片的用户来说,几乎太便捷了!
还有更多羡慕羡慕的例子,机器东谈主、汽车、蛋糕等,都可以快速修改!
有多位网友评阐明,AI图像剪辑果然突出马上,“能读懂用户心想”口角常具有昔日感的用户体验。
以至还有网友说,惊怖吧,PS!
MagicQuill标的是判辨细腻修改意图
诚然目下AI图像剪辑用具是百花皆放,但想要杀青细腻剪辑,许多用具的后果如故相比令东谈主捉急。
MagicQuill团队的标的是杀青一个高效且精准的图像剪辑系统,不详在用户进行渺小修改时提供更好的使用体验。
这不仅包括杀青细粒度的图像剪辑为止、还要提供直不雅的用户界面、并及时量度用户意图。
最终团队遴选基于扩散模子、文本和掩码的图像剪辑规范、以及多模态大型言语模子(MLLMs) 进行杀青,并联想了从简实用的用户界面。
MagicQuill的具体组成
全部来望望MagicQuill系统的具体组成是什么样的。主要分为3个部分:
1.剪辑处理器
剪辑处理器袭取双分支架构,包括内容感知确立分支和结构辅导分支。
内容感知确立分支期骗UNet架构,联接掩码图像特征和预检修的扩散齐集进行像素级确立。
结构辅导分支则通过ControINet插入要求为止,确保剪辑操作的精准性。
2.绘画助手
绘画助手通过多模态大型言语模子(MLLM)及时量度用户意图。
具体的任务称为“Draw&Guess”,也即是通过图像荆棘文讲明用户笔画并自动生成关系教唆。
团队袭取的数据集通过生成旯旮图和模拟用户笔画进行构建,并使用LLaMA模子进行微调。
3.创意收罗器
创意收罗器为用户提供了一个从几乎不雅的界面,它兼容多个平台,杠杆交易团队也提供了在线demo,你可以在电脑或iPad上成功使用!
界面主要包括教唆区、用具栏、图层守护、主画布、生成图像预览区、扩充按钮和参数诊疗区。
按钮联想稀奇纯粹,有上传图片、“增多”画笔、“减少”画笔、改热沈画笔、橡皮等等。
下方的参数诊疗区域更稳当有丰富的生图训戒的专科东谈主士:
比如在Base Model Name里,你可以遴选不同的基础模子,有稳当生成信得过作风的SD1.5/realisticVisionV60B1_v51VAE.safetensors、稳当生成幻想作风的SD1.5/DreamShaper.safetensors等。
你还可以诊疗Negative Prompt幸免生成部安分容、还有Fine Edge细腻旯旮诊疗、Grow Size诊疗笔触大小等等。完好责任经过如下图所示。
本色后果何如呢?
为了更准确地测试MagicQuill的具体后果,团队还联想了3个考证执行:
1.可控生成评估
将MagicQuill与四个基线规范(SmartEdit、SketchEdit、BrushNet止境组合)进行相比,评估剪辑处理器的可控生成材干,尤其关怀旯旮对皆和热沈保真度。
收尾露馅,MagicQuill的剪辑处理器在所蓄意上均优于基线规范,具有更高的旯旮对皆度和热沈保真度。
2.量度准确性评估
为了评估MagicQuill在模拟手绘输入下的语义量度准确性,团队将它的绘画助手与三种起原进的MLLMs (LLaVA-1.5、LLaVA-Next、GPT-4o)进行了相比。
收尾露馅,绘画助手在通盘测试的MLLMS中推崇最好,可以更准确地捕捉和量度用户绘制的语义含义。
3.创意收罗器灵验性评估
团队还通过用户接头评估了创意收罗器的遵守和可用性,并相比了它与基线系统的各异。
用户接头收尾露馅,MagicQuill在通盘评估维度上都权贵优于基线系统,包括复杂性和遵守、一致性和集成、易用性以及总体发放度4个方面。
看来体验过的用户反应都可以呢!
昔日责任
团队还示意,这将是一个永远的责任,昔日他们的标的是扩张系统功能,纳入更多的剪辑类型,如基于参考的剪辑,这将允许用户使用外部图像率领修改。
他们还操办杀青分层图像生成,可以让剪辑愈加天真、撑抓更多复杂合成。
系统也会撑抓排版,不详处理更多图像中的文本元素。
目下MagicQuill的代码、论文和Demo都已上线,感兴味的小伙伴可以有时试用起来了!纠合就不才方。
— 完 —