谷歌P图神器来了!不必学不必教,输入一句话,分分钟给后果
Pine 发自 凹非寺
量子位 | 群众号 QbitAI
当你照相片时,“模特不佳好共同”怎样办?
没事!如今只用一句话就能终期P图了,照旧能改动举措、心情的那种!
好比说你能轻松让鸟伸开翅膀(输入“伸开翅膀的鸟”即可):
又大概说,想要让一只站立的狗蹲下:
看起来还真不赖!而这个新的“P图”办法呢,名叫Imagic,是基于爆火的分散模子(Diffusion Model)来完成的。
是的,又是分散模子,它的能耐想必也不必多先容了吧(那看那漫山遍野和它干系的论文就能佐证)。
那在分散模子加持下的Imagic毕竟有何凶猛之处,话不多说,一同来看看吧!
多达6种功效
据不完全统计,Imagic的功效就有6种。
改动姿势、变动构图、切换滤镜、多个目标编纂、添加目标、变动颜色……
先来看看这个P图神器改动姿势的后果,好比说输入一条站立的狗,经过变动提示笔墨,取得的后果是酱紫的~
大概说输入一个随意站立的人,输入口令,他就“乖乖听话,任你支配”(手动狗头)了,乃至还能凭空显现一个水杯。
还没看够?那再来康康Imagic其他功效:改动颜色,大概增长目标,也可以多种功效同时使用。
总的来说,Imagic的凶猛之处太多,这里就不逐一具体掀开了,后果可以看下图。
除了这么多功效之外,Imagic另有别的一个比力天性化的点,就是当你报告它要怎样“P图”后,它会随机天生几个不同的选项供你选择。
但是这种在真实图像上编纂的模子Imagic不是第一个,在此之前就以前有很多个相似的模子。
这时就会有网友问了,“Imagic有什么凶猛的点呢?”
话不多说,直接上后果比力。
这里拔取了比力稀有的基于真实图像编纂的两个模子:SDEdit、Text2LIVE与Imagic刁难比。
后果很显然,Imagic完成“P图指令”的后果很好,在细节上也丝绝不逊色其他模子。
(的确妙啊)
那Imagic是怎样“击败”SDEdit、Text2LIVE,完成如此的后果呢?
是怎样完成的
千言万语汇成四个字:分散模子,在论文的标题上它都赫然在列。
具体到Imagic中,分散模子的作用是怎样发扬出来的,来看看具体的“P图”历程。
全体来说分为三大步。
第一步是优化文本嵌入层。
具体来说,先给定输入的图像和目标文本,然后对目标文本举行编码,取得初始的嵌入层。
然后不休调停初始嵌入层,让其可以经过事后练习的分散模子很好地重修输入图像。
如此一来,终极便会取得优化后的嵌入层(可以很好地重修输入图像)。
第二步是对分散模子举行微调,这时就要用到上一步以前优化之后的嵌入层,让嵌入层颠末模子后重修输入图像。
在重修的历程,必要不休变动模子中丧失函数的参数,以让模子顺应优化后的输入层,直到可以很好地重修输入图像时为止,如此一来便取得了微调之后的模子。
第三步就要开头正式P图了。
值得一提的是,这一步除了输入初始的目标嵌入层(tgt)外,还会插进优化好的嵌入层(opt),它们的干系如下图。
经过变动参数,实践的后果如下图。
假如你想愈加具体地域解Imagic,可以戳文末链接阅读论文原文。
研讨团队
Imagic的六位作者均来自Google Research,论文有两位第一作者:Bahjat Kawar和Shiran Zada,均来自以色列。
值得一提的是,Bahjat Kawar照旧一位以色列理工学院在读博士,他是在Google Research练习时期完成了这项研讨。
而Shiran Zada本年5月刚到场Google Research,现在是盘算机视觉研讨员。
他曾在微软承继软件工程师以及武艺主管的职务,主要卖力网络宁静干系的项目开发。
参考链接:
[1]https://arxiv.org/abs/2210.09276
[2]https://twitter.com/Buntworthy/status/1582307817884889088
[3]https://github.com/justinpinkney/stable-diffusion/blob/main/notebooks/imagic.ipynb
— 完 —
量子位 QbitAI · 头条号签约
眷注我们,第一时间获知前沿科技动态