当前位置: 首页 > 游戏攻略 > 谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney

谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney

  • 谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney 2024-01-04 17:00:06
  • 编辑:0791攻略网
  • 来源:网络转载

提问:下面这张图,是AI生图还是照片?

谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney

如果不是这么问,绝大多数人大概都不会想到,这居然不是一张照片。

是的,只要在谷歌最新AI生图神器Imagenu00a02中输入这样的提示词——

Au00a0shotu00a0ofu00a0au00a032-year-oldu00a0female,u00a0upu00a0andu00a0comingu00a0conservationistu00a0inu00a0au00a0jungle;u00a0athleticwithu00a0short,u00a0curlyu00a0hairu00a0andu00a0au00a0warmu00a0smile

一位32岁的年轻女性自然保护主义者,正在丛林中探险。她体格健壮,一头短卷发,面带亲切的微笑

就能得到开头那张无比逼真写实、比照片还像照片的图像了!

虽然圣诞节已经临近,但谷歌还在卷个不停——号称DALL·Eu00a03最强竞品的文生图模型Imagenu00a02,终于重磅上线了。

刚用Gemini和OpenAI卷完GPT-4,立马又放出Imagenu00a02来卷DALL·Eu00a03了,2023年底的卷王称号,谷歌是实至名归。

谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney

不仅手指逼真,而且拿筷子的姿势也很标准

可以说,Imagenu00a02是目前文本转图像技术的巅峰之作,已经突破了AI生图的界限。

在机器学习算法强大功能的加持下,Imagenu00a02可以将文本描述转换为生动清晰的高分辨率图像。

Imagenu00a02最与众不同之处在于,它能够以惊人的准确性,理解复杂抽象的概念,然后把这个概念可视化,细腻之程度令人惊叹!

谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney

Imagenu00a02的核心,还是复杂的神经网络架构。经过微调的Transformer模型,在文本理解和图像合成上,都表现出了无与伦比的性能。

现在,在文生图领域,谷歌又竖立了新的标杆。

用自然语言就能生图的模型,又多了一个

现在,除了DALL·Eu00a03之外,我们又有了一个仅凭自然语言就能生图的模型!

相比之下,Midjourney必须用复杂、专业的提示词,在易使用性上已经被两位竞争者甩出了很远。

谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney

仅凭简单文本,就能生存多样化的复杂图像,这类AI生图模型对于内容创作的影响是极其深远的。

对于依赖视觉内容的行业来说,这彻底改变了游戏规则,大大减少了传统内容制作所需的时间,内容创作者可以以前所未有的速度,制作高质量的视觉效果。

谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney

同时,Imagenu00a02还具有无可比拟的图像质量和多功能性。

Imagenu00a02用到了谷歌最先进的文本到图像扩散技术,生图质量极高、效果逼真,而且和用户的提示具有高度的一致性。

原因在于,它是使用训练数据的自然分布来生成更逼真的图像,而非采用预先编程的样式。

谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney

Au00a0jellyfishu00a0onu00a0au00a0darku00a0blueu00a0background

水母在深蓝色的背景下悠然漂浮

可以看到,Imagenu00a02的图像生成能力非常惊人。

无论是渲染错综复杂的风景、详细的物体,还是奇幻的场景,生成的图像都具有如此高的保真度,以至于它们可以与人类艺术家创作的图像相媲美,甚至直接超越。

谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和MidjourneySmallu00a0canvasu00a0oilu00a0paintingu00a0ofu00a0anu00a0orangeu00a0onu00a0au00a0choppingu00a0board.u00a0Lightu00a0isu00a0passingu00a0throughorangeu00a0segments,u00a0castingu00a0anu00a0orangeu00a0lightu00a0acrossu00a0partu00a0ofu00a0theu00a0choppingu00a0board.u00a0Thereu00a0isu00a0au00a0blueandu00a0whiteu00a0clothu00a0inu00a0theu00a0background.u00a0Caustics,u00a0bounceu00a0light,u00a0expressiveu00a0brushu00a0strokes

一小幅油画,描绘了摆放在砧板上的橙子。阳光穿过橙子的切片,柔和的橙色光线洒在砧板上。画的背景是一块蓝白相间的布,画面巧妙地捕捉了光的折射、反射效果,同时展示了画家富有感情的笔触

有网友表示,看到Imagen的这张橙子图,真是让我大吃一惊。灯光穿过橙子后的投影,和提示中描述的意境非常吻合!

谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney

有人用同样的提示,让DALL·Eu00a03生成了同样的橙子油画图,效果比起Imagenu00a03来说,的确弱了不少。

谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney

类似的,Midjourney生成的橙子,在真实感和意境层面,也要差上一截。

谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney

诗中意境,一键逼真还原

以往的文本到图像模型,通常是根据训练数据集的图像和标题中的详细信息,来生成与用户提示匹配的图像的。

但是它们有一个bug:对于每张图像和配对的标题,在细节质量和准确性上可能会有很大差异。

为了帮助创建更高质量和更准确的图像、更好地符合用户的提示,Imagenu00a02的训练数据集中添加了更多描述,帮助Imagenu00a02学习不同的标题风格,并更好地理解广泛的用户提示。

这种图像标题配对,就有助于Imagenu00a02更好地理解图像和文字之间的关系,大大提高了它对上下文和细微差别的理解。

就比如,美国作家Phillisu00a0Wheatley晚间赞美诗中的一句话溪流潺潺,鸟儿啁啾,空中飘荡着它们混合的音乐。

诗中绝美的意境,Imagenu00a02把要点全抓住了。

谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney

"Softu00a0purlu00a0theu00a0streams,u00a0theu00a0birdsu00a0renewu00a0theiru00a0notes,u00a0Andu00a0throughu00a0theu00a0airu00a0theiru00a0mingledmusicu00a0floats."u00a0Au00a0Hymnu00a0tou00a0theu00a0Eveningu00a0byu00a0Phillisu00a0Wheatley

相比之下,Midjourney似乎对于文学描述的内容把握还是欠缺一些,大概率会在图中自动添加一个人物。不过整体画面效果还是不错的。

谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney

而到了DALL·Eu00a03这里,它居然在图像上加了几行字,生成了一张贺卡?

谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney

在著名的小说白鲸记中,Hermanu00a0Melville曾写下想象一下大海的微妙之处,最可怕的地方在于生物如何在水下滑行,却在大多数情况下不易察觉,并且诡谲地隐藏在最可爱的蔚蓝色调下。

Imagenu00a02也是很懂海洋文学的特点。

谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney

"Consideru00a0theu00a0subtlenessu00a0ofu00a0theu00a0sea,u00a0howu00a0itsu00a0mostu00a0dreadedu00a0creaturesu00a0glideu00a0underwater,u00a0unapparentu00a0foru00a0theu00a0mostu00a0part,u00a0andu00a0treacherouslyu00a0hiddenu00a0beneathu00a0theu00a0loveliestu00a0tintsu00a0ofazure."u00a0Moby-Dicku00a0byu00a0Hermanu00a0Melville

相比之下,Midjourney和DALL·Eu00a03一到深海,就瞬间就克苏鲁了起来……

谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney

Midjourney

谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney

DALL·Eu00a03

儿童文学大家Francesu00a0Hodgsonu00a0Burnett所著的秘密花园中,对知更鸟有这样一句描述:

知更鸟从缠绕的常春藤上飞到墙头,张开嘴巴,唱出了一个响亮而甜美的颤音,只是为了炫耀自己。世界上就没有什么东西能比它更惹人喜爱了——它们几乎总是这样做。

快看,Imagenu00a02生成的这幅画,把常春藤、墙头、唱歌等暗藏的细节,悉数呈现了出来。

谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney

"Theu00a0robinu00a0flewu00a0fromu00a0hisu00a0swingingu00a0sprayu00a0ofu00a0ivyu00a0onu00a0tou00a0theu00a0topu00a0ofu00a0theu00a0wallu00a0andu00a0heu00a0openedhisu00a0beaku00a0andu00a0sangu00a0au00a0loud,u00a0lovelyu00a0trill,u00a0merelyu00a0tou00a0showu00a0off.u00a0Nothingu00a0inu00a0theu00a0worldu00a0isu00a0quiteu00a0asadorablyu00a0lovelyu00a0asu00a0au00a0robinu00a0whenu00a0heu00a0showsu00a0offu00a0-u00a0andu00a0theyu00a0areu00a0nearlyu00a0alwaysu00a0doingu00a0it."u00a0TheSecretu00a0Gardenu00a0byu00a0Francesu00a0Hodgsonu00a0Burnett

同样的提示词,Midjourney在真实感上还要差上几分。

谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney

而DALL·Eu00a03相比上面两家,就更逊色了,尤其在植物和羽毛的细节上。

谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney

风格复刻,随意变换,更懂人类美学

一直以来,图像生成饱受诟病的问题之一,便是人物的手指生成。这次,Imagenu00a02的数据集和模型进步,在许多领域取得了改进。其中就包括渲染逼真的手部和人脸,以及保持图像不受干扰的视觉伪影。

同时,谷歌DeepMind根据人类对光线、取景、曝光、清晰度等特质的偏好,训练了一个专门的图像美学模型。

每张图像都被给予一个美学分数,这有助于调节Imagenu00a02在其训练数据集中赋予人类偏好的图像更多的权重。

这样一来,就提高了Imagenu00a02生成更高质量图像的能力。

谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney

使用提示花的AI生成的图像,美学分数从低左到高右

Imagenu00a02的扩散技术提供了高度的灵活性,使得更容易控制和调整图像的风格。

通过提供参考风格图像并结合文本提示,可以训练Imagenu00a02生成遵循相同风格的新图像。

谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney

通过使用参考图像和文本提示,Imagenu00a02可以更轻松地控制输出样式

更强的修复和扩图

此外,Imagenu00a02还支持图像编辑功能,如修复inpainting和扩图outpainting。

通过提供参考图像和图像掩码,我们可以用inpainting技术直接在原始图像中生成新内容。

在下面这幅原始图中,只要输入绿色墙上有一个架子,架子上放着几本书和花瓶,对应内容就在原图中生成了!

新内容毫不突兀,完美融入原图,浑然天成。

谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney

另外,我们还可以使用outpainting功能,给原始图像扩图。

夕阳下非洲大草原上长颈鹿和斑马的双人大头贴,一下子就扩成了全身照。

谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney

全面加持企业级场景,logo文案一键生成,中文也支持

现在,谷歌已经Imagenu00a02下放到开发者平台Vertexu00a0AI。

在Vertexu00a0AI平台上,客户可以使用直观的工具来自定义和部署Imagenu00a02,享受全面管理的基础设施和内置的隐私与安全保护。

在谷歌DeepMind的技术加持下,Imagenu00a02在图像质量上实现了显著提升,帮助开发者根据特定需求创造图像,其中包括:

-u00a0根据自然语言的提示生成高质量、逼真、高分辨率且精美的图像;

-u00a0支持多语言文本渲染,能够在图像中准确添加文本内容;

-u00a0可以设计公司或产品的Logo,并将其嵌入到图像中;

-u00a0提供视觉问题解答功能,可以从图像中生成标注,或就图像细节提出的问题给出具有信息性的文本回答。

高质量图像:借助于改进的图像和文本理解,以及多种创新的训练和建模技术,Imagenu00a02能够生成精准、高品质且逼真的图像。

谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney

文本渲染支持:可以根据提示内容,精准地渲染出正确的文本。

Imagenu00a02可以在生成含有特定文字或短语的物体图像时,确保输出图像中包含正确短语。

谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney

Logo设计:Imagenu00a02能为品牌、产品等生成多种创意和逼真的Logo,比如徽章、字母甚至非常抽象的Logo。

谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney

标注和问答:利用增强的图像理解能力,Imagenu00a02能够创建详细的长文标注,并对图像内元素提出的问题给出详细答案。

多语言提示:除了英语,Imagenu00a02还支持其他6种语言中文、印地语、日语、韩语、葡萄牙语、西班牙语,并计划在2024年初增加更多语言。这项功能还包括提示与输出之间的翻译能力,比如,可以用西班牙语提示,但指定输出为葡萄牙语。

图像加水印,生成更安全

为了帮助降低文本到图像生成技术的潜在风险和挑战,谷歌从设计和开发到产品部署都设置了强大的护栏。

Imagenu00a02u00a0集成了SynthID——用于加水印和识别u00a0AIu00a0生成内容的尖端工具包。

这样,Googleu00a0Cloud平台的客户可以直接在图像中添加数字水印,同时不会降低图像质量。

不过,即使在对图像进行过滤、裁剪或使用有损压缩方案保存后,SynthID仍然可以检测出。

谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney

除此之外,在向所有用户推出之前,谷歌会进行强大的安全测试,以最大限度地降低伤害风险。

从一开始,谷歌团队就投入对Imagenu00a02的数据安全训练,并添加了技术护栏来限制有问题的输出,如暴力、冒犯或色情内容。

同时,谷歌还对训练数据、输入提示和系统生成的输出进行安全检查。比如正在应用全面的安全过滤器,以避免生成名人图像等有潜在问题的内容。

网友惊呼:真·最强文生图模型来了!

Googleu00a0DeepMind研究副总裁兼深度学习主管Oriolu00a0Vinyals尝试用Imagenu00a02为Gemini生成徽标。

谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney

另一位谷歌科学家用Imagenu00a02生成的图像如下。

谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney

下面是一只网友实测生成的蓝猫。

谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney

有网友认为,Imagenu00a02是同类产品中最好的。就像Geminiu00a0Ultra一样,看手和文字就足够了。

不过,他还吐槽了谷歌不向所有人开放产品的问题。

谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney

像往常一样,谷歌宣布了一款大多数人无法使用的产品,这有什么意义?!

谷歌文生图巅峰之作Imagen2登场,实测暴打DALL·E3和Midjourney

参考资料:

本文来源:新智元