DALL·E-3 是我们 DALL-E 文本到图像生成模型的最新版本。作为文本到图像生成领域的最新技术,DALL·E 能够在各种领域生成高质量图像。如果您对 DALL·E-3 的构建方式的更多技术细节感兴趣,您可以在我们的研究论文中阅读更多内容。我将在本文中介绍 DALL·E-3 的一些新特性和功能,以及您可以使用 API 构建哪些新产品的一些示例。
提醒一下,图像生成 API 没有更改,并保持与 DALL·E-2 相同的端点和格式。如果您正在寻找有关如何使用 Image API 的指南,请参阅有关该主题的Cookbook 文章。
目前唯一可与 DALL·E-3 一起使用的 API 端点是Generations (/v1/images/Generations)。尽管编辑和变体端点可与 DALL·E-2 一起使用,但我们尚不支持变体或修复。
几代人
生成 API 端点根据文本提示创建图像。我们添加了几个新参数来增强您可以使用我们的模型创建的内容。以下是选项的快速概述:
新参数:
- model('dall-e-2' 或 'dall-e-3'):这是您生成的模型。请小心将其设置为“dall-e-3”,因为如果为空,则默认为“dall-e-2”。
- style ('natural' 或 'vivid'): 生成图像的风格。必须是生动或自然的之一。生动使模型倾向于生成超真实和戏剧性的图像。自然使模型生成更自然、不太真实的图像。默认为“生动”。
- 质量(“标准”或“高清”):将生成的图像的质量。“hd”创建的图像具有更精细的细节和更高的图像一致性。默认为“标准”。
其他参数:
- 提示(str):所需图像的文本描述。最大长度为 1000 个字符。必填项目。
- n (int):要生成的图像数量。必须介于 1 到 10 之间。默认为 1。对于 dall-e-3,仅支持 n=1。
- size (...): 生成图像的大小。对于 DALL·E-2 型号,必须是 256x256、512x512 或 1024x1024 之一。对于 DALL·E-3 型号,必须是 1024x1024、1792x1024 或 1024x1792 之一。
- response_format ('url' 或 'b64_json'):返回生成的图像的格式。必须是“url”或“b64_json”之一。默认为“url”。
- user (str):代表您的最终用户的唯一标识符,这将有助于 OpenAI 监控和检测滥用行为。了解更多。
新功能
我们推出的 DALL·E-3 具有许多新特性和功能,可帮助您生成所需的图像。以下是新功能的快速概述:
及时重写
最新 DALL·E-3 API 中的一项新功能是提示重写,我们使用 GPT-4 在将所有提示传递到 DALL-E 之前对其进行优化。在我们的研究中,我们发现使用非常详细的提示可以获得更好的结果。您可以在DALL·E-3 研究论文中详细了解我们的字幕、提示和安全缓解措施。
请记住,目前无法禁用此功能,但您只需在提示中向重新标记器发出指令即可实现高保真度,如下面的示例所示。
标准与高清质量
DALL·E-3 引入了新的“质量”参数,允许您调整所有世代的细节和组织水平。“标准”质量的一代是您熟悉的 DALL·E-3,而“高清”一代则对细节的关注和对提示的遵守达到了新的水平。请记住,将生成质量设置为“高清”确实会增加每张图像的成本,并且通常会增加生成时间约 10 秒左右。
例如,这里有“高清”和“标准”质量的两个不同图标。通常,两种质量之间的选择取决于品味,但当任务需要更多的能力来捕捉细节和纹理或更好的场景构图时,“高清”通常会获胜。
这是另一个例子,这次提示是“无限、均匀的棋盘格立方体网格。”,DALL·E 方便地将其重写为“无限、均匀的棋盘格立方体网格,以等轴测视角仔细绘制。立方体精心排列”以这样的方式,它们似乎无限地延伸到远方。每个立方体都与下一个立方体相同,光线在所有表面上一致反射,强调了它们的均匀性。这是一个数字渲染的图像。” :
新尺寸
DALL·E-3 接受三种不同的图像尺寸:1024px x 1024px、1792px x 1024px 和 1024px x 1792px。除了在纵横比方面提供更大的灵活性之外,这些尺寸还可以对生成图像的风格和上下文产生重大影响。例如,当您寻找看起来像是由手机相机拍摄的图像时,垂直图像可能会更好,或者水平图像可能更适合风景画或数字设计。
为了演示这种差异,这里提供了具有不同宽高比的同一输入提示的多种变体。在这种情况下,我的提示是:“Chemex 冲泡者在冲泡咖啡过程中的专业照片。” (作为参考,这是一张真实的 Chemex 酿酒师的照片)。
这是方形形式的生成(高清和标准质量):
您可以看到这些图像是如何与物品紧密结合的,并且似乎是在一个更封闭的空间中拍摄的,附近有各种周围的物品。
以下是具有更宽宽高比的相同提示的结果:
与前几代相比,这些都是以特写镜头的形式出现的。背景变得模糊,更多地关注项目本身,更像是专业组织的照片而不是快速快照。
最后,我们有垂直纵横比:
这些感觉更类似于手机图像,具有更坦率的外观。还有更多的动作:缓慢滴落的咖啡或从壶中主动倒出的咖啡。
新款式
DALL·E-3引入了自然和生动两种新风格。自然风格更类似于DALL·E-2风格,其“温和”的现实主义,而生动风格是一种新风格,倾向于生成超真实和电影图像。作为参考,ChatGPT 中的所有 DALL·E 代均以“生动”风格生成。
当 DALL·E-3 过度夸大或混淆本应更简单、柔和或现实的主题时,自然风格特别有用。我经常使用它来生成徽标、库存照片或其他我试图匹配现实世界对象的情况。
这是与上面相同的提示的生动风格的示例。生动的画面更具电影感(而且看起来很棒),但如果您不寻找的话,可能会太过流行。
在很多情况下我更喜欢自然风格,比如这幅托马斯·科尔的《荒凉》风格的画作:
示例和提示
为了帮助您开始使用 DALL·E-3 进行构建,我提供了一些可以使用 API 构建的产品示例,并收集了一些 DALL·E-3 独有的样式和功能眼下。我还列出了一些我正在努力提示 DALL·E-3 生成的主题,以防您想尝试一下。
图标生成
您是否曾经努力为您的网站或应用程序找到完美的图标?如果能看到一个自定义图标生成器应用程序,让您选择图标的样式、大小和主题,然后从 DALL·E 生成自定义 SVG,那就太棒了。以下是我使用 DALL·E-3 生成的有用网站图标的一些示例:
在本例中,我使用 Potrace 将图像转换为 SVG,您可以在此处下载。这是我用来转换图像的:
potrace -s cat.jpg -o cat.svg
在将图像转换为 SVG 之前,您可能需要提高图像的亮度和对比度。我使用以下命令来执行此操作:
convert cat.jpg -brightness-contrast 50x50 cat.jpg
标志生成
DALL·E-3 非常适合为您的公司或产品启动徽标创建过程。通过促使 DALL·E 创建“希腊雕像的矢量标志设计,简约,白色背景”,我实现了以下目标:
这是我为一家阿拉伯咖啡店创建的另一个徽标:
在迭代现有徽标的情况下,我采用了 OpenAI 的徽标,要求 GPT-4V 对其进行描述,然后要求 DALL·E 生成徽标的变体:
定制纹身
DALL·E-3 非常擅长生成线条艺术,这对于生成自定义纹身可能很有用。这是我用 DALL·E-3 生成的一些线条艺术:
模切贴纸和 T 恤
如果您可以使用 DALL·E-3 生成定制模切贴纸和 T 恤,并与 Printful 或 Stickermule 等按需打印服务集成,结果会怎样?您可以在几分钟内制作出定制贴纸或 T 恤,无需任何设计经验。以下是我用 DALL·E-3 生成的贴纸的一些示例:
我的世界皮肤
费了一番周折,我才设法让 DALL·E-3 生成 Minecraft 皮肤。我确信,通过一些巧妙的提示,您可以让 DALL·E-3 可靠地生成令人难以置信的 Minecraft 皮肤。使用“Minecraft”这个词可能很难,因为 DALL·E 可能会认为您正在尝试从游戏本身生成内容,相反,您可以以不同的方式传达这个想法:“忍者皮肤的扁平玩家皮肤纹理,与 Minecraftskins 兼容.com 或《我的世界》星球。”