我们使用多层安全系统来限制 DALL·E 3 生成潜在有害图像的能力,包括暴力、成人或仇恨内容。在向用户展示之前,会对用户提示和生成的图像进行安全检查。我们还与早期用户和专家红队成员合作,确定并解决随着新模型功能而出现的安全系统的覆盖范围差距。例如,反馈帮助我们识别图形内容生成的边缘情况(例如性图像),并压力测试模型生成令人信服的误导性图像的能力。
作为 DALL·E 3 部署准备工作的一部分,我们还采取措施限制模型以在世艺术家、公众人物图像的风格生成内容的可能性,并改善生成图像的人口统计代表性。要了解有关 DALL·E 3 广泛部署准备工作的更多信息,请参阅DALL·E 3 系统卡。
用户反馈将有助于确保我们不断改进。ChatGPT 用户可以使用旗帜图标与我们的研究团队分享反馈,告知我们不安全的输出或未准确反映您向 ChatGPT 提供的提示的输出。倾听多元化和广泛的用户社区的声音并了解现实世界对于负责任地开发和部署人工智能至关重要,也是我们使命的核心。
我们正在研究和评估出处分类器的初始版本,这是一种新的内部工具,可以帮助我们识别图像是否由 DALL·E 3 生成。在早期的内部评估中,它在识别图像是否由 DALL·E 3 生成时的准确率超过 99%当图像未被修改时,图像是由 DALL·E 生成的。当图像经过常见类型的修改(例如裁剪、调整大小、JPEG 压缩),或者将真实图像中的文本或剪切图叠加到生成图像的一小部分上时,其准确率仍保持在 95% 以上。尽管内部测试取得了这些强有力的结果,但分类器只能告诉我们图像可能是由 DALL·E 生成的,尚不能让我们做出明确的结论。这种来源分类器可能会成为一系列技术的一部分,帮助人们了解音频或视觉内容是否是人工智能生成的。这是一个挑战,需要整个人工智能价值链的协作,包括与向用户分发内容的平台的协作。我们希望深入了解这个工具的工作原理以及它在哪里最有用,并随着时间的推移改进我们的方法。
暂无评论