0 0 0

ChatGPT 现在可以浏览互联网,并可以看、听和说话

openai
7月前 500

1.浏览互联网

ChatGPT 现在可以浏览互联网,为您提供最新的权威信息,并提供直接来源链接。不再局限于2021年9月之前的数据。

现在,Plus 和 Enterprise 用户可以使用浏览功能,很快就会扩展到所有用户。

要启用,请在 GPT-4 下的选择器中选择“使用 Bing 浏览”。

 

2.看、听和说话

ChatGPT 现在可以看、听和说话。在接下来的两周内推出,Plus 用户将能够与 ChatGPT(iOS 和 Android)进行语音对话,并在对话中包含图像(所有平台)。

我们开始在 ChatGPT 中推出新的语音和图像功能。它们提供了一种新的、更直观的界面,允许您进行语音对话或向 ChatGPT 显示您正在谈论的内容。

语音和图像为您提供更多在生活中使用 ChatGPT 的方式。在旅行时拍摄地标的照片,并实时讨论其中的有趣之处。当您回到家时,拍下冰箱和食品储藏室的照片,以了解晚餐吃什么(并询问后续问题以获取逐步食谱)。晚餐后,通过拍照、圈出问题集并让它与你们俩分享提示来帮助您的孩子解决数学问题。

我们将在接下来的两周内向 Plus 和 Enterprise 用户推出 ChatGPT 中的语音和图像。语音将在 iOS 和 Android 上提供(在您的设置中选择加入),并且图像将在所有平台上提供。

 

与 ChatGPT 交谈并让它回复

您现在可以使用语音与助手进行来回对话。随时随地与它交谈,为您的家人请求睡前故事,或解决餐桌上的争论。

要开始使用语音,请前往移动应用程序上的“设置”→“新功能”,然后选择加入语音对话。然后,点击主屏幕右上角的耳机按钮,从五种不同的声音中选择您喜欢的声音。

新的语音功能由新的文本转语音模型提供支持,能够仅从文本和几秒钟的样本语音中生成类似人类的音频。我们与专业配音演员合作创作了每一个声音。我们还使用我们的开源语音识别系统 Whisper 将您的口语转录为文本。

 

谈论图像

您现在可以向 ChatGPT 显示一张或多张图像。排查烧烤炉无法启动的原因,探索冰箱中的物品来计划膳食,或分析复杂的图表以获取与工作相关的数据。要关注图像的特定部分,您可以使用我们移动应用程序中的绘图工具。

首先,点击照片按钮来拍摄或选择图像。如果您使用的是 iOS 或 Android,请先点击加号按钮。您还可以讨论多个图像或使用我们的绘图工具来指导您的助手。

图像理解由多模态 GPT-3.5 和 GPT-4 提供支持。这些模型将其语言推理技能应用于各种图像,例如照片、屏幕截图以及包含文本和图像的文档。

 

我们正在逐步部署图像和语音能力

OpenAI 的目标是构建安全且有益的 AGI。我们相信逐步提供我们的工具,这使我们能够随着时间的推移进行改进和完善风险缓解措施,同时也让每个人为未来更强大的系统做好准备。对于涉及语音和视觉的高级模型,这一策略变得更加重要。

 

嗓音

新的语音技术能够从短短几秒钟的真实语音中生成逼真的合成语音,为许多创造性和以可访问性为重点的应用程序打开了大门。然而,这些功能也带来了新的风险,例如恶意行为者可能冒充公众人物或实施欺诈。

这就是我们使用这项技术来支持特定用例(语音聊天)的原因。语音聊天是与我们直接合作的配音演员创建的。我们也以类似的方式与其他人合作。例如,Spotify 正在利用这项技术的力量来试点其语音翻译功能,该功能可以通过播客自己的声音将播客翻译成其他语言,从而帮助播客扩大讲故事的范围。

 

图像输入

基于视觉的模型也提出了新的挑战,从对人的幻觉到依赖模型对高风险领域图像的解释。在更广泛的部署之前,我们与红队成员一起测试了该模型在极端主义和科学能力等领域的风险,以及一组不同的阿尔法测试人员。我们的研究使我们能够调整一些关键细节,以实现负责任的使用。

 

让视觉既有用又安全

与其他 ChatGPT 功能一样,Vision 旨在为您的日常生活提供帮助。当它能看到你所看到的东西时,它会做得最好。 

这种方法是通过我们与 Be My Eyes 的合作直接获得的,Be My Eyes 是一款为盲人和弱视人士提供的免费移动应用程序,旨在了解用途和限制。用户告诉我们,他们发现就背景中恰好包含人物的图像进行一般性对话很有价值,例如当您试图弄清楚遥控器设置时有人出现在电视上。

我们还采取了技术措施来显着限制 ChatGPT 分析和直接发表有关人员的陈述的能力,因为 ChatGPT 并不总是准确的,并且这些系统应该尊重个人的隐私。

现实世界的使用和反馈将帮助我们更好地完善这些保障措施,同时保持该工具的有用性。

 

模型限制的透明度

用户可能依赖 ChatGPT 来获取专业主题,例如研究等领域。我们对该模型的局限性保持透明,并且在没有适当验证的情况下不鼓励高风险用例。此外,该模型擅长转录英语文本,但在其他一些语言(尤其是非罗马文字的语言)中表现不佳。我们建议非英语用户不要将 ChatGPT 用于此目的。

您可以在图像输入系统卡中详细了解我们的安全方法以及我们与 Be My Eyes 的合作。

 

我们将扩大访问范围

Plus 和 Enterprise 用户将在接下来的两周内体验语音和图像。我们很高兴很快就能向其他用户群体(包括开发人员)推出这些功能。

AD:GPT-4官方账号:点击购买

请先登录后发表评论!

最新回复 (0)

    暂无评论

返回
请先登录后发表评论!