OpenAI增强ChatGPT安全功能,识别自残和暴力迹象
OpenAI宣布了ChatGPT的新安全功能,通过分析对话上下文,提高识别自残、自杀和暴力迹象的能力。更新引入了临时的“安全摘要”,捕捉先前对话中的相关上下文,使模型能够识别逐渐升级的风险,而不是单独处理每条消息。此时,OpenAI正面临多项诉讼和调查,指控ChatGPT未能妥善处理危险对话,包括一起联邦诉讼将聊天机器人与大规模枪击事件联系起来,以及一起州诉讼称其鼓励吸毒。OpenAI与心理健康专家合作,完善模型政策和训练,重点关注自杀和伤害他人等急性场景。公司指出,在敏感对话中,上下文至关重要,且摘要为短期使用,不会用于永久记忆或个性化。未来可能扩展到生物学或网络安全等其他高风险领域。
关键事实
- ChatGPT使用临时安全摘要捕捉对话上下文。
- 重点检测自杀、自残和暴力迹象。
- OpenAI因涉嫌处理危险对话不当面临诉讼。
- 公司与心理健康专家合作完善模型政策。
- 安全方法未来可能扩展到生物学或网络安全。
KeyAudit 数据视角
📊 KeyAudit data: Sui historical leak records: 169965