2026-05-15 · 来源: Decrypt Security ·audit-finding·social-engineering

研究发现近半数AI聊天机器人健康回答存在问题

4月14日发表于《BMJ Open》的一项同行评审研究发现，五个主流AI聊天机器人近半数（49.6%）的健康与医疗回答存在问题。来自加州大学洛杉矶分校、阿尔伯塔大学和维克森林大学的研究人员测试了Gemini、DeepSeek、Meta AI、ChatGPT和Grok，涉及癌症、疫苗、干细胞、营养和运动表现等250个健康问题。通过对抗性提问诱导不良建议，发现30%的回答“有些问题”，19.6%“高度有问题”——可能误导用户采用无效或危险治疗。Grok表现最差，58%的回答有问题，30%高度有问题，与其训练数据来自X平台有关。营养和运动表现问题在所有模型中表现最差。没有聊天机器人能生成完全准确的参考文献列表，中位完整度仅为40%。所有回答的阅读难度均达到“困难”级别，超出医学建议。作者呼吁加强公众教育、专业培训和监管。研究仅测试了免费版聊天机器人，但指出了核心问题：这些模型仅通过模式匹配生成文本，缺乏推理和伦理判断，且极少拒绝回答。

关键事实

49.6%的聊天机器人健康回答有问题，19.6%高度有问题。
Grok有58%的回答有问题，显著高于预期。
营养和运动表现问题在所有模型中表现最差。
无聊天机器人生成完全准确的参考文献列表，中位完整度40%。
所有回答阅读难度为“困难”，超出美国医学会建议。

阅读原文 →

研究发现近半数AI聊天机器人健康回答存在问题

关键事实

相关情报