研究发现近半数AI聊天机器人健康回答存在问题
4月14日发表于《BMJ Open》的一项同行评审研究发现,五个主流AI聊天机器人近半数(49.6%)的健康与医疗回答存在问题。来自加州大学洛杉矶分校、阿尔伯塔大学和维克森林大学的研究人员测试了Gemini、DeepSeek、Meta AI、ChatGPT和Grok,涉及癌症、疫苗、干细胞、营养和运动表现等250个健康问题。通过对抗性提问诱导不良建议,发现30%的回答“有些问题”,19.6%“高度有问题”——可能误导用户采用无效或危险治疗。Grok表现最差,58%的回答有问题,30%高度有问题,与其训练数据来自X平台有关。营养和运动表现问题在所有模型中表现最差。没有聊天机器人能生成完全准确的参考文献列表,中位完整度仅为40%。所有回答的阅读难度均达到“困难”级别,超出医学建议。作者呼吁加强公众教育、专业培训和监管。研究仅测试了免费版聊天机器人,但指出了核心问题:这些模型仅通过模式匹配生成文本,缺乏推理和伦理判断,且极少拒绝回答。
关键事实
- 49.6%的聊天机器人健康回答有问题,19.6%高度有问题。
- Grok有58%的回答有问题,显著高于预期。
- 营养和运动表现问题在所有模型中表现最差。
- 无聊天机器人生成完全准确的参考文献列表,中位完整度40%。
- 所有回答阅读难度为“困难”,超出美国医学会建议。