当前位置:数智频道首页 > 人工智能 > 正文

研究证实:AI 大模型跨多轮对话任务表现不佳,性能最高降 39%

更新后的模型表现有所改善,性能降幅从39%减少到33%,但问题依然存在。在Python任务中,部分模型的性能损失仅在10%到20%之间。然而,拉班指出,在实际使用场景中,性能损失可能会更严重,因为测试只采用了简单的用户模拟。如果用户在对话过程中改变想法,性能下降可能更为明显。

研究证实:AI 大模型跨多轮对话任务表现不佳,性能最高降 39%

研究发现,通过调低温度值等技术微调并不能有效解决这一问题。研究人员建议,遇到异常情况时,应重新开启一段新对话,并让模型先总结之前的请求,再基于这份总结继续新的对话。

热点推送

本周关注

MORE