当前位置:热点 > 正文
焦点简讯:研究证实:AI大模型跨多轮对话任务表现不佳,性能最高降39%
2026-03-01 08:31:30 来源:IT之家
(相关资料图)
IT之家 3 月 1 日消息,据 THE DECODER 报道,新一代大语言模型(从 GPT-5 及后续版本开始)在任务需要跨多轮对话完成时,表现依然不佳。研究员菲利普 · 拉班(Philippe Laban)及其团队在代码、数据库、操作指令、数据转文本、数学计算、文本摘要这六大任务上对现有模型进行了测试。当信息被拆分到多条消息中(分片式),而非集中在单次提示词里(拼接式)时,模型性能会显著下降。
IT之家注意到,更新的模型表现略好一些,性能降幅从 39% 缩小到 33%,但问题远未解决。Python 任务的提升最为明显,部分模型仅损失 10%–20% 的性能。拉班认为,实际场景中的性能损失可能更严重,因为测试只使用了简单的用户模拟;如果用户在对话中途改变想法,性能下降幅度可能会更大。
原始研究发现,调低温度值(temperature)这类技术微调无法解决这一问题。研究人员建议:一旦出现异常,重新开启一段新对话,最好先让模型把所有请求总结一遍,再用这份总结作为新对话的起点。
推荐阅读
观热点:充电行业价格战蔓延 头部企业发力乡镇、重卡市场
乙醇类股票有哪些(2/27)|每日讯息
今日热讯:青岛东饶电子科技有限公司成立 注册资本100万人民币
新消息丨行云科技:截至2026年2月13日公司股东人数为25385户
武汉天源:实控人的一致行动人拟减持不超1.93%公司股份 每日讯息
相关新闻
- 小米汽车2月交付量超过2万辆
- 甘肃红鑫兴旺二手车销售有限公司成立 注册资本5万人民币_热点
- 当前热讯:舍甫琴科回忆:08年斯帕莱蒂曾给我打电话,他想让我去罗马
- 焦点简讯:研究证实:AI大模型跨多轮对话任务表现不佳,性能最高降39%
- 观热点:充电行业价格战蔓延 头部企业发力乡镇、重卡市场
- 每日报道:亚历山大:复出的感觉太好了 因伤缺席的这段日子很难熬
- a16z最新观点:AI影像的关键并非“单一模型”能力,而是“完整工作流” 当前热门
- 2026年考研国家线公布 每日快讯
- 富恒新材2025年亏损9520.74万 新增产能尚未完全释放 关注
- 乙醇类股票有哪些(2/27)|每日讯息
- 面壁智能获数亿元融资,中国电信领投|最新
- 快播:国家典籍博物馆:科技赋予典籍新的活力
- 今日热讯:青岛东饶电子科技有限公司成立 注册资本100万人民币
- 新消息丨行云科技:截至2026年2月13日公司股东人数为25385户
- 2026石油产业链及主要龙头企业一览【干货】
- 孤雨晚间(02.27)主要商品操作建议|实时
- A股盘前预报及走势分析
- 武汉天源:实控人的一致行动人拟减持不超1.93%公司股份 每日讯息
- 微芯生物:董事长提议8000万元至1.2亿元回购股份
- 天元医疗(00557.HK):黎碧芝获委任为公司秘书-每日关注
