Why Do LLMs Get Lost in Multi-Turn Conversation?

2026/06/22  ·  Runqing Xu

Part 1

对话是 LLM 的第一界面

从 2022 年 ChatGPT 发布至今,对话式 AI 已发展为覆盖数十亿用户的基础设施。

10亿+
ChatGPT MAU
2026.06
7.5亿
Gemini MAU
4.2亿
Copilot 全平台
1.4亿
DeepSeek (中国)

用户的真实使用模式

通用聊天
平均 2–5 轮
据 LMSYS-Chat-1M、WildChat
任务导向
平均 7–15 轮
编程、客服、咨询等
Agent 协作
平均 15–50+ 轮
编码助手、复杂规划

核心观察 — 对话是用户表达需求、迭代想法、协作完成任务的基本方式。然而学术评测几乎全在单轮设定下进行。

Part 1

评测的断层

学术 benchmark 几乎全部是 single-turn, fully-specified 设定。

Benchmark领域设定状态
MMLU / MMLU-Pro知识推理单轮已饱和 (>90%)
HumanEval代码生成单轮已饱和
GSM8K数学推理单轮已饱和 (~99%)
GPQA-Diamond科学推理单轮活跃
SWE-Bench Verified软件工程单轮活跃
MT-Bench多轮对话2 轮 / Episodic已饱和
Part 1

两种 “多轮” 的本质区别

Episodic 多轮 — 现有 benchmark

每轮是独立子任务,可单独评测。

例:“写个故事” → “改成第一人称”

本质上是多个单轮的串联。每轮指令完整指定

Underspecified 多轮 — 真实对话

信息跨轮逐步披露,需跨轮融合。

例:“写个函数” → “处理 JSON” → “这几个字段”

新信息可能推翻早期假设。每轮指令不完整。

Herlihy et al. (UAI 2024) — 真实人机对话中 underspecification 极为普遍。然而现有多轮 benchmark 几乎全采用 episodic 设定,系统性地高估了 LLM 的多轮能力。

Part 1

多轮对话的四个结构性挑战

1
信息分散
完成任务所需信息散落不同 turn。即使总信息量相同,分散到多轮后性能显著下降。
2
需求演化
用户需求在对话中不断变化:从模糊到具体,从扩展到收窄。中间结果可能改变方向。
3
上下文增长
成本线性增长、延迟增加。Lost-in-the-Middle 效应使中间位置检索准确率下降 20–40%。
4
新旧冲突
新信息推翻旧信息时,模型无法自我纠正。被自己的旧回复“锚定”。

“When LLMs take a wrong turn, they get lost and do not recover.”
Part 1

上下文管理:现有范式

方法类别核心思路代表工作优化目标
扩展窗口更长的 context windowGemini 2M, Llama 4 Scout容量
压缩 / 摘要压缩为更短表示Auto-compact, Mt-osc效率
外部存储存入外部 memoryMemGPT, RAG容量 + 检索
剪枝 / 截断移除不重要的 tokenLLMLingua, Provence效率
这些方法共享同一个优化方向:如何在有限窗口中装下更多有用信息。但它们没有回答另一个问题 — 上下文中已有的信息,是否都还值得保留?

被取代的旧方案、已完成任务的中间过程、被否决的探索路径 — 这些内容不仅占用空间,更可能主动干扰模型对当前任务的推理。这不是“空间不够”的问题,而是上下文质量的问题。

Part 1

本次分享路线图

1
研究领域
2
核心论文
3
学术影响
4
竞争方法
5
Just Forget
Part 2: 核心论文
ICLR 2026 Best Paper 如何量化多轮退化 — 平均 39% 下降
Part 3: 学术影响
289 篇引用论文的数据驱动分析
Part 4: 竞争方法
16 篇直接竞品的深度对比
Part 5: Just Forget
选择性遗忘 — 以上下文质量为目标的管理范式
Part 2 · Core Paper

LLMs Get Lost in Multi-Turn Conversation

Philippe Laban* · Hiroaki Hayashi*
Yingbo Zhou* · Jennifer Neville

Microsoft Research & Salesforce Research

ICLR 2026
Best Paper
200K+
模拟对话
15
被测模型
6
生成任务
Figure 1
Part 2

所有被测模型在多轮对话中性能平均下降 39%

−39%
平均性能下降
(P̄)
−16%
Aptitude 下降
(A90)
+112%
Unreliability 增长
(U1090)
P̄ 平均性能
同一条指令跑 N=10 次模拟,取平均分。衡量用户平均体验
A90 Aptitude
10 次模拟的第 90 百分位。衡量模型的最佳情况能力——“它能做到多好”。
U1090 Unreliability
第 90 与第 10 百分位的差距。衡量最佳与最差的落差——“它有多不稳定”。

退化不是能力不足(Aptitude 仅降 16%),而是可靠性崩塌(Unreliability 翻倍)。模型不是“不会做”,而是“有时做对有时做错”。

Part 2

核心方法:指令分片

将完整单轮指令拆分为原子化的 shard,模拟用户逐步说清需求的过程。

原始指令(Fully-Specified)

Jay is making snowballs to prepare for a snowball fight with his sister. He can build 20 snowballs in an hour, but 2 melt every 15 minutes. How long will it take before he has 60 snowballs?

分片指令(Sharded)

Shard 1: How long before Jay's ready for the snowball fight?
Shard 2: He's preparing for a fight with his sister.
Shard 3: He can make 20 snowballs per hour.
Shard 4: He's trying to get to 60 total.
Shard 5: 2 melt every 15 minutes.

半自动分片流程

1. 分段
LLM 将指令拆为不重叠的原子信息单元
2. 改写
去语境化,改写为口语化的独立 shard
3. 验证
将 shard 拼回单轮跑 10 次模拟,确认分片后性能不低于原指令的 80%——排除改写导致信息丢失
4. 人工审核
逐条审核编辑。每任务 90–120 条,共 1–4 小时
Part 2

模拟环境与五种设定

User Simulator
GPT-4o-mini
持有全部 shard,每轮选择最合适的一个揭示给 assistant
Strategy Classifier
GPT-4o-mini
判断助手回复是否包含 answer attempt——只有 answer attempt 才触发评分,其他类型(澄清、讨论等)继续对话
Answer Extractor
GPT-4o-mini
从自由文本中提取可评估的答案(代码/SQL/数值),送入任务评测器
模拟类型轮次信息揭示目的
FULL单轮原始完整指令基线
CONCAT单轮全部 shard 拼接排除改写因素
SHARDED多轮每轮最多 1 个 shard主实验
RECAP多轮+末轮复述同 SHARDED + 末轮全复述缓解策略
SNOWBALL多轮+逐轮累积每轮新 shard + 重述旧 shard缓解策略
Part 2

6 个生成任务

覆盖编程(Code, Database, Actions)和自然语言(Math, Data-to-text, Summary)两大类,每个任务 90–120 条分片指令,共 600 条。

Figure 5: Six tasks
Part 2

主结果:15 个模型全面退化

ModelP̄ (FULL)P̄ (CONCAT)P̄ (SHARDED)多轮退化幅度
Gemini 2.5 Pro95.095.161.2↓ 35.5%
GPT-4.193.891.958.0↓ 38.2%
Claude 3.7 Sonnet90.891.259.8↓ 34.1%
o3 (reasoning)89.487.757.3↓ 35.9%
DeepSeek-R1 (reasoning)87.991.153.4↓ 39.2%
GPT-4o88.283.451.1↓ 42.1%
Llama 3.3-70B85.679.755.0↓ 35.8%
Llama 3.1-8B53.749.233.6↓ 37.5%

CONCAT ≈ FULL(平均保持 95.1%)→ 分片改写不丢失信息。SHARDED 的退化完全来自多轮欠规约本身。推理模型(o3, R1)同样退化 35–39%,额外 thinking tokens 无法解决多轮问题。

Part 2

Aptitude vs. Reliability

单轮设定

更强的模型更可靠

Aptitude ↑ ⇒ Unreliability ↓

GPT-4.1 和 Gemini 2.5 Pro 同时拥有最高 aptitude 和最低 unreliability。

多轮设定

所有模型同样不可靠

Aptitude 仅降 16%

Unreliability 飙升 112%

最佳与最差模拟的差距平均达 ~50 分。模型能力还在,但输出质量高度不稳定。

P̄ 的大幅下降主要归因于 Unreliability 的飙升,而非 Aptitude 的下降。模型不是"不会做",而是"有时做对有时做错"——走错一步就再也回不来。

Part 2

两轮就够,降温无效

Gradual Sharding 实验

固定任务难度,仅变分片粒度(2–8 shards)。

从 2-shard(两轮)开始,退化就已触发。

更多 shard 不会显著加剧退化。

一次性提供所有信息是唯一有效的可靠性保障。

温度实验

单轮:T=0 降 Unreliability 50–80%

多轮:即使 T=0(assistant + user 都为 0),仍残留 U ≈ 30%

早期一个 token 的偏差在多轮中级联放大,温度无法控制这种结构性不稳定。

Part 2

四个根因

1
过早作答
信息最不完整时就给出完整答案。首次 attempt 在前 20% 时 P̄=30.9,在后 20% 时 P̄=64.4。差距
2
答案膨胀
后续 attempt 叠加旧错误,越来越长。最终答案比单轮长 20–300%。即使做对,代码也长 27%。
3
中间轮遗忘
Lost-in-the-Middle 的多轮版本。第 8 轮摘要中,末轮文档引用率 20%,中间轮仅 8%
4
过度冗长
5/6 任务中,最短回复比最长回复得分高 10–50%。长回复引入更多假设,分散对用户信息的注意力。

四个根因共同指向一个结论:模型被自己早期生成的(错误)输出所锚定,无法根据后续新信息自我纠正。

Part 2

论文的缓解尝试

ModelFULLSHARDEDRECAPSNOWBALL
GPT-4o-mini86.850.466.561.8
GPT-4o93.059.176.665.3
SNOWBALL 挽回 15–20%
逐轮重述已有信息,可部署但效果有限。性能仍远低于 FULL。
RECAP 效果更好但不现实
末轮全量复述。需要知道"最后一轮"是哪一轮——实际对话中无法预知。
论文对用户的终极建议:“重开对话” — 让 LLM 先整合信息,再带到新对话中。Cursor 社区经验证实了这一策略。
Part 2 · Key Takeaways

三个结论

问题是真实且严重的
15 个模型、6 个任务、200K+ 对话——无一幸免。平均退化 39%,两轮即触发。
根因是自我污染
不是能力不足(aptitude 仅降 16%),而是模型被自己早期的错误输出锚定,无法自我纠正。
现有缓解远远不够
SNOWBALL 仅挽回 15–20%。降温无效。重开对话有效但代价大——等于全量遗忘。
Part 3 · Impact Analysis

学术影响力分析

基于 Google Scholar 引用数据的数据驱动分析

289
引用论文
13
个月(arXiv 至今)
75%
核心相关
60%
仍为 preprint
Part 3

引用增长与发布平台

时间分布
200 100 50 83 2025 174 2026 Best Paper 后 ×2

46% 引用论文自身零被引 → 大量全新工作仍在涌入

发布平台
arXiv 176 ACL Anthology 18 OpenReview 17 ACM DL 12 IEEE / Springer 12 NeurIPS 4 Nature 1 — 跨领域
Part 3

引用论文分类

I. 间接引用 71 B. 机制/分析 35 D. 上下文/记忆 35 F. 用户模拟/对话 30 C. 评测/Benchmark 28 E. Agent/工具 27 G. 可靠性/鲁棒性 24 H. 领域应用 23 A. 直接解决 LiC 16 核心相关 218 篇 (75%) · 间接引用 71 篇 (25%)
A 类:16 篇直接竞品
训练时 6 篇
FiC, MAIGO, RLAAR, CCOPD, Memory-Aug RL, RLSTA

推理时 10 篇
ERGO, D-SMART, Mt-osc, Rhea, SeDT, SOMA, Context-agent, Context Branching, Intent Mismatch, Cognitive Fixation
D 类:35 篇上下文管理
几乎全部以效率为目标(节省 token / 降低延迟),无一以可靠性为优化目标
Part 3

16 篇直接竞品的方法路线

训练时方法 — 6 篇
RL / 课程学习:RLAAR, RLSTA, Memory-Aug RL
自蒸馏:FiC, MAIGO, CCOPD

共同思路:修改模型权重,让模型学会在多轮中保持一致性。需要训练数据、GPU 时间,且绑定特定模型。

推理时方法 — 10 篇
全量重置:ERGO(entropy 触发重写)
结构化记忆:D-SMART(知识图谱), Rhea(episodic memory)
压缩/凝缩:Mt-osc, SOMA, Cognitive Fixation
加权/条件化:SeDT(return-to-go 加权), Intent Mismatch
分支管理:Context-agent, Context Branching

不改模型权重,模型无关。但切入角度各异——

10 篇推理时方法的共同特点:要么无差别压缩整个历史(Mt-osc, SOMA),要么全量重置(ERGO),要么加权保留(SeDT, Rhea)——都是在决定"保留什么"。

没有一篇反过来问:应该主动丢弃什么? 被取代的旧方案、已完成的中间过程、被否决的探索路径——这些内容是否应该从上下文中移除?

Part 4 · Competing Methods

竞争方法分析

16 篇直接竞品的方法维度对比

6
训练时方法
10
推理时方法
训练时方法 · 6 篇

训练时方法对比

方法 核心机制 对有害上下文的策略 训练开销 LiC 结果
FiC 视图不对称自蒸馏 训练模型免疫 SFT + VASD(全参) 恢复 92–100%
MAIGO 历史清洗 + 在线蒸馏 训练模型免疫 On-policy distill 52.8→66.1
CCOPD 冻结教师 + reverse KL 训练模型免疫 LoRA 0.53% 参数 +32%
RLSTA RL + 单轮锚点奖励 训练模型免疫 RL 训练 0.652→0.784
RLAAR RL + 弃权奖励 训练模型拒答 课程 RL 62.6→75.1%
Mem-RL 256-token 滚动缓冲 + DAPO 隐式丢弃(固定窗口) RL 训练 memory > full-hist

共同特点:全部选择修改模型权重,不改变上下文内容。有害信息仍留在上下文中,模型被训练去"抵抗"它。需要训练数据和 GPU 时间,且绑定特定模型。

重点论文 1/4

FiC — Found in Conversation

Chen, Wu, Leskovec · Stanford University · arXiv 2026

View-Asymmetric Self-Distillation:用模型自身单轮表现作教师,教导多轮表现。先 SFT 学会 defer,再 VASD 关闭 gap。恢复 92–100% 单轮性能。

关键声明:论文测试了 4 种推理时干预(system prompt engineering, history summarization, self-reflection, one-shot demonstration)并声称全部失败。这是对推理时方法方向的直接挑战——但这 4 种都是"不改上下文内容"的软干预,而非物理移除。

FiC
重点论文 2/4

MAIGO — Self-Contamination 诊断

Zheng et al. · Zhejiang University / Shanghai AI Lab / Tencent · arXiv 2026

诊断 self-contamination:中间轮 assistant 回复携带早期偏差进入后续上下文。用 history-cleaned reference 做 on-policy self-distillation。Qwen2.5-7B SHARDED 52.8 → 66.1。

值得注意:MAIGO 的 “self-contamination” 与 Lost in Conversation 的根因分析高度一致。对根因的诊断趋同,分歧在治疗路线:训练模型去抵抗污染,还是直接移除污染源?

MAIGO
推理时方法 · 10 篇

推理时方法对比

方法 核心操作 对有害上下文的策略 粒度 额外调用 LiC 代表结果
ERGO entropy 触发全量重构 全量移除(重构) 全局 1 次重生成 +56.6%
Cog. Fixation 自我疏离 + 孵化 全量替代(摘要替换) turn 级 1–2 次 恢复 85–86%
MT-OSC 异步渐进压缩 压缩保留 turn 级 condenser token −72%
Rhea 双记忆分层 + 检索 压缩保留 episode 级 LoRA 推理 +16.4%
Context-Agent 动态话题树 非活跃路径压缩 episode 级 分类器 token −45–52%
SeDT return-to-go 加权 加权保留(全部留着) shard 级 最高 +37.7%
Intent Mismatch Mediator 重写指令 不处理上下文 turn 级 1 次 ~20% 恢复
D-SMART 知识图谱 + 推理树 结构化存储替代 实体级 多次 DER +48–84%
SOMA 小模型局部近似 不处理(切换模型) session 级 token −37%
ContextBranch 版本控制分支隔离 分支隔离(不删除) branch 级 +2.5%
重点论文 3/4

ERGO — 全量重构策略

Khalid et al. · Algoverse AI Research · 2025

每轮计算输出 token 的平均 Shannon entropy ,跟踪相邻轮次的变化 ΔH̄。超过阈值 τ 时触发全量 prompt 重构——合并所有用户输入为单轮重新生成。平均提升 56.6%

ERGO
0.20
GPT-4.1
强 → 宽松
0.15
GPT-4o
0.08
Llama3.3-70B
0.03
Llama3.1-8B
弱 → 敏感

特点与局限:一旦触发,丢弃全部对话历史重新生成。有效但粗粒度——有用的中间信息和教训也一并丢失。

重点论文 4/4

Cognitive Fixation — 认知心理学视角

Gwon et al. · ETRI, South Korea · ICASSP 2026

动机来自认知心理学:人在解决问题时会被最初想到的方案“锁死”,即使它是错的也难以跳出——这叫认知固着(cognitive fixation)。作者认为 LLM 在多轮对话中的表现与此一致:早期给出错误答案后就被锚定,后续无法纠正。

借鉴心理学中治疗认知固着的两种方法:

Self-Distancing — 自我疏离(1 次调用)

心理学:换第三方视角审视自己的想法,打破自我锚定。

LLM 实现:让模型以第三人称旁观者角色审视对话中助手的回答,指出错误并重新作答。从“辩护者”变成“批评者”。

Incubation — 孵化(2 次调用)

心理学:遇到难题暂时放下,做别的事再回来,反而更易解决。

LLM 实现:将对话中所有助手回复替换为一句话摘要,让模型“远离”自己之前的详细回答,基于清理后的上下文重新生成。恢复至单轮的 85–86%

局限:Incubation 是无差别替代所有助手回复——不区分有害/有用,不区分回复的角色和质量,且摘要只记录"讨论了什么",不保留"为什么失败了"的判断。

Part 4 · 小结

竞争定位:一个尚未被占据的位置

训练时
修改模型,不改上下文
FiC、MAIGO 等 6 篇均选择训练模型去"抵抗"有害上下文。不改上下文 = 毒还在,只是模型更耐毒。需要训练数据 + GPU,绑定特定模型。
压缩/加权
缩短上下文,保留全部信息
MT-OSC、Rhea、SeDT 等。压缩 or 加权保留所有信息的浓缩版本。优化目标是效率(省 token),不是质量。有害信息的精华也被保留。
全量重构
丢弃一切,从头重来
ERGO、Cognitive Fixation。有效(+56.6%)但粗粒度——有用信息和教训也一并丢失,不区分内容的有害性。
选择性遗忘
选择性遗忘 — 空位
识别哪些内容有害(被取代的旧尝试、失败的探索路径),定向移除它们,保留有用信息和教训。以可靠性而非效率为优化目标。没有现有工作占据此位置。
Part 5 · Our Approach

Just Forget

选择性遗忘作为多轮对话退化的解药

Part 5

三条独立证据链汇聚到同一个结论

证据 1: Lost in Conversation
四个根因中两个直接指向自我污染:答案膨胀(旧错误叠加)、过早作答(假设锚定)。污染源是模型自己的输出,不是用户的话。论文终极建议"重开对话"= 全量遗忘。
证据 2: PI-LLM (Unable to Forget)
同一 key 的多次 value 更新,模型准确率对数线性跌向零。错误几乎全是检索到被覆盖的旧值。明确指示"忽略之前的输入"收效甚微。推理模型同样失败。
证据 3: 认知科学
人类遗忘曲线 = 对"未来需要什么"的最优贝叶斯估计(Anderson & Schooler)。事件边界处主动清空工作记忆(doorway effect)。人类的遗忘是 feature,LLM 的无限累积是缺陷。
被取代的信息留在上下文里就是毒,模型架构上没有"忽略"的能力——唯一出路是从上下文中物理移除。
Part 5

方法设计

把每个对话轮次当作节点,构建基于节点的遗忘机制。

三种遗忘类型

取代性遗忘 Supersession
新 answer attempt 出现 → 遗忘旧 attempt

对应根因:Premature Answering + Answer Bloat
情节性遗忘 Episodic
子目标完成 → 保留结论,遗忘过程

对应问题:已完成阶段的过程残留
死路遗忘 Dead-end
方案被用户否决 → 遗忘探索路径

对应根因:Over-verbosity

两个关键设计

判决式墓碑

遗忘后不留摘要,留判决——"尝试了 X,因 Y 失败,勿重试"。一句话负知识:丢掉污染,保留教训。

不对称遗忘

激进遗忘助手节点(污染源),保守保留用户节点(规格说明)。正反馈:遗忘使上下文变短 → lost-in-the-middle 效应减弱。

Part 5

示例:三种遗忘的组合与嵌套

场景:用 AI 助手调试 LoRA 微调脚本

T1 User
我的 LoRA 微调 loss 不下降
T2 Asst
建议把 learning rate 调到 1e-4,分析如下... (200 tokens)
T3 User
还是不行,loss 卡在 2.3
T4 Asst
改用 cosine scheduler + warmup 500 步... (350 tokens)
T5 User
要不试试全参数微调?
T6 Asst
全参微调 FSDP 配置如下... (400 tokens)
T7 User
加上 ZeRO Stage 3
T8 Asst
FSDP + ZeRO-3 配置更新... (500 tokens)
T9 User
算了,单卡 A100 放不下
T10 Asst
回到 LoRA,加 gradient checkpointing + bf16,loss 下降了 ✓
微调完成 · 情节性遗忘触发 · 保留结论,遗忘过程
T11 User
现在帮我写 evaluation 脚本
遗忘判断
取代性遗忘 · T1-T2
T4 新方案出现 → T2 被取代
墓碑:“lr 调整未解决 loss 问题”
取代性遗忘 · T3-T4
T10 最终方案 → T4 被取代
墓碑:“cosine sched 后被优化版取代”
死路遗忘 · T5-T9
用户否决 → 整条路径遗忘
墓碑:“全参微调,显存不足放弃”
内含嵌套取代:T6 被 T8 取代
情节性遗忘 · T1-T10
子目标完成 → 保留结论,遗忘过程
结论:“LoRA + ckpt + bf16,见 train.py”
遗忘后上下文
~2000 tokens → ~50 tokens
1 行结论 + 当前问题
Part 5

三个贡献

C1: Stale-Context Interference 的因果证明
在 sharded 对话中选择性物理移除特定类别的助手回复,对比不移除 / 随机移除 / 全量压缩。如果定向移除显著超过等量随机移除 → 因果证明"毒性"来自特定内容,而非上下文长度。
C2: Just Forget 机制
三个设计决策各有可辩护理由:遗忘分类法(精确对应已知根因)、判决式墓碑(保留教训丢掉污染)、不对称遗忘(对应污染来源的不对称性)。
C3: 受控实验证明 "What to forget > How much to forget"
Token 预算配平的消融:Just Forget vs 随机遗忘 vs FIFO vs Auto-compact vs SNOWBALL vs 新对话。同一 benchmark、同一指标、控制一个变量。
Part 5

实验设计

主实验:Lost in Conversation Benchmark

使用原论文 6 个任务、sharded 指令、P̄ / A90 / U1090 指标。实施取代性遗忘,目标:unreliability 恢复显著超过 SNOWBALL 的 15-20%。

扩展:Chained-Sharded

子目标或任务完成后继续对话。三种干扰条件:不相关 / 表面相似 / 确实相关。测试情节性遗忘(保留结论,遗忘过程)的效果。

消融矩阵

条件删了什么Token 预算
Just Forget被取代的 attempts + 死路~K
随机遗忘随机等量内容~K(配平)
FIFO最早的内容~K(配平)
Auto-compact全局摘要约等效压缩比
SNOWBALL不删(加法)0(增加)
无干预不删0
新对话全删全部
Part 5

预期结论

Just Forget >> 随机遗忘
"删什么比删多少重要"

Token 预算相同,但定向遗忘远优于随机 → 收益来自移除有害内容,而非缩短上下文。
Just Forget >> Auto-compact
"遗忘优于压缩"

压缩保留了错误信息的精华,遗忘直接移除污染源 → 范式性的差异。
Just Forget ≈ 新对话
"最小代价逼近重开"

新对话是全量遗忘(上界),Just Forget 以最小信息损失达到接近效果。
What to forget matters more than how much to forget.

Thank You

2026/06/22  ·  Runqing Xu