Why Do LLMs Get Lost in Multi-Turn Conversation?

2026/06/22 · Runqing Xu

Part 1

对话是 LLM 的第一界面

从 2022 年 ChatGPT 发布至今，对话式 AI 已发展为覆盖数十亿用户的基础设施。

10亿+

ChatGPT MAU
2026.06

7.5亿

Gemini MAU

4.2亿

Copilot 全平台

1.4亿

DeepSeek (中国)

用户的真实使用模式

通用聊天

平均 2–5 轮
据 LMSYS-Chat-1M、WildChat

任务导向

平均 7–15 轮
编程、客服、咨询等

Agent 协作

平均 15–50+ 轮
编码助手、复杂规划

核心观察 — 对话是用户表达需求、迭代想法、协作完成任务的基本方式。然而学术评测几乎全在单轮设定下进行。

Part 1

评测的断层

学术 benchmark 几乎全部是 single-turn, fully-specified 设定。

Benchmark	领域	设定	状态
MMLU / MMLU-Pro	知识推理	单轮	已饱和 (>90%)
HumanEval	代码生成	单轮	已饱和
GSM8K	数学推理	单轮	已饱和 (~99%)
GPQA-Diamond	科学推理	单轮	活跃
SWE-Bench Verified	软件工程	单轮	活跃
MT-Bench	多轮对话	2 轮 / Episodic	已饱和

Part 1

两种 “多轮” 的本质区别

Episodic 多轮 — 现有 benchmark

每轮是独立子任务，可单独评测。

例：“写个故事” → “改成第一人称”

本质上是多个单轮的串联。每轮指令完整指定。

Underspecified 多轮 — 真实对话

信息跨轮逐步披露，需跨轮融合。

例：“写个函数” → “处理 JSON” → “这几个字段”

新信息可能推翻早期假设。每轮指令不完整。

Herlihy et al. (UAI 2024) — 真实人机对话中 underspecification 极为普遍。然而现有多轮 benchmark 几乎全采用 episodic 设定，系统性地高估了 LLM 的多轮能力。

Part 1

多轮对话的四个结构性挑战

1

信息分散

完成任务所需信息散落不同 turn。即使总信息量相同，分散到多轮后性能显著下降。

2

需求演化

用户需求在对话中不断变化：从模糊到具体，从扩展到收窄。中间结果可能改变方向。

3

上下文增长

成本线性增长、延迟增加。Lost-in-the-Middle 效应使中间位置检索准确率下降 20–40%。

4

新旧冲突

新信息推翻旧信息时，模型无法自我纠正。被自己的旧回复“锚定”。

“When LLMs take a wrong turn, they get lost and do not recover.”

Part 1

上下文管理：现有范式

方法类别	核心思路	代表工作	优化目标
扩展窗口	更长的 context window	Gemini 2M, Llama 4 Scout	容量
压缩 / 摘要	压缩为更短表示	Auto-compact, Mt-osc	效率
外部存储	存入外部 memory	MemGPT, RAG	容量 + 检索
剪枝 / 截断	移除不重要的 token	LLMLingua, Provence	效率

这些方法共享同一个优化方向：如何在有限窗口中装下更多有用信息。但它们没有回答另一个问题 — 上下文中已有的信息，是否都还值得保留？

被取代的旧方案、已完成任务的中间过程、被否决的探索路径 — 这些内容不仅占用空间，更可能主动干扰模型对当前任务的推理。这不是“空间不够”的问题，而是上下文质量的问题。

Part 1

本次分享路线图

1

研究领域

2

核心论文

3

学术影响

4

竞争方法

5

Just Forget

Part 2: 核心论文

ICLR 2026 Best Paper 如何量化多轮退化 — 平均 39% 下降

Part 3: 学术影响

289 篇引用论文的数据驱动分析

Part 4: 竞争方法

16 篇直接竞品的深度对比

Part 5: Just Forget

选择性遗忘 — 以上下文质量为目标的管理范式

Part 2 · Core Paper

LLMs Get Lost in Multi-Turn Conversation

Philippe Laban* · Hiroaki Hayashi*
Yingbo Zhou* · Jennifer Neville

Microsoft Research & Salesforce Research

ICLR 2026

Best Paper

200K+

模拟对话

15

被测模型

6

生成任务

Part 2

所有被测模型在多轮对话中性能平均下降 39%

−39%

平均性能下降
(P̄)

−16%

Aptitude 下降
(A⁹⁰)

+112%

Unreliability 增长
(U₁₀⁹⁰)

P̄ 平均性能

同一条指令跑 N=10 次模拟，取平均分。衡量用户平均体验。

A⁹⁰ Aptitude

10 次模拟的第 90 百分位。衡量模型的最佳情况能力——“它能做到多好”。

U₁₀⁹⁰ Unreliability

第 90 与第 10 百分位的差距。衡量最佳与最差的落差——“它有多不稳定”。

退化不是能力不足（Aptitude 仅降 16%），而是可靠性崩塌（Unreliability 翻倍）。模型不是“不会做”，而是“有时做对有时做错”。

Part 2

核心方法：指令分片

将完整单轮指令拆分为原子化的 shard，模拟用户逐步说清需求的过程。

原始指令（Fully-Specified）

Jay is making snowballs to prepare for a snowball fight with his sister. He can build 20 snowballs in an hour, but 2 melt every 15 minutes. How long will it take before he has 60 snowballs?

分片指令（Sharded）

Shard 1: How long before Jay's ready for the snowball fight?
Shard 2: He's preparing for a fight with his sister.
Shard 3: He can make 20 snowballs per hour.
Shard 4: He's trying to get to 60 total.
Shard 5: 2 melt every 15 minutes.

半自动分片流程

1. 分段

LLM 将指令拆为不重叠的原子信息单元

2. 改写

去语境化，改写为口语化的独立 shard

3. 验证

将 shard 拼回单轮跑 10 次模拟，确认分片后性能不低于原指令的 80%——排除改写导致信息丢失

4. 人工审核

逐条审核编辑。每任务 90–120 条，共 1–4 小时

Part 2

模拟环境与五种设定

User Simulator

GPT-4o-mini
持有全部 shard，每轮选择最合适的一个揭示给 assistant

Strategy Classifier

GPT-4o-mini
判断助手回复是否包含 answer attempt——只有 answer attempt 才触发评分，其他类型（澄清、讨论等）继续对话

Answer Extractor

GPT-4o-mini
从自由文本中提取可评估的答案（代码/SQL/数值），送入任务评测器

模拟类型	轮次	信息揭示	目的
FULL	单轮	原始完整指令	基线
CONCAT	单轮	全部 shard 拼接	排除改写因素
SHARDED	多轮	每轮最多 1 个 shard	主实验
RECAP	多轮+末轮复述	同 SHARDED + 末轮全复述	缓解策略
SNOWBALL	多轮+逐轮累积	每轮新 shard + 重述旧 shard	缓解策略

Part 2

6 个生成任务

覆盖编程（Code, Database, Actions）和自然语言（Math, Data-to-text, Summary）两大类，每个任务 90–120 条分片指令，共 600 条。

Part 2

主结果：15 个模型全面退化

Model	P̄ (FULL)	P̄ (CONCAT)	P̄ (SHARDED)	多轮退化幅度
Gemini 2.5 Pro	95.0	95.1	61.2	↓ 35.5%
GPT-4.1	93.8	91.9	58.0	↓ 38.2%
Claude 3.7 Sonnet	90.8	91.2	59.8	↓ 34.1%
o3 (reasoning)	89.4	87.7	57.3	↓ 35.9%
DeepSeek-R1 (reasoning)	87.9	91.1	53.4	↓ 39.2%
GPT-4o	88.2	83.4	51.1	↓ 42.1%
Llama 3.3-70B	85.6	79.7	55.0	↓ 35.8%
Llama 3.1-8B	53.7	49.2	33.6	↓ 37.5%

CONCAT ≈ FULL（平均保持 95.1%）→ 分片改写不丢失信息。SHARDED 的退化完全来自多轮欠规约本身。推理模型（o3, R1）同样退化 35–39%，额外 thinking tokens 无法解决多轮问题。

Part 2

Aptitude vs. Reliability

单轮设定

更强的模型更可靠

Aptitude ↑ ⇒ Unreliability ↓

GPT-4.1 和 Gemini 2.5 Pro 同时拥有最高 aptitude 和最低 unreliability。

多轮设定

所有模型同样不可靠

Aptitude 仅降 16%

Unreliability 飙升 112%

最佳与最差模拟的差距平均达 ~50 分。模型能力还在，但输出质量高度不稳定。

P̄ 的大幅下降主要归因于 Unreliability 的飙升，而非 Aptitude 的下降。模型不是"不会做"，而是"有时做对有时做错"——走错一步就再也回不来。

Part 2

两轮就够，降温无效

Gradual Sharding 实验

固定任务难度，仅变分片粒度（2–8 shards）。

从 2-shard（两轮）开始，退化就已触发。

更多 shard 不会显著加剧退化。

一次性提供所有信息是唯一有效的可靠性保障。

温度实验

单轮：T=0 降 Unreliability 50–80%

多轮：即使 T=0（assistant + user 都为 0），仍残留 U ≈ 30%

早期一个 token 的偏差在多轮中级联放大，温度无法控制这种结构性不稳定。

Part 2

四个根因

1

过早作答

信息最不完整时就给出完整答案。首次 attempt 在前 20% 时 P̄=30.9，在后 20% 时 P̄=64.4。差距 2×。

2

答案膨胀

后续 attempt 叠加旧错误，越来越长。最终答案比单轮长 20–300%。即使做对，代码也长 27%。

3

中间轮遗忘

Lost-in-the-Middle 的多轮版本。第 8 轮摘要中，末轮文档引用率 20%，中间轮仅 8%。

4

过度冗长

5/6 任务中，最短回复比最长回复得分高 10–50%。长回复引入更多假设，分散对用户信息的注意力。

四个根因共同指向一个结论：模型被自己早期生成的（错误）输出所锚定，无法根据后续新信息自我纠正。

Part 2

论文的缓解尝试

Model	FULL	SHARDED	RECAP	SNOWBALL
GPT-4o-mini	86.8	50.4	66.5	61.8
GPT-4o	93.0	59.1	76.6	65.3

SNOWBALL 挽回 15–20%

逐轮重述已有信息，可部署但效果有限。性能仍远低于 FULL。

RECAP 效果更好但不现实

末轮全量复述。需要知道"最后一轮"是哪一轮——实际对话中无法预知。

论文对用户的终极建议：“重开对话” — 让 LLM 先整合信息，再带到新对话中。Cursor 社区经验证实了这一策略。

Part 2 · Key Takeaways

三个结论

问题是真实且严重的

15 个模型、6 个任务、200K+ 对话——无一幸免。平均退化 39%，两轮即触发。

根因是自我污染

不是能力不足（aptitude 仅降 16%），而是模型被自己早期的错误输出锚定，无法自我纠正。

现有缓解远远不够

SNOWBALL 仅挽回 15–20%。降温无效。重开对话有效但代价大——等于全量遗忘。

Part 3 · Impact Analysis

学术影响力分析

基于 Google Scholar 引用数据的数据驱动分析

289

引用论文

13

个月（arXiv 至今）

75%

核心相关

60%

仍为 preprint

Part 3

引用增长与发布平台

时间分布

46% 引用论文自身零被引 → 大量全新工作仍在涌入

发布平台

Part 3

引用论文分类

A 类：16 篇直接竞品

训练时 6 篇
FiC, MAIGO, RLAAR, CCOPD, Memory-Aug RL, RLSTA

推理时 10 篇
ERGO, D-SMART, Mt-osc, Rhea, SeDT, SOMA, Context-agent, Context Branching, Intent Mismatch, Cognitive Fixation

D 类：35 篇上下文管理

几乎全部以效率为目标（节省 token / 降低延迟），无一以可靠性为优化目标

Part 3

16 篇直接竞品的方法路线

训练时方法 — 6 篇

RL / 课程学习：RLAAR, RLSTA, Memory-Aug RL
自蒸馏：FiC, MAIGO, CCOPD

共同思路：修改模型权重，让模型学会在多轮中保持一致性。需要训练数据、GPU 时间，且绑定特定模型。

推理时方法 — 10 篇

全量重置：ERGO（entropy 触发重写）
结构化记忆：D-SMART（知识图谱）, Rhea（episodic memory）
压缩/凝缩：Mt-osc, SOMA, Cognitive Fixation
加权/条件化：SeDT（return-to-go 加权）, Intent Mismatch
分支管理：Context-agent, Context Branching

不改模型权重，模型无关。但切入角度各异——

10 篇推理时方法的共同特点：要么无差别压缩整个历史（Mt-osc, SOMA），要么全量重置（ERGO），要么加权保留（SeDT, Rhea）——都是在决定"保留什么"。

没有一篇反过来问：应该主动丢弃什么？ 被取代的旧方案、已完成的中间过程、被否决的探索路径——这些内容是否应该从上下文中移除？

Part 4 · Competing Methods

竞争方法分析

16 篇直接竞品的方法维度对比

6

训练时方法

10

推理时方法

训练时方法 · 6 篇

训练时方法对比

方法	核心机制	对有害上下文的策略	训练开销	LiC 结果
FiC	视图不对称自蒸馏	训练模型免疫	SFT + VASD（全参）	恢复 92–100%
MAIGO	历史清洗 + 在线蒸馏	训练模型免疫	On-policy distill	52.8→66.1
CCOPD	冻结教师 + reverse KL	训练模型免疫	LoRA 0.53% 参数	+32%
RLSTA	RL + 单轮锚点奖励	训练模型免疫	RL 训练	0.652→0.784
RLAAR	RL + 弃权奖励	训练模型拒答	课程 RL	62.6→75.1%
Mem-RL	256-token 滚动缓冲 + DAPO	隐式丢弃（固定窗口）	RL 训练	memory > full-hist

共同特点：全部选择修改模型权重，不改变上下文内容。有害信息仍留在上下文中，模型被训练去"抵抗"它。需要训练数据和 GPU 时间，且绑定特定模型。

重点论文 1/4

FiC — Found in Conversation

Chen, Wu, Leskovec · Stanford University · arXiv 2026

View-Asymmetric Self-Distillation：用模型自身单轮表现作教师，教导多轮表现。先 SFT 学会 defer，再 VASD 关闭 gap。恢复 92–100% 单轮性能。

关键声明：论文测试了 4 种推理时干预（system prompt engineering, history summarization, self-reflection, one-shot demonstration）并声称全部失败。这是对推理时方法方向的直接挑战——但这 4 种都是"不改上下文内容"的软干预，而非物理移除。

重点论文 2/4

MAIGO — Self-Contamination 诊断

Zheng et al. · Zhejiang University / Shanghai AI Lab / Tencent · arXiv 2026

诊断 self-contamination：中间轮 assistant 回复携带早期偏差进入后续上下文。用 history-cleaned reference 做 on-policy self-distillation。Qwen2.5-7B SHARDED 52.8 → 66.1。

值得注意：MAIGO 的 “self-contamination” 与 Lost in Conversation 的根因分析高度一致。对根因的诊断趋同，分歧在治疗路线：训练模型去抵抗污染，还是直接移除污染源？

推理时方法 · 10 篇

推理时方法对比

方法	核心操作	对有害上下文的策略	粒度	额外调用	LiC	代表结果
ERGO	entropy 触发全量重构	全量移除（重构）	全局	1 次重生成	✓	+56.6%
Cog. Fixation	自我疏离 + 孵化	全量替代（摘要替换）	turn 级	1–2 次	✓	恢复 85–86%
MT-OSC	异步渐进压缩	压缩保留	turn 级	condenser	✗	token −72%
Rhea	双记忆分层 + 检索	压缩保留	episode 级	LoRA 推理	✗	+16.4%
Context-Agent	动态话题树	非活跃路径压缩	episode 级	分类器	✗	token −45–52%
SeDT	return-to-go 加权	加权保留（全部留着）	shard 级	无	✓	最高 +37.7%
Intent Mismatch	Mediator 重写指令	不处理上下文	turn 级	1 次	✓	~20% 恢复
D-SMART	知识图谱 + 推理树	结构化存储替代	实体级	多次	✗	DER +48–84%
SOMA	小模型局部近似	不处理（切换模型）	session 级	无	✗	token −37%
ContextBranch	版本控制分支隔离	分支隔离（不删除）	branch 级	无	✗	+2.5%

重点论文 3/4

ERGO — 全量重构策略

Khalid et al. · Algoverse AI Research · 2025

每轮计算输出 token 的平均 Shannon entropy H̄，跟踪相邻轮次的变化 ΔH̄。超过阈值 τ 时触发全量 prompt 重构——合并所有用户输入为单轮重新生成。平均提升 56.6%。

0.20

GPT-4.1
强 → 宽松

0.15

GPT-4o

0.08

Llama3.3-70B

0.03

Llama3.1-8B
弱 → 敏感

特点与局限：一旦触发，丢弃全部对话历史重新生成。有效但粗粒度——有用的中间信息和教训也一并丢失。

重点论文 4/4

Cognitive Fixation — 认知心理学视角

Gwon et al. · ETRI, South Korea · ICASSP 2026

动机来自认知心理学：人在解决问题时会被最初想到的方案“锁死”，即使它是错的也难以跳出——这叫认知固着（cognitive fixation）。作者认为 LLM 在多轮对话中的表现与此一致：早期给出错误答案后就被锚定，后续无法纠正。

借鉴心理学中治疗认知固着的两种方法：

Self-Distancing — 自我疏离（1 次调用）

心理学：换第三方视角审视自己的想法，打破自我锚定。

LLM 实现：让模型以第三人称旁观者角色审视对话中助手的回答，指出错误并重新作答。从“辩护者”变成“批评者”。

Incubation — 孵化（2 次调用）

心理学：遇到难题暂时放下，做别的事再回来，反而更易解决。

LLM 实现：将对话中所有助手回复替换为一句话摘要，让模型“远离”自己之前的详细回答，基于清理后的上下文重新生成。恢复至单轮的 85–86%。

局限：Incubation 是无差别替代所有助手回复——不区分有害/有用，不区分回复的角色和质量，且摘要只记录"讨论了什么"，不保留"为什么失败了"的判断。

Part 4 · 小结

竞争定位：一个尚未被占据的位置

训练时

修改模型，不改上下文

FiC、MAIGO 等 6 篇均选择训练模型去"抵抗"有害上下文。不改上下文 = 毒还在，只是模型更耐毒。需要训练数据 + GPU，绑定特定模型。

压缩/加权

缩短上下文，保留全部信息

MT-OSC、Rhea、SeDT 等。压缩 or 加权保留所有信息的浓缩版本。优化目标是效率（省 token），不是质量。有害信息的精华也被保留。

全量重构

丢弃一切，从头重来

ERGO、Cognitive Fixation。有效（+56.6%）但粗粒度——有用信息和教训也一并丢失，不区分内容的有害性。

选择性遗忘

选择性遗忘 — 空位

识别哪些内容有害（被取代的旧尝试、失败的探索路径），定向移除它们，保留有用信息和教训。以可靠性而非效率为优化目标。没有现有工作占据此位置。

Part 5 · Our Approach

Just Forget

选择性遗忘作为多轮对话退化的解药

Part 5

三条独立证据链汇聚到同一个结论

证据 1: Lost in Conversation

四个根因中两个直接指向自我污染：答案膨胀（旧错误叠加）、过早作答（假设锚定）。污染源是模型自己的输出，不是用户的话。论文终极建议"重开对话"= 全量遗忘。

证据 2: PI-LLM (Unable to Forget)

同一 key 的多次 value 更新，模型准确率对数线性跌向零。错误几乎全是检索到被覆盖的旧值。明确指示"忽略之前的输入"收效甚微。推理模型同样失败。

证据 3: 认知科学

人类遗忘曲线 = 对"未来需要什么"的最优贝叶斯估计（Anderson & Schooler）。事件边界处主动清空工作记忆（doorway effect）。人类的遗忘是 feature，LLM 的无限累积是缺陷。

被取代的信息留在上下文里就是毒，模型架构上没有"忽略"的能力——唯一出路是从上下文中物理移除。

Part 5

方法设计

把每个对话轮次当作节点，构建基于节点的遗忘机制。

三种遗忘类型

取代性遗忘 Supersession

新 answer attempt 出现 → 遗忘旧 attempt

对应根因：Premature Answering + Answer Bloat

情节性遗忘 Episodic

子目标完成 → 保留结论，遗忘过程

对应问题：已完成阶段的过程残留

死路遗忘 Dead-end

方案被用户否决 → 遗忘探索路径

对应根因：Over-verbosity

两个关键设计

判决式墓碑

遗忘后不留摘要，留判决——"尝试了 X，因 Y 失败，勿重试"。一句话负知识：丢掉污染，保留教训。

不对称遗忘

激进遗忘助手节点（污染源），保守保留用户节点（规格说明）。正反馈：遗忘使上下文变短 → lost-in-the-middle 效应减弱。

Part 5

示例：三种遗忘的组合与嵌套

场景：用 AI 助手调试 LoRA 微调脚本

T1 User

我的 LoRA 微调 loss 不下降

T2 Asst

建议把 learning rate 调到 1e-4，分析如下... (200 tokens)

T3 User

还是不行，loss 卡在 2.3

T4 Asst

改用 cosine scheduler + warmup 500 步... (350 tokens)

T5 User

要不试试全参数微调？

T6 Asst

全参微调 FSDP 配置如下... (400 tokens)

T7 User

加上 ZeRO Stage 3

T8 Asst

FSDP + ZeRO-3 配置更新... (500 tokens)

T9 User

算了，单卡 A100 放不下

T10 Asst

回到 LoRA，加 gradient checkpointing + bf16，loss 下降了 ✓

微调完成 · 情节性遗忘触发 · 保留结论，遗忘过程

T11 User

现在帮我写 evaluation 脚本

遗忘判断

取代性遗忘 · T1-T2

T4 新方案出现 → T2 被取代
墓碑：“lr 调整未解决 loss 问题”

取代性遗忘 · T3-T4

T10 最终方案 → T4 被取代
墓碑：“cosine sched 后被优化版取代”

死路遗忘 · T5-T9

用户否决 → 整条路径遗忘
墓碑：“全参微调，显存不足放弃”

内含嵌套取代：T6 被 T8 取代

情节性遗忘 · T1-T10

子目标完成 → 保留结论，遗忘过程
结论：“LoRA + ckpt + bf16，见 train.py”

遗忘后上下文

~2000 tokens → ~50 tokens
1 行结论 + 当前问题

Part 5

三个贡献

C1: Stale-Context Interference 的因果证明

在 sharded 对话中选择性物理移除特定类别的助手回复，对比不移除 / 随机移除 / 全量压缩。如果定向移除显著超过等量随机移除 → 因果证明"毒性"来自特定内容，而非上下文长度。

C2: Just Forget 机制

三个设计决策各有可辩护理由：遗忘分类法（精确对应已知根因）、判决式墓碑（保留教训丢掉污染）、不对称遗忘（对应污染来源的不对称性）。

C3: 受控实验证明 "What to forget > How much to forget"

Token 预算配平的消融：Just Forget vs 随机遗忘 vs FIFO vs Auto-compact vs SNOWBALL vs 新对话。同一 benchmark、同一指标、控制一个变量。

Part 5

实验设计

主实验：Lost in Conversation Benchmark

使用原论文 6 个任务、sharded 指令、P̄ / A⁹⁰ / U₁₀⁹⁰ 指标。实施取代性遗忘，目标：unreliability 恢复显著超过 SNOWBALL 的 15-20%。

扩展：Chained-Sharded

子目标或任务完成后继续对话。三种干扰条件：不相关 / 表面相似 / 确实相关。测试情节性遗忘（保留结论，遗忘过程）的效果。

消融矩阵

条件	删了什么	Token 预算
Just Forget	被取代的 attempts + 死路	~K
随机遗忘	随机等量内容	~K（配平）
FIFO	最早的内容	~K（配平）
Auto-compact	全局摘要	约等效压缩比
SNOWBALL	不删（加法）	0（增加）
无干预	不删	0
新对话	全删	全部

Part 5

预期结论

Just Forget >> 随机遗忘

"删什么比删多少重要"

Token 预算相同，但定向遗忘远优于随机 → 收益来自移除有害内容，而非缩短上下文。

Just Forget >> Auto-compact

"遗忘优于压缩"

压缩保留了错误信息的精华，遗忘直接移除污染源 → 范式性的差异。

Just Forget ≈ 新对话

"最小代价逼近重开"

新对话是全量遗忘（上界），Just Forget 以最小信息损失达到接近效果。

What to forget matters more than how much to forget.

Thank You

2026/06/22 · Runqing Xu