2026/06/22 · Runqing Xu
从 2022 年 ChatGPT 发布至今,对话式 AI 已发展为覆盖数十亿用户的基础设施。
核心观察 — 对话是用户表达需求、迭代想法、协作完成任务的基本方式。然而学术评测几乎全在单轮设定下进行。
学术 benchmark 几乎全部是 single-turn, fully-specified 设定。
| Benchmark | 领域 | 设定 | 状态 |
|---|---|---|---|
| MMLU / MMLU-Pro | 知识推理 | 单轮 | 已饱和 (>90%) |
| HumanEval | 代码生成 | 单轮 | 已饱和 |
| GSM8K | 数学推理 | 单轮 | 已饱和 (~99%) |
| GPQA-Diamond | 科学推理 | 单轮 | 活跃 |
| SWE-Bench Verified | 软件工程 | 单轮 | 活跃 |
| MT-Bench | 多轮对话 | 2 轮 / Episodic | 已饱和 |
每轮是独立子任务,可单独评测。
例:“写个故事” → “改成第一人称”
本质上是多个单轮的串联。每轮指令完整指定。
信息跨轮逐步披露,需跨轮融合。
例:“写个函数” → “处理 JSON” → “这几个字段”
新信息可能推翻早期假设。每轮指令不完整。
Herlihy et al. (UAI 2024) — 真实人机对话中 underspecification 极为普遍。然而现有多轮 benchmark 几乎全采用 episodic 设定,系统性地高估了 LLM 的多轮能力。
| 方法类别 | 核心思路 | 代表工作 | 优化目标 |
|---|---|---|---|
| 扩展窗口 | 更长的 context window | Gemini 2M, Llama 4 Scout | 容量 |
| 压缩 / 摘要 | 压缩为更短表示 | Auto-compact, Mt-osc | 效率 |
| 外部存储 | 存入外部 memory | MemGPT, RAG | 容量 + 检索 |
| 剪枝 / 截断 | 移除不重要的 token | LLMLingua, Provence | 效率 |
这些方法共享同一个优化方向:如何在有限窗口中装下更多有用信息。但它们没有回答另一个问题 — 上下文中已有的信息,是否都还值得保留?
被取代的旧方案、已完成任务的中间过程、被否决的探索路径 — 这些内容不仅占用空间,更可能主动干扰模型对当前任务的推理。这不是“空间不够”的问题,而是上下文质量的问题。
Philippe Laban* · Hiroaki Hayashi*
Yingbo Zhou* · Jennifer Neville
Microsoft Research & Salesforce Research
退化不是能力不足(Aptitude 仅降 16%),而是可靠性崩塌(Unreliability 翻倍)。模型不是“不会做”,而是“有时做对有时做错”。
将完整单轮指令拆分为原子化的 shard,模拟用户逐步说清需求的过程。
Jay is making snowballs to prepare for a snowball fight with his sister. He can build 20 snowballs in an hour, but 2 melt every 15 minutes. How long will it take before he has 60 snowballs?
Shard 1: How long before Jay's ready for the snowball fight?
Shard 2: He's preparing for a fight with his sister.
Shard 3: He can make 20 snowballs per hour.
Shard 4: He's trying to get to 60 total.
Shard 5: 2 melt every 15 minutes.
| 模拟类型 | 轮次 | 信息揭示 | 目的 |
|---|---|---|---|
| FULL | 单轮 | 原始完整指令 | 基线 |
| CONCAT | 单轮 | 全部 shard 拼接 | 排除改写因素 |
| SHARDED | 多轮 | 每轮最多 1 个 shard | 主实验 |
| RECAP | 多轮+末轮复述 | 同 SHARDED + 末轮全复述 | 缓解策略 |
| SNOWBALL | 多轮+逐轮累积 | 每轮新 shard + 重述旧 shard | 缓解策略 |
覆盖编程(Code, Database, Actions)和自然语言(Math, Data-to-text, Summary)两大类,每个任务 90–120 条分片指令,共 600 条。
| Model | P̄ (FULL) | P̄ (CONCAT) | P̄ (SHARDED) | 多轮退化幅度 |
|---|---|---|---|---|
| Gemini 2.5 Pro | 95.0 | 95.1 | 61.2 | ↓ 35.5% |
| GPT-4.1 | 93.8 | 91.9 | 58.0 | ↓ 38.2% |
| Claude 3.7 Sonnet | 90.8 | 91.2 | 59.8 | ↓ 34.1% |
| o3 (reasoning) | 89.4 | 87.7 | 57.3 | ↓ 35.9% |
| DeepSeek-R1 (reasoning) | 87.9 | 91.1 | 53.4 | ↓ 39.2% |
| GPT-4o | 88.2 | 83.4 | 51.1 | ↓ 42.1% |
| Llama 3.3-70B | 85.6 | 79.7 | 55.0 | ↓ 35.8% |
| Llama 3.1-8B | 53.7 | 49.2 | 33.6 | ↓ 37.5% |
CONCAT ≈ FULL(平均保持 95.1%)→ 分片改写不丢失信息。SHARDED 的退化完全来自多轮欠规约本身。推理模型(o3, R1)同样退化 35–39%,额外 thinking tokens 无法解决多轮问题。
更强的模型更可靠
Aptitude ↑ ⇒ Unreliability ↓
GPT-4.1 和 Gemini 2.5 Pro 同时拥有最高 aptitude 和最低 unreliability。
所有模型同样不可靠
Aptitude 仅降 16%
Unreliability 飙升 112%
最佳与最差模拟的差距平均达 ~50 分。模型能力还在,但输出质量高度不稳定。
P̄ 的大幅下降主要归因于 Unreliability 的飙升,而非 Aptitude 的下降。模型不是"不会做",而是"有时做对有时做错"——走错一步就再也回不来。
固定任务难度,仅变分片粒度(2–8 shards)。
从 2-shard(两轮)开始,退化就已触发。
更多 shard 不会显著加剧退化。
一次性提供所有信息是唯一有效的可靠性保障。
单轮:T=0 降 Unreliability 50–80%
多轮:即使 T=0(assistant + user 都为 0),仍残留 U ≈ 30%
早期一个 token 的偏差在多轮中级联放大,温度无法控制这种结构性不稳定。
四个根因共同指向一个结论:模型被自己早期生成的(错误)输出所锚定,无法根据后续新信息自我纠正。
| Model | FULL | SHARDED | RECAP | SNOWBALL |
|---|---|---|---|---|
| GPT-4o-mini | 86.8 | 50.4 | 66.5 | 61.8 |
| GPT-4o | 93.0 | 59.1 | 76.6 | 65.3 |
论文对用户的终极建议:“重开对话” — 让 LLM 先整合信息,再带到新对话中。Cursor 社区经验证实了这一策略。
基于 Google Scholar 引用数据的数据驱动分析
46% 引用论文自身零被引 → 大量全新工作仍在涌入
共同思路:修改模型权重,让模型学会在多轮中保持一致性。需要训练数据、GPU 时间,且绑定特定模型。
不改模型权重,模型无关。但切入角度各异——
10 篇推理时方法的共同特点:要么无差别压缩整个历史(Mt-osc, SOMA),要么全量重置(ERGO),要么加权保留(SeDT, Rhea)——都是在决定"保留什么"。
没有一篇反过来问:应该主动丢弃什么? 被取代的旧方案、已完成的中间过程、被否决的探索路径——这些内容是否应该从上下文中移除?
16 篇直接竞品逐一概览
Chen et al. · The University of Hong Kong · arXiv 2026
提出 Contextual Inertia:模型刚性遵循先前推理轨迹,70–90% 多轮错误源于此。用模型自身单轮能力作为 RL 锚点奖励打破惯性。Qwen3-4B 上 0.652 → 0.784,跨域泛化。
Chen, Wu, Leskovec · Stanford University · arXiv 2026
View-Asymmetric Self-Distillation:用模型自身单轮表现作教师,教导多轮表现。先 SFT 学会 defer,再 VASD 关闭 gap。恢复 92–100% 单轮性能。声称 4 种推理时干预均失败。
Zheng et al. · Zhejiang University / Shanghai AI Lab / Tencent · arXiv 2026
诊断 self-contamination:中间轮 assistant 回复携带早期偏差进入后续上下文。用 history-cleaned reference 做 on-policy self-distillation。Qwen2.5-7B SHARDED 52.8 → 66.1。
Lin et al. · Zhejiang University / USTC · arXiv 2026
诊断 self-anchored drift。用冻结 FULL teacher 对 SHARDED student 做 token 级 reverse KL 蒸馏。仅 6K 数学数据 + LoRA(0.53% 参数)即跨 6 类任务提升 32%。
M. Li · University of Maryland / Amazon · arXiv 2025
核心洞察:多轮退化与模型无法弃权有关。课程 RL + 可验证奖励 + 弃权奖励,训练模型在信息不足时说“我还不能回答”。Qwen3-8B LiC score 62.6% → 75.1%。
Luo et al. · University of Melbourne / University of Tokyo · arXiv 2026
训练模型维护 256-token 滚动记忆缓冲区替代全部历史。低成本 sharding pipeline + multi-turn DAPO。关键发现:memory-trained 模型即使给全量历史也优于 full-history baseline。
Khalid et al. · Algoverse AI Research · 2025
监控 Shannon entropy,entropy 突破阈值时触发全量 prompt 重构——合并所有用户输入为单轮重新生成。平均提升 56.6%,大幅超越 SNOWBALL/RECAP。
Liu et al. · City University of Hong Kong / CAS · arXiv 2026
LiC 归因于 pragmatic alignment gap(用户意图 vs 模型理解)。Mediator-Assistant 架构:Mediator 用经验指南将模糊多轮上下文重写为显式单轮指令。平均恢复 ~20%。
Lei et al. · East China Normal University · arXiv 2025
增量构建 OWL 知识图谱作为动态记忆 + Reasoning Tree(beam-search 图遍历)做显式推理。MT-Bench-101 上 Dialogue Entailment Rate 提升 48–84%。
Singh et al. · Oracle AI · arXiv 2026
One-off Sequential Condensation:后台异步渐进式压缩对话历史。Few-shot Condenser + rule-based Decider。10 轮对话 token 减少 72%,13 个 LLM 一致保持或提升性能。
Hong et al. · National University of Defense Technology · arXiv 2025
对话历史解耦为 Instructional Memory(持久全局约束)+ Episodic Memory(dual-LoRA 压缩交互历史)。三层启发式检索。Long-MT-Bench+ 上 +16.4%,仅 6.5% 延迟增加。
Hu et al. · Shandong University · arXiv 2026
对话历史建模为动态树森林(话题树 + 分支)。轻量模型做话题/分支决策,上下文 = 活跃路径全文 + 非活跃路径摘要。Token 减少 45–52%,TCR 提升 3–10%。
Setti et al. · IIT Mandi / UPES · arXiv 2026
借鉴离线 RL 的 return-to-go conditioning:为每个 shard 标注累积相关性分数(语义 + 词法 + 位置)。Training-free,LiC benchmark 上 9/9 组合均提升,最高 +37.7%。
Cheng et al. · Florida State / AT&T / Vanderbilt · arXiv 2026
利用多轮对话长尾 token 分布(右图),用小模型在会话内局部近似大模型(soft prompt mining + LoRA)。5+ 轮后省成本,13+ 轮省 37% token,93.1% 响应相似度。
论文无架构图,右图为核心 motivating observation:后续轮次 token 量呈长尾分布。
Gwon et al. · ETRI, South Korea · ICASSP 2026
认知心理学视角:模型产生认知固着。Self-Distancing(第三人称批判,1 次调用)+ Incubation(摘要替代全部助手回复,2 次调用)。恢复至单轮的 85–86%。
Nanjundappa et al. · Northeastern University · arXiv 2025
版本控制语义(checkpoint / branch / switch / inject)应用于 LLM 对话。分支隔离防止上下文污染。质量 +2.5%(d=0.73),上下文减少 58%。900 行 Python SDK。
选择性遗忘作为多轮对话退化的解药
被取代的信息留在上下文里就是毒,模型架构上没有"忽略"的能力——唯一出路是从上下文中物理移除。
把每个对话轮次当作节点,构建基于节点的遗忘机制。
遗忘后不留摘要,留判决——"尝试了 X,因 Y 失败,勿重试"。一句话负知识:丢掉污染,保留教训。
激进遗忘助手节点(污染源),保守保留用户节点(规格说明)。正反馈:遗忘使上下文变短 → lost-in-the-middle 效应减弱。
使用原论文 6 个任务、sharded 指令、P̄ / A90 / U1090 指标。实施取代性遗忘,目标:unreliability 恢复显著超过 SNOWBALL 的 15-20%。
任务 A 完成后直接做任务 B。三种干扰条件:不相关 / 表面相似 / 确实相关。测试情节性遗忘 + 验证跨任务污染的存在性。
| 条件 | 删了什么 | Token 预算 |
|---|---|---|
| Just Forget | 被取代的 attempts + 死路 | ~K |
| 随机遗忘 | 随机等量内容 | ~K(配平) |
| FIFO | 最早的内容 | ~K(配平) |
| Auto-compact | 全局摘要 | 约等效压缩比 |
| SNOWBALL | 不删(加法) | 0(增加) |
| 无干预 | 不删 | 0 |
| 新对话 | 全删 | 全部 |
What to forget matters more than how much to forget.
2026/06/22 · Runqing Xu