【20240814更新细节】NextChat会话上下文记忆不连贯，原因探索。【已解决，附方法】

EDWINCHENC · 2024 年8 月 13 日 14:18

最近一直在多角度的测试不同模型的会话记忆能力，还是有挺多的发现，诚如部分大佬所说，例如：

即便携带了所需的上下文，但是模型就像不认得它一样，选择性无视
例如deepseek目前遵循系统system prompt比较弱，或者说时常无视，deepseek各群都有在反馈。
等等

今天又使用deepseek故意进行了超长的对话，但对话长度显然没有超出上下文128k的。突然发现它的记忆不连贯，断层。于是我就去控制台“监视每一轮对话携带的消息情况和ChatHistory保存情况”，有以下发现：

①第一次对话，正常携带2条会话记录

②第二次对话，正常携带4条会话记录

③继续对话…携带消息记录增加至7条（有一次响应失败，所以丢失一个assistant）

③此时chat history与请求携带的记录是同步的

④继续增加对话，请求携带的记录突然减到了4条！

④而此时，chat history中的记录仍然完整

⑤继续对话，发现请求无法完整携带chat history到messages中，数量缺失

⑥继续对话，chat history正常增加，但是请求messages很拘谨~~~~~~

最后补充一下，会话设置附带历史消息数我是拉的足够的，例如16条，20条都有尝试，并且取消了历史摘要防止干扰。

一直认为记忆丢失是大模型自身的问题（大部分情况确实是），但nextchat这种现象也是第一次发现，不知道是什么原因，在此请教，是不是我忽视了什么细节。

例如nextchat设定了上下文tokens总长度的一个自动裁剪的阈值？因为我的对话是比较长的，我测试过短小精悍的对话，似乎能携带10多条。
如果是以上原因，那就需要修改调优。让它完整携带chat history去请求对话
以上情况测试过多次，也有偶尔不丢失的情况。

@zhong_little @Cook_Sleep 求助

在佬友共同探讨下，确实是发现了nextchat 的历史问题或者说openai给出的小坑，如果想要正常的超长上下文会话，可以尝试修改项目的chat.ts文件，将get recent messages 部分的代码块进行如下修改即可：

// 获取最近消息的代码
const reversedRecentMessages = [];
for (
  let i = totalMessageCount - 1;
  i >= contextStartIndex;
  i -= 1
) {
  const msg = messages[i];
  if (!msg || msg.isError) continue;
  reversedRecentMessages.push(msg);
}

// 组合消息
const recentMessages = [
  ...systemPrompts,
  ...longTermMemoryPrompts,
  ...contextPrompts,
  ...reversedRecentMessages.reverse(),
];

return recentMessages;

修改后的代码，可以获取所有最近的消息，而不需要考虑token阈值。确保所有消息都被收集。

直接修改max_tokens可以应急，但不优雅。

2024年8月14日继续更新（关于claude模型会话过程中的报错，见楼层讨论）

CHEN:

今天早上就昨天的几点细节做了比较完整的测试，有以下结论可以基本上最大程度避免和claude聊着聊着就报错了：

预设提示词，可以放置一个system, 一个user，在最前面，或者只放一个user，这样携带历史消息时候user始终是顶在最前面的。

image446×246 8.01 KB

如果没有任何预设提示词，那么携带会话历史数量一定要设置为偶数，否则assistant就会顶到前面。通常也是建议携带会话历史数量为偶数。

使用claude模型时候，关闭历史摘要。

以上几点细节，基本能避免报错了。当然还有的根除的方法是根据 @zhong_little 的魔改方式修改openai.ts 对应代码。
// For claude model: roles must alternate between "user" and "assistant" in claude, so add a fake assistant message between two user messages
    const keys = ["system", "user"];
    if (options.config.model.includes("claude")){
      // 新的处理方式
      // 忽略所有不是 user 或 system 的开头消息
      while (messages.length > 0 && messages[0].role !== "user" && messages[0].role !== "system") {
        messages.shift();
      }

      // 如果第一条消息是 system，确保其后跟着的是 user 消息
      if (messages[0]?.role === "system") {
        let index = 1; // 从 system 后的第一条消息开始检查
        while (index < messages.length && messages[index].role !== "user") {
          messages.splice(index, 1); // 删除非 user 消息
        }
      }
      // 检查消息的顺序，添加或删除消息以确保 user 和 assistant 交替出现
      let i = 0;
      while (i < messages.length) {
        if (i < messages.length -1 && messages[i].role === messages[i + 1].role) {
          if (messages[i].role === "user") {
            // 插入一个含分号的 assistant 消息
            messages.splice(i + 1, 0, {
              role: "assistant",
              content: ";"
            });
            i++; // 跳过新插入的 assistant 消息
          } else if (messages[i].role === "assistant") {
            // 忽略前一条 assistant 消息
            messages.splice(i, 1);
            continue; // 由于数组长度减少，当前索引继续指向下一个待比较的元素
          }
        }
        i++; // 正常移动到下一个元素
      }
      while (messages.length > 0 && messages[messages.length - 1].role !== "user") {
        messages.pop(); // 删除非 user 消息
      }
    }
另外，似乎你只要保证最开始是system user assistant…这样的携带顺序，后续如果system user assistant user assistant user user user…中间穿插多个user也是不会报错的。不知道是不是源项目有优化过。

zhong_little · 2024 年8 月 13 日 14:27

nextchat 这个地方很操蛋，我是知道的，就是你猜测的，它设置了一个上下文 token 的自动裁剪阈值，并且这个阈值又很操蛋的使用了 max_token 这个变量（于是max_token 你设置大了影响模型回复，甚至报错，设小了又影响上下文，一切都要从gpt-3.5-turbo起的坏头说起），我自己二开的版本是把这个判断条件屏蔽掉了

Cook_Sleep · 2024 年8 月 13 日 14:29

不好意思哈，我已经很久很久没用NextChat了（）

EDWINCHENC · 2024 年8 月 13 日 14:32

无语，原来如此啊。那我去找一下去掉。
感觉得去pr一下
感谢！

zhong_little · 2024 年8 月 13 日 14:34

连作者都禁不住要吐槽这个参数

StellaFortuna · 2024 年8 月 13 日 14:35

我一直在用克劳德也是遇到这个问题
上面提到一个专辑名叫《数字梦境》
此时已经对话了六轮现在让他给这个专辑写一个简介
他就原创了一个和原文有关系但不大的《四季交织》专辑的简介…

bbb · 2024 年8 月 13 日 14:35

nextchat设置里的 单次回复限制 改大能解决吗

EDWINCHENC · 2024 年8 月 13 日 14:36

那他为啥子要把上下文携带的tokens阈值和max_token 这个变量关联呀

StellaFortuna · 2024 年8 月 13 日 14:36

这个我一直开的是51万2千反正不是我自己的
不过克劳德本身就有输出上限好像达不到1万

zhong_little · 2024 年8 月 13 日 14:37

有些模型会验证 max_token 不能超过 4096（前面提到的可能会报错就是这个原因），所以调整这个参数只能缓解，不能根本性解决问题

bbb · 2024 年8 月 13 日 14:37

寄

zhong_little · 2024 年8 月 13 日 14:38

因为 gpt-3.5-turbo 刚开始的上下文只有 4k，那时候 max_token 是用来限制上下文+回复token的，后来才变成最大回复限制

bbb · 2024 年8 月 13 日 14:39

好奇作者什么时候能把这玩意改了

zhong_little · 2024 年8 月 13 日 14:40

取决于模型会不会验证这个参数，不检验该参数的模型就无所谓

EXXD · 2024 年8 月 13 日 14:41

API模式的对话是不是都得带上原聊天记录才能保持记忆？

zhong_little · 2024 年8 月 13 日 14:41

不是作者改了，是 openai 改了，nextchat 适配 3.5 后就没修这个问题了

zhong_little · 2024 年8 月 13 日 14:42

是的，所以上下文滚动计算很吃 token 的

bbb · 2024 年8 月 13 日 14:42

我意思是nextchat作者什么时候能把这判断条件改了，真的很坑爹啊

Thousand_Star · 2024 年8 月 13 日 14:42

有什么比较推荐的吗

EDWINCHENC · 2024 年8 月 13 日 14:42

至少openai是这样的，也有一些api是能自动保存会话的，在一个统一的conversation id里。有auto save history参数。但是一般手动管理，更灵活。

话题		回复	浏览量
shared站点下怎么加载进去已保存的上下文对话运营反馈 ChatGPT , SharedChat , 人工智能	7	263	2024 年9 月 30 日
总结一些AI的chat经验开发调优人工智能	22	792	2024 年12 月 25 日
很抱歉，在关闭历史聊天记录的情况下，如果 6 小****请开始新的对话以继续使用 ChatGPT。运营反馈	7	313	2024 年6 月 23 日
有关chat2api普通号无限4o 开发调优 Chat2API , 人工智能 , 快问快答	58	2293	2024 年12 月 16 日
给大家介绍一个AI女朋友，自己捏的资源荟萃人工智能	31	793	2024 年12 月 24 日