李纪

AI 产品 · 游戏开发

LLM Wiki v2 — 扩展 Karpathy 模式的生产实践

来源:Rohit G 的 Gist,基于 agentmemory(20K+ Stars)的生产经验

核心扩展点

1. 记忆生命周期(Memory Lifecycle)

原始模式把 wiki 内容视为同等有效且永远有效。实际上知识有生命周期:

  • 置信度评分:每个事实带置信度(来源数量、最近确认时间、有无矛盾)
  • 取代机制(Supersession):新信息显式取代旧信息,旧版本保留但标记为 stale
  • 遗忘曲线:未被访问/强化的事实随时间淡出(基于 Ebbinghaus 曲线)
  • 记忆分层:工作记忆 → 情景记忆 → 语义记忆 → 程序记忆,逐层压缩和提纯

2. 知识图谱(Knowledge Graph)

超越纯页面链接:

  • 实体抽取:人物、项目、库、概念、文件、决策等结构化实体
  • 类型化关系usesdepends_oncontradictssupersedes 等带有语义权重
  • 图谱遍历查询:从 Redis 节点出发,沿 depends_onuses 边找出所有下游影响

3. 混合搜索(Hybrid Search)

当 wiki 超过 100-200 页面时,纯 index.md 不够用:

  • BM25:关键词匹配 + 词干扩展 + 同义词
  • Vector Search:语义相似度(Embeddings)
  • Graph Traversal:实体感知的关系路径
  • 三者用 RRF(Reciprocal Rank Fusion)融合排序

4. 自动化与事件驱动

  • 新源到达时:自动 ingest、抽取实体、更新图谱和索引
  • 会话开始时:基于最近活动加载相关上下文
  • 会话结束时:压缩会话为观察,归档洞察
  • 写入时:检查与现有知识的矛盾,触发取代机制
  • 定时任务:定期 lint、整合、衰减

5. 质量与自愈

  • 自愈 Lint:孤页自动链接或标记、陈旧声明标记、断裂交叉引用修复
  • 矛盾解决:LLM 基于来源新旧、权威性、支持数量提议哪个更可能正确
  • 质量评分:每个写入内容自我评估,低于阈值触发重写

6. 多 Agent 协作

  • Mesh Sync:多 Agent 并行工作的观察合并
  • 共享 vs 私有:作用域隔离
  • 工作协调:轻量级任务跟踪

解决引用腐烂的方案

v2 针对"引用更新不到位"问题提供了三层机制:

| 层级 | 机制 | 说明 | |------|------|------| | 事前 | Supersession | 不删除,旧文件留 stub 指向新位置 | | 事后 | 自愈 Lint | 扫描断裂引用并自动修复 | | 基础设施 | 知识图谱 | 入边追踪:删节点时遍历所有引用者 |

与 knowbase 当前模式的关系

  • 当前 knowbase 处于"Minimal Viable Wiki"阶段(raw + wiki pages + index.md + schema)
  • v2 提出了明确的演进路径:加生命周期 → 加结构化 → 加自动化 → 加规模 → 加协作
  • 最直接可落地的改进:删除时留 stubcheck-links 脚本

参考