LLM Wiki v2 — 扩展 Karpathy 模式的生产实践
来源:Rohit G 的 Gist,基于 agentmemory(20K+ Stars)的生产经验
核心扩展点
1. 记忆生命周期(Memory Lifecycle)
原始模式把 wiki 内容视为同等有效且永远有效。实际上知识有生命周期:
- 置信度评分:每个事实带置信度(来源数量、最近确认时间、有无矛盾)
- 取代机制(Supersession):新信息显式取代旧信息,旧版本保留但标记为 stale
- 遗忘曲线:未被访问/强化的事实随时间淡出(基于 Ebbinghaus 曲线)
- 记忆分层:工作记忆 → 情景记忆 → 语义记忆 → 程序记忆,逐层压缩和提纯
2. 知识图谱(Knowledge Graph)
超越纯页面链接:
- 实体抽取:人物、项目、库、概念、文件、决策等结构化实体
- 类型化关系:
uses、depends_on、contradicts、supersedes等带有语义权重 - 图谱遍历查询:从 Redis 节点出发,沿
depends_on和uses边找出所有下游影响
3. 混合搜索(Hybrid Search)
当 wiki 超过 100-200 页面时,纯 index.md 不够用:
- BM25:关键词匹配 + 词干扩展 + 同义词
- Vector Search:语义相似度(Embeddings)
- Graph Traversal:实体感知的关系路径
- 三者用 RRF(Reciprocal Rank Fusion)融合排序
4. 自动化与事件驱动
- 新源到达时:自动 ingest、抽取实体、更新图谱和索引
- 会话开始时:基于最近活动加载相关上下文
- 会话结束时:压缩会话为观察,归档洞察
- 写入时:检查与现有知识的矛盾,触发取代机制
- 定时任务:定期 lint、整合、衰减
5. 质量与自愈
- 自愈 Lint:孤页自动链接或标记、陈旧声明标记、断裂交叉引用修复
- 矛盾解决:LLM 基于来源新旧、权威性、支持数量提议哪个更可能正确
- 质量评分:每个写入内容自我评估,低于阈值触发重写
6. 多 Agent 协作
- Mesh Sync:多 Agent 并行工作的观察合并
- 共享 vs 私有:作用域隔离
- 工作协调:轻量级任务跟踪
解决引用腐烂的方案
v2 针对"引用更新不到位"问题提供了三层机制:
| 层级 | 机制 | 说明 | |------|------|------| | 事前 | Supersession | 不删除,旧文件留 stub 指向新位置 | | 事后 | 自愈 Lint | 扫描断裂引用并自动修复 | | 基础设施 | 知识图谱 | 入边追踪:删节点时遍历所有引用者 |
与 knowbase 当前模式的关系
- 当前 knowbase 处于"Minimal Viable Wiki"阶段(raw + wiki pages + index.md + schema)
- v2 提出了明确的演进路径:加生命周期 → 加结构化 → 加自动化 → 加规模 → 加协作
- 最直接可落地的改进:删除时留 stub 和 check-links 脚本
参考
- 原始 Gist:LLM Wiki v2
- Karpathy 原版:LLM Wiki
- 站内:LLM Wiki 概念页 — Karpathy 原始模式