CodeGraph：本地代码语义知识图谱

CodeGraph 是由开发者 Colby McHenry 开发的一款本地化代码语义知识图谱工具。它主要通过 MCP（Model Context Protocol）为目前主流的 AI 编程代理（如 Claude Code, Cursor, Codex, Gemini, OpenCode 等）提供一个预先构建好的代码结构地图。

为什么需要 CodeGraph？（解决的痛点）

当 AI 编程助手面对中大型代码库时，通常需要缴纳高昂的“探索税（Exploration Tax）”。因为 AI 没有代码库的全局记忆，所以当你下达指令时，它们会不断使用 grep、find、ls 和 Read 等底层命令去翻找、阅读各种文件来摸清上下文。这个过程存在以下缺点：

消耗巨大：这些盲目的摸索过程会吞噬极多的 Token，并耗费大量时间。
记忆无法复用：每开启一个新会话，AI 又要重头把代码库搜索一遍。

CodeGraph 的理念是将整个代码库预先解析为“知识图谱”，提前理清符号关系、调用链路（Call Graphs）、代码结构和路由。当 AI 再需要阅读代码时，它可以直接调用图谱 API 拿到结果，实现 “更少的 Token 消耗、更少的工具调用、100% 本地化”。

核心特性

语义化解析 (Tree-sitter)：支持 20 多种主流编程语言，通过真实的 AST（抽象语法树）实现快速、增量式的代码解析，而非简单的文本匹配。
影响范围分析：能够精确梳理某个函数或变量的调用者（callers）和被调用者（callees），便于 AI 在修改代码前评估影响半径。
MCP 支持：原生内置了对多款支持 MCP 的 AI Agent 的兼容，如 Claude Code、Cursor、Gemini、Hermes Agent 等。
全本地化且安全：不会将你的代码上传到云端生成索引，所有解析和图谱存储（使用 SQLite+FTS5 等方案）均在本地执行。

Tree-sitter 介绍

Tree-sitter 是一个解析器生成工具和增量解析库（Incremental Parsing Library）。它的核心功能是为源代码构建具体的语法树（AST，Abstract Syntax Tree），并在用户编辑代码时，以极快的速度（通常在几毫秒内）更新这棵语法树。

核心特点：

增量解析（Incremental）：当代码发生修改时，Tree-sitter 不需要重新解析整个文件，而是只解析变动的部分。这使得它在击键时更新依然流畅无比。
极强的容错性（Robust）：在编写代码的过程中，代码常常处于“语法错误”的不完整状态。Tree-sitter 能够很好地处理这些错误，跳过错误部分，依然为正确的代码生成有效的语法树。
极高的性能与可移植性：核心库是用纯 C 语言编写的，零依赖，可以轻松嵌入到各种宿主程序中（如编辑器、IDE 或 WebAssembly 中）。
统一的查询接口：它提供了一种基于 S-表达式的查询语言，允许开发者快速在语法树中查找特定的代码结构（例如“查找所有的函数定义”）。

典型应用场景：

更精准的语法高亮：传统的语法高亮多基于正则表达式，容易出错且无法理解嵌套关系。Tree-sitter 基于真实的语法结构，可以实现极为精准的高亮（例如区分局部变量、全局变量、函数名、宏等）。
代码折叠与缩进：基于语法树节点自动决定哪里可以折叠、按回车时该缩进多少。
结构化编辑：例如“选中当前整个函数块”、“跳转到下一个类”。
代表编辑器：Neovim、Helix、Zed、Emacs、Atom（最初的创造者）。

Tree-sitter 与 LSP 表格总结对比

LSP (Language Server Protocol) 是微软推出的一种协议，用于编辑器和语言智能分析服务器之间的通信。虽然 Tree-sitter 和 LSP 都被现代编辑器用来增强写代码的体验，但它们的工作层次和原理完全不同，实际上是互补关系。

对比维度	Tree-sitter	LSP (Language Server Protocol)
核心定位	语法解析器 (Syntax Parser)	通信协议与语义引擎 (Semantic Engine)
关注点	“代码长什么样”（结构与词法）	“代码是什么意思”（逻辑与语义）
分析范围	通常局限于单个文件	纵观整个项目/工作区（Workspace）
工作架构	本地库，通常嵌入在编辑器进程中	客户端-服务端架构，通过进程间通信交互
性能与速度	极快（微秒/毫秒级），内存开销极小	较慢，依赖后端 Server 解析，可能占用大量 CPU 和内存
容错能力	极强，代码写错一半也能解析出 AST	取决于具体 Server 实现，严重语法错误时可能导致部分分析功能失效
主要功能	- 快速/精准的语法高亮 - 代码折叠、括号匹配 - 自动缩进、格式化基础 - 文件内的结构跳转（如跳到下一个函数）	- 智能代码补全（结合上下文、类型） - 跳转到定义 / 查找引用 - 全局变量重命名 (Refactoring) - 错误诊断提示 (Diagnostics)
编译器依赖	无需编译器环境，只需对应语言的 Parser	通常需要完整的编译环境、依赖库或包管理器支持

Tree-sitter 是编辑器的“眼睛”：它瞬间看懂代码的骨架，把关键字、变量名涂上不同颜色。
LSP 是编辑器的“大脑”：它默默在后台思考，告诉你这个变量是在哪里定义的，调用这个函数需要传什么参数。
现代编辑器的最佳实践是结合两者：用 Tree-sitter 做高亮和界面级别的渲染，用 LSP 做深度的代码分析和补全。

安装方法

环境要求：系统需安装 Node.js（推荐 v18.0 或更高版本）。

你可以通过以下几种方式进行安装：

方式一：通过 npm 全局安装（推荐）

bash

npm install -g @colbymchenry/codegraph

方式二：使用一键安装脚本

macOS / Linux:

bash

curl -fsSL https://raw.githubusercontent.com/colbymchenry/codegraph/main/install.sh | sh

Windows (PowerShell):

    
    powershell
  
irm https://raw.githubusercontent.com/colbymchenry/codegraph/main/install.ps1 | iex

方式三：npx 临时调用 如果不想安装到系统环境，也可以使用 npx 直接调用：

bash

npx @colbymchenry/codegraph

codegraph install --target=claude --yes

使用指南

在项目中应用 CodeGraph 非常简单，通常分为“初始化”和“构建索引”：

步骤 1：初始化项目

在终端中进入你需要进行 AI 开发的项目根目录，执行初始化：

    
    bash
  
cd your-project
codegraph init
# 或者使用交互式初始化：codegraph init -i

这将在项目内部做相关的配置工作，声明该仓库允许被 CodeGraph 纳管。

步骤 2：生成索引（Index）

接着执行建立索引的命令：

bash

codegraph index

或者某些使用场景下也可以运行 codegraph index .。这个步骤中，CodeGraph 会调用 Tree-sitter 并行解析你的代码库，建立函数地图与调用联系。当索引建立完成后，图谱信息会被保存在本地。

步骤 3：与 AI Agent 配合

当将 CodeGraph 作为一个 MCP Server 注册到 Claude Code、Cursor 或者 OpenCode 中之后，你的 AI 代理就相当于带上了一个高精度的雷达。当你再对 AI 说：“帮我分析一下订单处理模块的逻辑并在保存前加入校验”时，AI 会直接向本地 CodeGraph 发起调用：

找出所有处理订单相关的实体和方法。
直接拿到上游调用链条。

无需再乱用 grep 去碰运气，大幅提升了 AI Coding 的响应速度并削减了模型推理的 API 费用。