附录C:常用工具与框架
本附录按功能类别整理了 LLM 生态中最常用的工具与框架,供读者在实际项目中快速查阅和选型。
C.1 模型访问与推理
通过 API 或本地运行模型的基础工具。
| 工具 | 用途 | 适用场景 | 说明 |
|---|---|---|---|
| OpenAI API | 云端调用 GPT 系列模型 | 快速原型、生产应用 | REST API + 官方 Python/Node SDK,支持 Chat、Embeddings、Vision 等接口;按 token 计费,无需本地 GPU。 |
| Anthropic API | 云端调用 Claude 系列模型 | 长上下文任务、代码生成、安全敏感场景 | 支持最长 200K token 上下文,提供 Prompt Caching 大幅降低重复请求成本;官方 SDK 与 OpenAI SDK 接口风格相近。 |
| Google Gemini API | 云端调用 Gemini 系列模型 | 多模态任务、Google 生态集成 | 原生支持文本、图像、音频、视频多模态输入;通过 Google AI Studio 或 Vertex AI 两条路径访问。 |
| Hugging Face Transformers | 本地加载和运行开源模型 | 研究、私有化部署、模型定制 | pip install transformers 即可加载数万个开源模型;pipeline API 适合快速上手,AutoModelForCausalLM 适合精细控制。 |
| Ollama | 本地一键部署开源模型 | 开发者本地调试、无 GPU 服务器 | 将模型打包为类似 Docker 镜像的格式,ollama run llama3 一条命令即可运行;自带 OpenAI 兼容 API,方便切换。 |
| llama.cpp | CPU 推理,极低资源占用 | 边缘设备、无 GPU 环境、移动端 | 用 C++ 实现的高效推理引擎,支持 4-bit/8-bit 量化;7B 模型在普通笔记本 CPU 上可达每秒数 token 的速度。 |
:::tip 选型建议
- 快速验证想法 → OpenAI / Anthropic / Gemini API
- 数据不出内网 → Ollama(开发)或 vLLM(生产)
- 极低成本边缘部署 → llama.cpp :::
C.2 推理服务框架
面向生产环境的高性能推理服务,通常部署在 GPU 服务器上对外提供 API。
| 工具 | 用途 | 适用场景 | 说明 |
|---|---|---|---|
| vLLM | 高吞吐量生产推理服务 | 大规模并发、在线服务 | 核心创新是 PagedAttention(分页注意力),将 KV Cache 像操作系统内存页一样管理,显著提升并发吞吐;兼容 OpenAI API 格式。 |
| SGLang | 结构化生成与前缀缓存优化 | 复杂 prompt 模板、Agent 多轮调用 | 引入 RadixAttention,对共享前缀的 KV Cache 进行树状复用;附带 SGLang 编程语言,可在 Python 中直接描述生成逻辑。 |
| TGI (Text Generation Inference) | HuggingFace 官方推理服务 | 快速将 HF 模型部署为服务 | 支持 Continuous Batching、Flash Attention、Tensor Parallelism;与 HuggingFace Hub 深度集成,一行命令启动服务。 |
:::info 三者对比
- vLLM 通用性最强,社区最大,生产首选
- SGLang 在多轮对话、共享系统 prompt 场景下吞吐更高
- TGI 与 HuggingFace 生态结合最紧密,上手最快 :::
C.3 微调工具
在预训练模型基础上进行参数高效微调(PEFT)或全量微调的工具链。
| 工具 | 用途 | 适用场景 | 说明 |
|---|---|---|---|
| Hugging Face PEFT | LoRA / QLoRA 等参数高效微调 | 单卡或少卡微调大模型 | 官方支持 LoRA、Prefix Tuning、Prompt Tuning 等多种 PEFT 方法;与 transformers + trl 无缝集成,是最常见的微调起点。 |
| LLaMA-Factory | 多模型一站式微调平台 | 快速对比不同模型/方法 | 支持 100+ 模型、多种训练方式(SFT/DPO/RLHF),提供 WebUI 界面;配置文件驱动,适合快速实验。 |
| Axolotl | 高度可配置的训练框架 | 需要精细控制训练细节的研究者 | 基于 YAML 配置文件定义完整训练流程;支持 Flash Attention 2、多数据集混合、DeepSpeed/FSDP 分布式训练。 |
:::warning 资源要求 微调 7B 模型的最低配置:QLoRA 约需 16GB 显存,全量微调约需 80GB+ 显存(或多卡)。在动手之前务必评估硬件成本。 :::
C.4 应用开发框架
构建 LLM 应用(问答系统、Agent、RAG 等)的高层抽象框架。
| 工具 | 用途 | 适用场景 | 说明 |
|---|---|---|---|
| LangChain | 链式调用、工具集成、记忆管理 | 快速构建 LLM 应用原型 | 提供 Chain、Agent、Memory、Tool 等抽象;支持数十种 LLM 和向量数据库;社区生态极为丰富,但抽象层较厚,调试时需耐心。 |
| LlamaIndex | RAG 与文档索引 | 企业知识库、文档问答 | 专注于数据摄取(Data Ingestion)和检索增强生成;内置多种索引类型(向量索引、知识图谱、树形索引);与 LangChain 可组合使用。 |
| LangGraph | 有状态 Agent 图 | 复杂多步骤 Agent、人机协同流程 | 将 Agent 执行流程建模为有向图(节点 = 步骤,边 = 条件跳转),天然支持循环、分支和状态持久化;是 LangChain 官方推荐的 Agent 构建方式。 |
:::tip 框架选择
- 简单问答 / 工具调用 → LangChain 或直接调用 SDK
- 文档检索增强 → LlamaIndex
- 需要持久状态、多轮决策的复杂 Agent → LangGraph :::
C.5 评测工具
系统性评估模型能力的 benchmark 框架。
| 工具 | 用途 | 适用场景 | 说明 |
|---|---|---|---|
| lm-evaluation-harness | 标准 benchmark 自动化评测 | 复现论文结果、模型横向对比 | EleutherAI 出品,支持 60+ benchmark(MMLU、HellaSwag、ARC 等);是绝大多数开源模型论文中使用的评测标准工具。 |
| OpenCompass | 中文及综合能力评测 | 中文模型评测、国内竞品对比 | 上海 AI Lab 出品,覆盖 C-Eval、CMMLU、GSM8K 等中英文 benchmark;支持本地模型和 API 模型,提供排行榜服务。 |
C.6 可观测性
追踪、监控和调试 LLM 应用的工具,帮助理解模型行为和定位问题。
| 工具 | 用途 | 适用场景 | 说明 |
|---|---|---|---|
| LangSmith | LLM 应用追踪与调试 | LangChain 项目的全链路监控 | 自动记录每次 LLM 调用的输入/输出、延迟、token 消耗;支持 prompt 版本管理和 A/B 测试;与 LangChain / LangGraph 零配置集成。 |
| Phoenix (Arize AI) | 开源 LLM 应用监控与评估 | 生产环境质量监控、数据漂移检测 | 提供 Traces、Evals、Datasets 三位一体的可观测平台;支持 OpenTelemetry 标准,可与任意框架集成;本地部署或云端均可。 |
:::info 为什么可观测性重要 LLM 应用的失败往往不是报错,而是"输出质量悄悄变差"。可观测性工具让你能够系统性地发现这类问题,而不是等用户投诉。 :::
总结
| 类别 | 推荐入门工具 | 生产首选 |
|---|---|---|
| 模型访问 | Ollama(本地)/ OpenAI API(云端) | Anthropic API / Gemini API |
| 推理服务 | — | vLLM |
| 微调 | HF PEFT | LLaMA-Factory / Axolotl |
| 应用开发 | LangChain | LangGraph + LlamaIndex |
| 评测 | lm-evaluation-harness | OpenCompass(中文场景) |
| 可观测性 | LangSmith | Phoenix |
:::tip 学习路径建议 工具本身更新极快,但背后的核心概念(KV Cache、RAG、PEFT、Tracing)相对稳定。理解原理后,切换工具只是读文档的事。 :::