附录C：常用工具与框架

本附录按功能类别整理了 LLM 生态中最常用的工具与框架，供读者在实际项目中快速查阅和选型。

C.1 模型访问与推理

通过 API 或本地运行模型的基础工具。

工具	用途	适用场景	说明
OpenAI API	云端调用 GPT 系列模型	快速原型、生产应用	REST API + 官方 Python/Node SDK，支持 Chat、Embeddings、Vision 等接口；按 token 计费，无需本地 GPU。
Anthropic API	云端调用 Claude 系列模型	长上下文任务、代码生成、安全敏感场景	支持最长 200K token 上下文，提供 Prompt Caching 大幅降低重复请求成本；官方 SDK 与 OpenAI SDK 接口风格相近。
Google Gemini API	云端调用 Gemini 系列模型	多模态任务、Google 生态集成	原生支持文本、图像、音频、视频多模态输入；通过 Google AI Studio 或 Vertex AI 两条路径访问。
Hugging Face Transformers	本地加载和运行开源模型	研究、私有化部署、模型定制	`pip install transformers` 即可加载数万个开源模型；`pipeline` API 适合快速上手，`AutoModelForCausalLM` 适合精细控制。
Ollama	本地一键部署开源模型	开发者本地调试、无 GPU 服务器	将模型打包为类似 Docker 镜像的格式，`ollama run llama3` 一条命令即可运行；自带 OpenAI 兼容 API，方便切换。
llama.cpp	CPU 推理，极低资源占用	边缘设备、无 GPU 环境、移动端	用 C++ 实现的高效推理引擎，支持 4-bit/8-bit 量化；7B 模型在普通笔记本 CPU 上可达每秒数 token 的速度。

:::tip 选型建议

面向生产环境的高性能推理服务，通常部署在 GPU 服务器上对外提供 API。

工具	用途	适用场景	说明
vLLM	高吞吐量生产推理服务	大规模并发、在线服务	核心创新是 PagedAttention（分页注意力），将 KV Cache 像操作系统内存页一样管理，显著提升并发吞吐；兼容 OpenAI API 格式。
SGLang	结构化生成与前缀缓存优化	复杂 prompt 模板、Agent 多轮调用	引入 RadixAttention，对共享前缀的 KV Cache 进行树状复用；附带 SGLang 编程语言，可在 Python 中直接描述生成逻辑。
TGI (Text Generation Inference)	HuggingFace 官方推理服务	快速将 HF 模型部署为服务	支持 Continuous Batching、Flash Attention、Tensor Parallelism；与 HuggingFace Hub 深度集成，一行命令启动服务。

:::info 三者对比

在预训练模型基础上进行参数高效微调（PEFT）或全量微调的工具链。

工具	用途	适用场景	说明
Hugging Face PEFT	LoRA / QLoRA 等参数高效微调	单卡或少卡微调大模型	官方支持 LoRA、Prefix Tuning、Prompt Tuning 等多种 PEFT 方法；与 `transformers` + `trl` 无缝集成，是最常见的微调起点。
LLaMA-Factory	多模型一站式微调平台	快速对比不同模型/方法	支持 100+ 模型、多种训练方式（SFT/DPO/RLHF），提供 WebUI 界面；配置文件驱动，适合快速实验。
Axolotl	高度可配置的训练框架	需要精细控制训练细节的研究者	基于 YAML 配置文件定义完整训练流程；支持 Flash Attention 2、多数据集混合、DeepSpeed/FSDP 分布式训练。

:::warning 资源要求微调 7B 模型的最低配置：QLoRA 约需 16GB 显存，全量微调约需 80GB+ 显存（或多卡）。在动手之前务必评估硬件成本。 :::

构建 LLM 应用（问答系统、Agent、RAG 等）的高层抽象框架。

工具	用途	适用场景	说明
LangChain	链式调用、工具集成、记忆管理	快速构建 LLM 应用原型	提供 Chain、Agent、Memory、Tool 等抽象；支持数十种 LLM 和向量数据库；社区生态极为丰富，但抽象层较厚，调试时需耐心。
LlamaIndex	RAG 与文档索引	企业知识库、文档问答	专注于数据摄取（Data Ingestion）和检索增强生成；内置多种索引类型（向量索引、知识图谱、树形索引）；与 LangChain 可组合使用。
LangGraph	有状态 Agent 图	复杂多步骤 Agent、人机协同流程	将 Agent 执行流程建模为有向图（节点 = 步骤，边 = 条件跳转），天然支持循环、分支和状态持久化；是 LangChain 官方推荐的 Agent 构建方式。

:::tip 框架选择

系统性评估模型能力的 benchmark 框架。

工具	用途	适用场景	说明
lm-evaluation-harness	标准 benchmark 自动化评测	复现论文结果、模型横向对比	EleutherAI 出品，支持 60+ benchmark（MMLU、HellaSwag、ARC 等）；是绝大多数开源模型论文中使用的评测标准工具。
OpenCompass	中文及综合能力评测	中文模型评测、国内竞品对比	上海 AI Lab 出品，覆盖 C-Eval、CMMLU、GSM8K 等中英文 benchmark；支持本地模型和 API 模型，提供排行榜服务。

追踪、监控和调试 LLM 应用的工具，帮助理解模型行为和定位问题。

工具	用途	适用场景	说明
LangSmith	LLM 应用追踪与调试	LangChain 项目的全链路监控	自动记录每次 LLM 调用的输入/输出、延迟、token 消耗；支持 prompt 版本管理和 A/B 测试；与 LangChain / LangGraph 零配置集成。
Phoenix (Arize AI)	开源 LLM 应用监控与评估	生产环境质量监控、数据漂移检测	提供 Traces、Evals、Datasets 三位一体的可观测平台；支持 OpenTelemetry 标准，可与任意框架集成；本地部署或云端均可。

:::info 为什么可观测性重要 LLM 应用的失败往往不是报错，而是"输出质量悄悄变差"。可观测性工具让你能够系统性地发现这类问题，而不是等用户投诉。 :::

:::tip 学习路径建议工具本身更新极快，但背后的核心概念（KV Cache、RAG、PEFT、Tracing）相对稳定。理解原理后，切换工具只是读文档的事。 :::