跳到主要内容

附录C:常用工具与框架

本附录按功能类别整理了 LLM 生态中最常用的工具与框架,供读者在实际项目中快速查阅和选型。


C.1 模型访问与推理

通过 API 或本地运行模型的基础工具。

工具用途适用场景说明
OpenAI API云端调用 GPT 系列模型快速原型、生产应用REST API + 官方 Python/Node SDK,支持 Chat、Embeddings、Vision 等接口;按 token 计费,无需本地 GPU。
Anthropic API云端调用 Claude 系列模型长上下文任务、代码生成、安全敏感场景支持最长 200K token 上下文,提供 Prompt Caching 大幅降低重复请求成本;官方 SDK 与 OpenAI SDK 接口风格相近。
Google Gemini API云端调用 Gemini 系列模型多模态任务、Google 生态集成原生支持文本、图像、音频、视频多模态输入;通过 Google AI Studio 或 Vertex AI 两条路径访问。
Hugging Face Transformers本地加载和运行开源模型研究、私有化部署、模型定制pip install transformers 即可加载数万个开源模型;pipeline API 适合快速上手,AutoModelForCausalLM 适合精细控制。
Ollama本地一键部署开源模型开发者本地调试、无 GPU 服务器将模型打包为类似 Docker 镜像的格式,ollama run llama3 一条命令即可运行;自带 OpenAI 兼容 API,方便切换。
llama.cppCPU 推理,极低资源占用边缘设备、无 GPU 环境、移动端用 C++ 实现的高效推理引擎,支持 4-bit/8-bit 量化;7B 模型在普通笔记本 CPU 上可达每秒数 token 的速度。

:::tip 选型建议

  • 快速验证想法 → OpenAI / Anthropic / Gemini API
  • 数据不出内网 → Ollama(开发)或 vLLM(生产)
  • 极低成本边缘部署 → llama.cpp :::

C.2 推理服务框架

面向生产环境的高性能推理服务,通常部署在 GPU 服务器上对外提供 API。

工具用途适用场景说明
vLLM高吞吐量生产推理服务大规模并发、在线服务核心创新是 PagedAttention(分页注意力),将 KV Cache 像操作系统内存页一样管理,显著提升并发吞吐;兼容 OpenAI API 格式。
SGLang结构化生成与前缀缓存优化复杂 prompt 模板、Agent 多轮调用引入 RadixAttention,对共享前缀的 KV Cache 进行树状复用;附带 SGLang 编程语言,可在 Python 中直接描述生成逻辑。
TGI (Text Generation Inference)HuggingFace 官方推理服务快速将 HF 模型部署为服务支持 Continuous Batching、Flash Attention、Tensor Parallelism;与 HuggingFace Hub 深度集成,一行命令启动服务。

:::info 三者对比

  • vLLM 通用性最强,社区最大,生产首选
  • SGLang 在多轮对话、共享系统 prompt 场景下吞吐更高
  • TGI 与 HuggingFace 生态结合最紧密,上手最快 :::

C.3 微调工具

在预训练模型基础上进行参数高效微调(PEFT)或全量微调的工具链。

工具用途适用场景说明
Hugging Face PEFTLoRA / QLoRA 等参数高效微调单卡或少卡微调大模型官方支持 LoRA、Prefix Tuning、Prompt Tuning 等多种 PEFT 方法;与 transformers + trl 无缝集成,是最常见的微调起点。
LLaMA-Factory多模型一站式微调平台快速对比不同模型/方法支持 100+ 模型、多种训练方式(SFT/DPO/RLHF),提供 WebUI 界面;配置文件驱动,适合快速实验。
Axolotl高度可配置的训练框架需要精细控制训练细节的研究者基于 YAML 配置文件定义完整训练流程;支持 Flash Attention 2、多数据集混合、DeepSpeed/FSDP 分布式训练。

:::warning 资源要求 微调 7B 模型的最低配置:QLoRA 约需 16GB 显存,全量微调约需 80GB+ 显存(或多卡)。在动手之前务必评估硬件成本。 :::


C.4 应用开发框架

构建 LLM 应用(问答系统、Agent、RAG 等)的高层抽象框架。

工具用途适用场景说明
LangChain链式调用、工具集成、记忆管理快速构建 LLM 应用原型提供 Chain、Agent、Memory、Tool 等抽象;支持数十种 LLM 和向量数据库;社区生态极为丰富,但抽象层较厚,调试时需耐心。
LlamaIndexRAG 与文档索引企业知识库、文档问答专注于数据摄取(Data Ingestion)和检索增强生成;内置多种索引类型(向量索引、知识图谱、树形索引);与 LangChain 可组合使用。
LangGraph有状态 Agent 图复杂多步骤 Agent、人机协同流程将 Agent 执行流程建模为有向图(节点 = 步骤,边 = 条件跳转),天然支持循环、分支和状态持久化;是 LangChain 官方推荐的 Agent 构建方式。

:::tip 框架选择

  • 简单问答 / 工具调用 → LangChain 或直接调用 SDK
  • 文档检索增强 → LlamaIndex
  • 需要持久状态、多轮决策的复杂 Agent → LangGraph :::

C.5 评测工具

系统性评估模型能力的 benchmark 框架。

工具用途适用场景说明
lm-evaluation-harness标准 benchmark 自动化评测复现论文结果、模型横向对比EleutherAI 出品,支持 60+ benchmark(MMLU、HellaSwag、ARC 等);是绝大多数开源模型论文中使用的评测标准工具。
OpenCompass中文及综合能力评测中文模型评测、国内竞品对比上海 AI Lab 出品,覆盖 C-Eval、CMMLU、GSM8K 等中英文 benchmark;支持本地模型和 API 模型,提供排行榜服务。

C.6 可观测性

追踪、监控和调试 LLM 应用的工具,帮助理解模型行为和定位问题。

工具用途适用场景说明
LangSmithLLM 应用追踪与调试LangChain 项目的全链路监控自动记录每次 LLM 调用的输入/输出、延迟、token 消耗;支持 prompt 版本管理和 A/B 测试;与 LangChain / LangGraph 零配置集成。
Phoenix (Arize AI)开源 LLM 应用监控与评估生产环境质量监控、数据漂移检测提供 Traces、Evals、Datasets 三位一体的可观测平台;支持 OpenTelemetry 标准,可与任意框架集成;本地部署或云端均可。

:::info 为什么可观测性重要 LLM 应用的失败往往不是报错,而是"输出质量悄悄变差"。可观测性工具让你能够系统性地发现这类问题,而不是等用户投诉。 :::


总结

类别推荐入门工具生产首选
模型访问Ollama(本地)/ OpenAI API(云端)Anthropic API / Gemini API
推理服务vLLM
微调HF PEFTLLaMA-Factory / Axolotl
应用开发LangChainLangGraph + LlamaIndex
评测lm-evaluation-harnessOpenCompass(中文场景)
可观测性LangSmithPhoenix

:::tip 学习路径建议 工具本身更新极快,但背后的核心概念(KV Cache、RAG、PEFT、Tracing)相对稳定。理解原理后,切换工具只是读文档的事。 :::