什么是 LLM 可观测性？| GEO 术语表

LLM 可观测性是对生产级 LLM 应用进行埋点的实践，让团队能够看清模型在做什么、调试故障、衡量成本与延迟、检测质量漂移，并随时间推移评估输出。它是传统应用可观测性（日志、追踪和指标）在 LLM 时代的对应物，并针对同一输入可能产生不同输出的概率式系统作了调整。

为什么重要

传统的 Web 应用要么正常工作，要么抛出错误。而一个 LLM 应用可以“正常工作”（返回格式良好的响应），但答案却是错误的、跑题的、产生幻觉的、带偏见的，或者只是比昨天更差。没有可观测性，这些故障会一直隐而不现，直到用户投诉，而那时信任已经受损。2024–2025 年，LLM 可观测性发展成为一个独立品类，Langfuse、LangSmith、Helicone、Arize Phoenix、Weights & Biases Weave 和 Braintrust 等工具各自占据了一席之地。对任何在生产环境中运行 LLM 的团队而言，可观测性如今已是必备项，而非锦上添花。

应当埋点观测什么

追踪（Traces）：完整的执行路径，即单次请求中的每一个提示词、检索调用、工具调用和响应。让你能够回放智能体实际做了什么。

输入/输出配对：所发送的确切提示词和所收到的确切补全，按提示词模板进行版本化。

每次请求的成本：按模型计算的输入和输出的 token 数 × 价格。可按功能、用户或租户汇总。

延迟：首 token 时间、总补全时间，以及在每个子步骤上花费的时间。

错误与重试：限流错误、超时、工具调用失败、解析错误。

质量信号：用户的点赞/点踩、隐式信号（复制了输出、运行了代码、发送了消息），以及对近期输出的 LLM-as-judge 评分。

漂移：输出分布、答案质量或工具调用率随时间的变化，这往往是模型更新或提示词改动破坏了某些东西的最早信号。

它与传统可观测性有何不同

输出不是确定性的：同一输入，不同输出。指标必须把方差当作一等概念来处理。

成本是按 token 而非按请求计的：传统 APM 不知道 token 是什么。LLM 可观测性必须知道。

质量是主观的：你无法用一个简单的测试断言“输出正确”。评估需要人工评审、LLM 评判者或与标准答案的对比。

提示词就是代码：一次提示词改动就是一次部署。没有提示词版本管理，你就分不清是哪个版本产生了昨天的 bug。

多步链路很重要：大多数 LLM 应用都是流水线。你需要镜像调用图的嵌套追踪，而非扁平的日志。

工具链全景（2026）

Langfuse（开源）：以追踪为先的可观测性，集成评估、提示词管理和用户反馈。在自托管团队中很受欢迎。

LangSmith（LangChain）：与 LangChain 紧密集成。对已经采用该技术栈的团队很强大。

Helicone：轻量的基于代理的可观测性。一行代码即可集成，易于采用。

Arize Phoenix / Arize AX：源自 ML 可观测性领域，在漂移、嵌入和评估科学方面很强。

Braintrust：以评估为先的平台，适合希望将 LLM 开发当作实验工作流来对待的团队。

Weave（Weights & Biases）：将 WandB 的 ML 实验追踪延伸到 LLM 领域。

Datadog / New Relic LLM 监控：经典的 APM 厂商，新增了针对 LLM 的仪表板。

OpenTelemetry GenAI 语义约定：一个跨厂商的 LLM 追踪标准，在 2025–2026 年逐渐被采用。

需要关注什么

每个用户会话的成本：突然的激增通常意味着 bug（重试循环、失控的智能体），而非增长。

延迟 p95/p99：长尾会毁掉用户体验。最坏情况比平均值更重要。

评估分数漂移：在代表性提示词上每周做一次 LLM-as-judge 评分，能在提示词或模型改动后捕捉到悄然发生的回归。

主要失败模式：对错误进行分类，如被拒绝、产生幻觉、跑题、格式错误，这样你就知道该往哪里投入精力。

提示词版本表现：在不同提示词版本之间比较评估分数，以判断最新改动是有帮助还是有损害。

Token 分布：长响应会推高成本。意外的长尾往往表明提示词漂移或停止 token 损坏。

常见错误

只记录错误：LLM 会悄无声息地失败。也要记录成功案例，并附上足够的元数据以评估质量。

没有采样策略：在规模化场景下记录 100% 的请求成本高昂。请按用户分群、成本层级或近期改动进行智能采样。

没有把追踪与用户反馈关联起来：点踩需要能回溯到产生该输出的确切那条追踪。

按团队各自为政：产品、ML 和基础设施各自搭建自己的仪表板。统一的可观测性才是制胜之道。

忽视回归测试：“看起来没问题”是不够的。请构建一个回归评估集，并在每次提示词改动前运行它。

追逐厂商锁定：OpenTelemetry GenAI 约定让你只需埋点一次，日后即可更换可观测性厂商。

Sources: