GEO

LLM 可观测性

LLM 可观测性是对生产级 LLM 应用进行埋点的实践,让团队能够看清模型在做什么、调试故障、衡量成本与延迟、检测质量漂移,并随时间推移评估输出。它是传统应用可观测性(日志、追踪和指标)在 LLM 时代的对应物,并针对同一输入可能产生不同输出的概率式系统作了调整。

LLM 可观测性是对生产级 LLM 应用进行埋点的实践,让团队能够看清模型在做什么、调试故障、衡量成本与延迟、检测质量漂移,并随时间推移评估输出。它是传统应用可观测性(日志、追踪和指标)在 LLM 时代的对应物,并针对同一输入可能产生不同输出的概率式系统作了调整。

为什么重要

传统的 Web 应用要么正常工作,要么抛出错误。而一个 LLM 应用可以“正常工作”(返回格式良好的响应),但答案却是错误的、跑题的、产生幻觉的、带偏见的,或者只是比昨天更差。没有可观测性,这些故障会一直隐而不现,直到用户投诉,而那时信任已经受损。2024–2025 年,LLM 可观测性发展成为一个独立品类,Langfuse、LangSmith、Helicone、Arize Phoenix、Weights & Biases Weave 和 Braintrust 等工具各自占据了一席之地。对任何在生产环境中运行 LLM 的团队而言,可观测性如今已是必备项,而非锦上添花。

应当埋点观测什么

追踪(Traces):完整的执行路径,即单次请求中的每一个提示词、检索调用、工具调用和响应。让你能够回放智能体实际做了什么。

输入/输出配对:所发送的确切提示词和所收到的确切补全,按提示词模板进行版本化。

每次请求的成本:按模型计算的输入和输出的 token 数 × 价格。可按功能、用户或租户汇总。

延迟:首 token 时间、总补全时间,以及在每个子步骤上花费的时间。

错误与重试:限流错误、超时、工具调用失败、解析错误。

质量信号:用户的点赞/点踩、隐式信号(复制了输出、运行了代码、发送了消息),以及对近期输出的 LLM-as-judge 评分。

漂移:输出分布、答案质量或工具调用率随时间的变化,这往往是模型更新或提示词改动破坏了某些东西的最早信号。

它与传统可观测性有何不同

输出不是确定性的:同一输入,不同输出。指标必须把方差当作一等概念来处理。

成本是按 token 而非按请求计的:传统 APM 不知道 token 是什么。LLM 可观测性必须知道。

质量是主观的:你无法用一个简单的测试断言“输出正确”。评估需要人工评审、LLM 评判者或与标准答案的对比。

提示词就是代码:一次提示词改动就是一次部署。没有提示词版本管理,你就分不清是哪个版本产生了昨天的 bug。

多步链路很重要:大多数 LLM 应用都是流水线。你需要镜像调用图的嵌套追踪,而非扁平的日志。

工具链全景(2026)

Langfuse(开源):以追踪为先的可观测性,集成评估、提示词管理和用户反馈。在自托管团队中很受欢迎。

LangSmith(LangChain):与 LangChain 紧密集成。对已经采用该技术栈的团队很强大。

Helicone:轻量的基于代理的可观测性。一行代码即可集成,易于采用。

Arize Phoenix / Arize AX:源自 ML 可观测性领域,在漂移、嵌入和评估科学方面很强。

Braintrust:以评估为先的平台,适合希望将 LLM 开发当作实验工作流来对待的团队。

Weave(Weights & Biases):将 WandB 的 ML 实验追踪延伸到 LLM 领域。

Datadog / New Relic LLM 监控:经典的 APM 厂商,新增了针对 LLM 的仪表板。

OpenTelemetry GenAI 语义约定:一个跨厂商的 LLM 追踪标准,在 2025–2026 年逐渐被采用。

需要关注什么

每个用户会话的成本:突然的激增通常意味着 bug(重试循环、失控的智能体),而非增长。

延迟 p95/p99:长尾会毁掉用户体验。最坏情况比平均值更重要。

评估分数漂移:在代表性提示词上每周做一次 LLM-as-judge 评分,能在提示词或模型改动后捕捉到悄然发生的回归。

主要失败模式:对错误进行分类,如被拒绝、产生幻觉、跑题、格式错误,这样你就知道该往哪里投入精力。

提示词版本表现:在不同提示词版本之间比较评估分数,以判断最新改动是有帮助还是有损害。

Token 分布:长响应会推高成本。意外的长尾往往表明提示词漂移或停止 token 损坏。

常见错误

只记录错误:LLM 会悄无声息地失败。也要记录成功案例,并附上足够的元数据以评估质量。

没有采样策略:在规模化场景下记录 100% 的请求成本高昂。请按用户分群、成本层级或近期改动进行智能采样。

没有把追踪与用户反馈关联起来:点踩需要能回溯到产生该输出的确切那条追踪。

按团队各自为政:产品、ML 和基础设施各自搭建自己的仪表板。统一的可观测性才是制胜之道。

忽视回归测试:“看起来没问题”是不够的。请构建一个回归评估集,并在每次提示词改动前运行它。

追逐厂商锁定:OpenTelemetry GenAI 约定让你只需埋点一次,日后即可更换可观测性厂商。

Sources: