LLM Observability(LLM 관측성)이란? | GEO 용어집

LLM 옵저버빌리티(LLM Observability)는 프로덕션 LLM 애플리케이션을 계측해 모델이 무엇을 하고 있는지 보고, 실패를 디버깅하고, 비용과 지연을 측정하고, 품질 드리프트를 감지하고, 시간에 따른 출력을 평가하는 실천입니다. 전통 앱 옵저버빌리티 — 로그·트레이스·지표 — 의 LLM 시대 대응물이며, 같은 입력이 다른 출력을 만들어내는 확률적 시스템에 맞춰 재설계됐습니다.

왜 중요한가

전통 웹 앱은 작동하거나 에러를 던집니다. LLM 앱은 "작동"(잘 포맷된 응답을 반환)하면서도 답이 틀리거나, 주제를 벗어났거나, 할루시네이션이거나, 편향됐거나, 어제보다 단지 나빠질 수 있습니다. 옵저버빌리티 없이 이런 실패는 사용자가 불평할 때까지 보이지 않으며, 그때는 이미 신뢰가 깨져 있습니다. 2024~2025년에 LLM 옵저버빌리티가 독립 카테고리가 됐고, Langfuse·LangSmith·Helicone·Arize Phoenix·Weights & Biases Weave·Braintrust 같은 도구가 각자의 조각을 차지했습니다. 프로덕션에 LLM을 돌리는 팀에게 옵저버빌리티는 이제 있으면 좋은 것이 아니라 기본입니다.

무엇을 계측하는가

트레이스: 전체 실행 경로 — 하나의 요청 안에서 발생한 모든 프롬프트·검색 호출·툴 호출·응답. 에이전트가 실제로 무엇을 했는지 재생할 수 있게 해줍니다.

입출력 쌍: 정확히 전송된 프롬프트와 정확히 수신된 완성. 프롬프트 템플릿으로 버저닝.

요청당 비용: 입력·출력 모델별 토큰 수 × 가격. 기능·사용자·테넌트로 집계.

지연: 첫 토큰까지의 시간, 전체 완성 시간, 각 하위 단계의 소요 시간.

에러와 재시도: 속도 제한 에러·타임아웃·툴 호출 실패·파싱 에러.

품질 신호: 사용자 👍/👎, 암묵 신호(출력 복사·코드 실행·메시지 전송), 최근 출력에 대한 LLM-as-judge 점수.

드리프트: 출력 분포·답변 품질·툴 호출률의 시간에 따른 변화 — 모델 업데이트나 프롬프트 변경이 뭔가를 깨뜨렸다는 최초 신호.

전통 옵저버빌리티와 다른 점

출력이 결정적이지 않음: 같은 입력, 다른 출력. 지표가 분산을 1급으로 다뤄야 합니다.

비용이 요청당이 아니라 토큰당: 전통 APM은 토큰이 뭔지 모릅니다. LLM 옵저버빌리티는 알아야 합니다.

품질이 주관적: "출력 정확" 단순 테스트로 단언할 수 없습니다. 평가엔 인간 리뷰·LLM 판정자·정답 비교가 필요합니다.

프롬프트가 코드: 프롬프트 변경이 배포입니다. 프롬프트 버저닝 없이 어제의 버그가 어느 버전에서 나왔는지 알 수 없습니다.

멀티 스텝 체인: 대부분의 LLM 앱은 파이프라인입니다. 평면 로그가 아니라 호출 그래프를 반영하는 중첩 트레이스가 필요합니다.

2026년 툴 지형

Langfuse(오픈소스): 트레이스 우선 옵저버빌리티에 평가·프롬프트 관리·사용자 피드백. 셀프 호스팅 팀에 인기.

LangSmith(LangChain): LangChain과 긴밀 통합. 해당 스택을 쓰는 팀에 강력.

Helicone: 경량 프록시 기반 옵저버빌리티. 원라인 통합, 도입이 쉬움.

Arize Phoenix / Arize AX: ML 옵저버빌리티 세계 출신. 드리프트·임베딩·평가 과학에 강함.

Braintrust: 평가 우선 플랫폼. LLM 개발을 실험 워크플로우로 다루려는 팀에 유용.

Weave(Weights & Biases): WandB의 ML 실험 추적을 LLM 영역으로 확장.

Datadog / New Relic LLM 모니터링: 전통 APM 벤더가 LLM 특화 대시보드 추가.

OpenTelemetry GenAI 시맨틱 컨벤션: LLM 트레이싱의 벤더 간 표준. 2025~2026년 채택 확산.

주시할 것

사용자 세션당 비용: 급등은 보통 성장이기 전에 버그(재시도 루프·폭주 에이전트)입니다.

지연 p95·p99: 긴 꼬리가 UX를 죽입니다. 최악의 경우가 평균보다 중요합니다.

평가 점수 드리프트: 대표 프롬프트에 대한 주간 LLM-as-judge 점수가 프롬프트·모델 변경 후 조용한 회귀를 잡아냅니다.

상위 실패 모드: 에러를 분류 — 거부·할루시네이션·주제 이탈·잘못된 포맷 — 해서 어디에 투자할지 알아냅니다.

프롬프트 버전 성능: 버전별 평가 점수를 비교해 최근 변경이 도움이 됐는지 해가 됐는지 확인.

토큰 분포: 긴 응답이 비용을 몰아냅니다. 예기치 않은 긴 꼬리는 프롬프트 드리프트나 깨진 stop 토큰을 시사합니다.

흔한 실수

에러만 로깅: LLM은 조용히 실패합니다. 성공도 충분한 메타데이터와 함께 로깅해 품질을 평가할 수 있게 합니다.

샘플링 전략 부재: 규모에서 100% 요청 로깅은 비쌉니다. 사용자 세그먼트·비용 등급·최근 변경으로 지능적으로 샘플링.

트레이스와 사용자 피드백 미연결: 👎는 그 출력을 만든 정확한 트레이스로 연결되어야 합니다.

팀별 사일로: 제품·ML·인프라가 각자 대시보드. 통합 옵저버빌리티가 승리.

회귀 테스트 무시: "괜찮아 보여"는 부족합니다. 회귀 평가 세트를 만들어 프롬프트 변경 전마다 돌리세요.

벤더 락인 추구: OpenTelemetry GenAI 컨벤션으로 한 번 계측하고 나중에 옵저버빌리티 벤더를 교체할 수 있습니다.

Sources:

LLM 옵저버빌리티