프롬프트 캐싱
프롬프트 캐싱(Prompt Caching)은 여러 요청에 걸쳐 동일하게 반복되는 프롬프트의 앞부분(시스템 프롬프트, 대화 히스토리, 대용량 문서 등)을 LLM 프로바이더가 캐시로 저장해두고 재사용하는 기능입니다. 매 요청마다 같은 토큰을 다시 처리하지 않아도 되므로 비용과 지연 시간을 극적으로 줄입니다. 2024년 Anthropic이 Claude에 도입하고 OpenAI·Google이 뒤이어 지원하며 2026년 LLM API의 표준 기능이 되었습니다.
프롬프트 캐싱(Prompt Caching)은 여러 요청에 걸쳐 동일하게 반복되는 프롬프트의 앞부분(시스템 프롬프트, 대화 히스토리, 대용량 문서 등)을 LLM 프로바이더가 캐시로 저장해두고 재사용하는 기능입니다. 매 요청마다 같은 토큰을 다시 처리하지 않아도 되므로 비용과 지연 시간을 극적으로 줄입니다. 2024년 Anthropic이 Claude에 도입하고 OpenAI·Google이 뒤이어 지원하며 2026년 LLM API의 표준 기능이 되었습니다.
왜 중요한가
RAG 파이프라인이나 에이전트는 요청마다 긴 시스템 프롬프트·전체 대화 히스토리·검색된 문서를 LLM에 넣습니다. 같은 앞부분이 10번 반복되면 10번 모두 풀 가격으로 계산됩니다. Anthropic 공식 문서에 따르면 프롬프트 캐싱을 사용하면 캐시된 부분의 비용이 최대 90% 절감되고 지연도 최대 85% 단축됩니다. 실제로 대화형 AI 제품의 운영 비용 구조가 프롬프트 캐싱 도입 이후 근본적으로 달라졌습니다.
작동 원리
- 캐시 표시: 개발자가 시스템 프롬프트·긴 문서 등 '캐시해도 안전한 부분'을 명시적으로 표시합니다(Anthropic은
cache_control블록, OpenAI는 자동). - 첫 요청(Cache Write): 모델이 프롬프트 전체를 처리하고, 표시된 부분을 캐시에 저장합니다. 이 요청은 오히려 캐시 쓰기 비용이 약간 추가됩니다.
- 이후 요청(Cache Read): 같은 앞부분이 포함된 요청이 들어오면 모델은 캐시에서 해당 부분의 '내부 상태'를 불러옵니다. 해당 토큰은 입력 가격의 약 10%로 계산됩니다.
- 캐시 TTL: 캐시는 일반적으로 5분(Anthropic) 또는 더 긴 시간 동안 유지됩니다. 사용이 없으면 자동 삭제.
적합한 활용 사례
챗봇의 시스템 프롬프트: 수천 토큰짜리 역할·제약·예시를 매 요청마다 재처리하는 대신 한 번만 캐싱.
긴 문서 Q&A: 책·PDF·매뉴얼을 통째로 컨텍스트에 넣고 여러 질문을 던지는 시나리오. 문서는 캐싱, 질문만 매번 달라짐.
에이전트 도구 정의: 여러 번 호출되는 에이전트의 도구 정의(수천 토큰)를 캐싱해 각 도구 호출의 지연을 줄임.
코드 어시스턴트: 프로젝트 전체 코드베이스를 컨텍스트로 넣고 여러 질문을 받을 때.
RAG 파이프라인: 자주 검색되는 고정 문서 세트를 캐싱해 반복 질의의 비용 절감.
주의사항
캐시 정확 일치: 캐시된 앞부분은 토큰 단위로 정확히 일치해야 합니다. 시스템 프롬프트에 날짜·사용자 ID 같은 가변 값을 넣으면 캐시가 깨집니다. 가변 부분은 뒤쪽(캐시 밖)으로 옮겨야 합니다.
최소 캐시 크기: Anthropic은 최소 1,024 토큰(Sonnet·Opus)부터 캐시할 수 있습니다. 너무 짧은 프롬프트는 캐싱해도 이점이 없습니다.
TTL 관리: 5분 내에 다음 요청이 들어와야 캐시 적중. 트래픽이 적은 서비스는 '캐시를 계속 살려두는' 전략(주기적 heartbeat 요청)이 필요합니다.
캐시 쓰기 비용: 첫 요청은 오히려 비용이 약간 더 듭니다. 캐시가 재사용되지 않으면 오히려 손해.
2026 발전 방향
장기 캐시: 일부 프로바이더가 시간 TTL을 수시간~수일로 확장 중. 기업용 에이전트와 상시 챗봇에 유리.
사용자별 캐싱: 사용자별 개인화된 시스템 프롬프트도 각자 캐시되는 구조로 진화.
하이브리드 RAG: 자주 검색되는 청크를 캐싱해 벡터 검색 단계를 생략하는 최적화.
GEO 관점의 시사점
AI 검색 엔진이 블로그 콘텐츠를 여러 쿼리에 걸쳐 반복 참조하려면 그 콘텐츠가 '캐시 가능한 안정적 형태'여야 합니다. URL이 자주 변경되거나, 페이지 내 동적 개인화 요소가 많으면 캐시가 무효화됩니다. 구조화된 Markdown·안정적 URL·정적 생성(SSG)을 제공하는 블로그가 AI 검색 인프라에서 반복 인용될 가능성이 높습니다.
Sources:
관련 인블로그 게시물
inblog에서 활용하기
inblog가 제공하는 정적 생성(SSG)과 안정적 URL 구조는 AI 검색 엔진의 프롬프트 캐싱·외부 캐싱 시스템 양쪽에서 유리합니다. 블로그 콘텐츠가 한 번 처리된 뒤 여러 후속 쿼리에서 재사용될 때 같은 내용이 유지되므로, AI 검색이 inblog 블로그를 '비용 효율적으로 참조할 수 있는 소스'로 인식합니다.