Prompt Caching(프롬프트 캐싱)이란? | GEO 용어집

프롬프트 캐싱(Prompt Caching)은 여러 요청에 걸쳐 동일하게 반복되는 프롬프트의 앞부분(시스템 프롬프트, 대화 히스토리, 대용량 문서 등)을 LLM 프로바이더가 캐시로 저장해두고 재사용하는 기능입니다. 매 요청마다 같은 토큰을 다시 처리하지 않아도 되므로 비용과 지연 시간을 극적으로 줄입니다. 2024년 Anthropic이 Claude에 도입하고 OpenAI·Google이 뒤이어 지원하며 2026년 LLM API의 표준 기능이 되었습니다.

왜 중요한가

RAG 파이프라인이나 에이전트는 요청마다 긴 시스템 프롬프트·전체 대화 히스토리·검색된 문서를 LLM에 넣습니다. 같은 앞부분이 10번 반복되면 10번 모두 풀 가격으로 계산됩니다. Anthropic 공식 문서에 따르면 프롬프트 캐싱을 사용하면 캐시된 부분의 비용이 최대 90% 절감되고 지연도 최대 85% 단축됩니다. 실제로 대화형 AI 제품의 운영 비용 구조가 프롬프트 캐싱 도입 이후 근본적으로 달라졌습니다.

작동 원리

캐시 표시: 개발자가 시스템 프롬프트·긴 문서 등 '캐시해도 안전한 부분'을 명시적으로 표시합니다(Anthropic은 cache_control 블록, OpenAI는 자동).
첫 요청(Cache Write): 모델이 프롬프트 전체를 처리하고, 표시된 부분을 캐시에 저장합니다. 이 요청은 오히려 캐시 쓰기 비용이 약간 추가됩니다.
이후 요청(Cache Read): 같은 앞부분이 포함된 요청이 들어오면 모델은 캐시에서 해당 부분의 '내부 상태'를 불러옵니다. 해당 토큰은 입력 가격의 약 10%로 계산됩니다.
캐시 TTL: 캐시는 일반적으로 5분(Anthropic) 또는 더 긴 시간 동안 유지됩니다. 사용이 없으면 자동 삭제.

적합한 활용 사례

챗봇의 시스템 프롬프트: 수천 토큰짜리 역할·제약·예시를 매 요청마다 재처리하는 대신 한 번만 캐싱.

긴 문서 Q&A: 책·PDF·매뉴얼을 통째로 컨텍스트에 넣고 여러 질문을 던지는 시나리오. 문서는 캐싱, 질문만 매번 달라짐.

에이전트 도구 정의: 여러 번 호출되는 에이전트의 도구 정의(수천 토큰)를 캐싱해 각 도구 호출의 지연을 줄임.

코드 어시스턴트: 프로젝트 전체 코드베이스를 컨텍스트로 넣고 여러 질문을 받을 때.

RAG 파이프라인: 자주 검색되는 고정 문서 세트를 캐싱해 반복 질의의 비용 절감.

주의사항

캐시 정확 일치: 캐시된 앞부분은 토큰 단위로 정확히 일치해야 합니다. 시스템 프롬프트에 날짜·사용자 ID 같은 가변 값을 넣으면 캐시가 깨집니다. 가변 부분은 뒤쪽(캐시 밖)으로 옮겨야 합니다.

최소 캐시 크기: Anthropic은 최소 1,024 토큰(Sonnet·Opus)부터 캐시할 수 있습니다. 너무 짧은 프롬프트는 캐싱해도 이점이 없습니다.

TTL 관리: 5분 내에 다음 요청이 들어와야 캐시 적중. 트래픽이 적은 서비스는 '캐시를 계속 살려두는' 전략(주기적 heartbeat 요청)이 필요합니다.

캐시 쓰기 비용: 첫 요청은 오히려 비용이 약간 더 듭니다. 캐시가 재사용되지 않으면 오히려 손해.

2026 발전 방향

장기 캐시: 일부 프로바이더가 시간 TTL을 수시간~수일로 확장 중. 기업용 에이전트와 상시 챗봇에 유리.

사용자별 캐싱: 사용자별 개인화된 시스템 프롬프트도 각자 캐시되는 구조로 진화.

하이브리드 RAG: 자주 검색되는 청크를 캐싱해 벡터 검색 단계를 생략하는 최적화.

GEO 관점의 시사점

AI 검색 엔진이 블로그 콘텐츠를 여러 쿼리에 걸쳐 반복 참조하려면 그 콘텐츠가 '캐시 가능한 안정적 형태'여야 합니다. URL이 자주 변경되거나, 페이지 내 동적 개인화 요소가 많으면 캐시가 무효화됩니다. 구조화된 Markdown·안정적 URL·정적 생성(SSG)을 제공하는 블로그가 AI 검색 인프라에서 반복 인용될 가능성이 높습니다.

Sources:

inblog에서 활용하기

inblog가 제공하는 정적 생성(SSG)과 안정적 URL 구조는 AI 검색 엔진의 프롬프트 캐싱·외부 캐싱 시스템 양쪽에서 유리합니다. 블로그 콘텐츠가 한 번 처리된 뒤 여러 후속 쿼리에서 재사용될 때 같은 내용이 유지되므로, AI 검색이 inblog 블로그를 '비용 효율적으로 참조할 수 있는 소스'로 인식합니다.

프롬프트 캐싱