Test-Time Compute(추론 시 연산)란? | GEO 용어집

Test-Time Compute(추론 시 연산, inference-time compute라고도 함)는 LLM이 추론 단계에서 더 오래 '생각'하도록 — 더 많은 추론 토큰 생성·여러 체인 병렬 실행·여러 후보 샘플링 후 최선 선택 — 하여 모델을 재훈련하지 않고 답변 품질을 높이는 기법입니다. 2024~2025년 OpenAI o1과 DeepSeek-R1이 대중화하며, 추론(reasoning)을 훈련 문제에서 런타임 다이얼로 옮겼습니다.

왜 중요한가

LLM 시대의 대부분 기간 동안 모델을 더 똑똑하게 만드는 유일한 방법은 더 큰 모델을 더 많은 데이터로 훈련하는 것이었습니다. Test-time compute는 그 의존성을 깼습니다. OpenAI o1은 같은 베이스 모델에 답변 전 10~30배 더 많은 추론 토큰을 허용하면 수학·코딩·논리 벤치마크에서 훨씬 큰 비추론 모델과 맞먹거나 이긴다는 것을 보였습니다. 추론 예산의 프레임이 재구성됐습니다: "감당할 수 있는 가장 큰 모델을 써라" 대신 "이 쿼리에 얼마큼의 생각을 살 것인가?"를 묻게 됐습니다. 추론 경제성이 이동했고, 제품 설계도 이동했습니다 — 이제 요청 단위로 추론 품질을 튜닝할 수 있기 때문입니다.

작동 원리

더 긴 Chain-of-Thought: 모델이 눈에 보이는 답변 전에 수백~수천 개의 내부 추론 토큰을 출력합니다. 더 많은 생각 → 더 좋은 답.

다중 샘플(Self-Consistency): N개의 서로 다른 답을 생성하고, 모델이 가장 자주 도달하는 것을 고릅니다. 수학에 특히 효과적.

트리·빔 서치: 여러 추론 분기를 병렬 탐색하고, 나쁜 것은 가지치기, 유망한 것은 확장.

프로세스 보상 모델: 두 번째 모델이 각 추론 단계를 채점해 주 모델을 더 나은 경로로 유도. OpenAI의 프로세스 감독에 사용.

검증기 가이드 서치: 많은 후보를 생성하고 외부 검증기(단위 테스트·수학 체커·LLM 판정)로 실행해 최선을 반환.

Best-of-N + 리랭크: 더 단순한 변형. 16~64개 후보 생성 → 보상 모델로 리랭크 → 최상위 반환.

트레이드오프

모든 test-time compute 기법은 정확도를 지연과 비용으로 삽니다.

지연: 추론 없이 500ms로 끝나는 응답이 무거운 test-time compute에선 5~30초가 걸립니다.

비용: 추론 토큰도 다른 출력 토큰과 같은 비용. 1만 토큰의 o1 답변은 단순 GPT-4o 답변의 30~50배가 들 수 있습니다.

감소 수익: 정확도 vs 연산 곡선이 평평해집니다. 1천에서 1만 추론 토큰이 1만에서 10만으로 가는 것보다 훨씬 도움이 됩니다.

항상 도움 되는 건 아님: 단순 사실 조회·가벼운 잡담은 추론이 불필요. "날씨는?"에 o1 강제는 돈 낭비.

쓰는 경우

수학·형식 논리: test-time compute 효과 최대. 추론 모델이 GSM8K·MATH·AIME에서 베이스 모델을 20~40점 이김.

테스트가 있는 코드 생성: 생성 → 테스트 → 반복. 검증기 가이드 서치가 빛남.

멀티 스텝 계획: 에이전트 결정, 복잡 지시, 다제약 최적화.

고위험 단일 쿼리: 의료·법률·금융 — 정답에 5초와 $0.30을 쓰는 것이 오답 비용에 비해 저렴한 경우.

쓰지 않는 경우

1초 이내 예산의 챗 UX: 지연이 사용자 경험을 파괴.

대용량 워크로드: 토큰 20~50배 인플레이션이 고볼륨 엔드포인트를 비경제적으로 만듦.

단순 검색·요약: 원샷 답변으로 충분. 더 생각해도 개선이 없음.

오픈엔디드 창작 글쓰기: 더 많은 심사숙고가 출력을 딱딱하게 만듦.

추론 모델 vs 일반 모델

항목	일반(GPT-4o·Claude 3.5)	추론(o1·R1·Claude Opus 4.6 thinking)
응답 속도	빠름	느림
토큰 비용	낮음	높음
수학·논리	양호	탁월
창작 글쓰기	강함	가끔 뻣뻣함
챗 UX	이상적	과잉
최적 용도	대부분 요청	어려운 쿼리

모델 라우팅 — 단순 쿼리는 빠른 모델, 어려운 쿼리는 추론 모델 — 이 프로덕션의 표준 패턴입니다.

흔한 실수

어디서나 추론 모델 사용: 비용과 지연이 빠르게 불어나는데 대부분 답변은 개선되지 않음.

추론 토큰 예산 제한 부재: 제약 없는 추론 추적이 한 쿼리에 수천 달러를 먹을 수 있음.

캐싱 무시: 추론 추적은 종종 반복적. 프롬프트 캐싱이 비용을 크게 줄여줌.

평가 생략: 팀은 '추론 = 더 나음'이라고 가정. 특정 도메인에선 아닐 수 있으니, 커밋 전에 벤치마크.

추론 토큰을 출력과 혼동: 사용자가 요청하지 않는 한 추론 추적은 노출되면 안 됨. 내부 독백.

Sources:

Test-Time Compute