GPT-OSS – OpenAI에서 6년만에 공개, 온프레미스에 최적화된 LLM 모델

OpenAI가 6년만에 공개한 오픈웨이트 모델 GPT-OSS가 화제입니다. GPT-OSS는 서버에 다운로드 가능한 오픈 소스로 클라우드 의존을 완전히 제거하고, 우리 조직 환경에 최적화된 고성능 AI를 자유롭게 구동해 AI 도입 속도를 획기적으로 단축할 수 있습니다.
렛서리포트's avatar
Aug 06, 2025
GPT-OSS – OpenAI에서 6년만에 공개, 온프레미스에 최적화된 LLM 모델

이번 8월, OpenAI가 6년 만에 공개한 오픈웨이트 LLM ‘GPT-OSS’는 업계에 큰 폭풍을 일으키고 있습니다. 클라우드 API에 의존해야 했던 기존의 한계를 완전히 허물고, 이제 기업은 자체 서버에 모델 가중치를 내려받아 바로 설치·운영할 수 있게 되었습니다.

왜 이토록 화제가 되었을까요? GPT-OSS는 온프레미스 환경에서 무제한 커스터마이징이 가능해, 보안이 중요한 금융·공공부터 대용량 데이터 처리에 최적화된 제조·유통 분야까지 다양한 시나리오에 즉시 적용할 수 있습니다. 비용 부담 없이 내부 데이터만으로도 높은 수준의 최첨단 AI 서비스를 구현할 수 있다는 점에서, 앞으로 AI 도입의 전략을 단숨에 뒤바꿀 파급력을 지니고 있습니다.

GPT-OSS는 무엇인가요?

GPT-OSS는 OpenAI가 2019년 GPT-2 공개 이후 6년 만에 선보인, 고성능 오픈웨이트(Open Weight) 언어 모델 시리즈입니다. 오픈웨이트 모델이란 학습된 모델 가중치(weight) 파일까지 함께 공개해, 누구나 다운로드해 온프레미스 환경에 직접 설치·운영할 수 있도록 허용하는 방식을 말합니다.

GPT-OSS는 다음과 같은 특징을 가집니다.

  • Apache 2.0 라이선스 제공: 소스코드와 가중치가 모두 공개되어, 다운로드·수정·재배포·상업적 활용이 자유롭습니다.

  • 완전 공개 가중치: 별도 API 호출 없이 내부 서버에서 즉시 추론이 가능해, 비용과 보안 리스크를 크게 줄였습니다.

  • 무제한 커스터마이징: 프롬프트 엔지니어링, 파인튜닝, 네트워크 구조 수정 등 기업 요구에 맞춘 자유로운 확장이 가능합니다.

  • 온프레미스 직접 배포: 외부 클라우드를 통하지 않고 사내 서버·GPU 클러스터에 바로 설치해 운영할 수 있습니다.

현재 GPT-OSS는 두 가지 크기로 제공되고 있습니다.

  1. GPT-OSS-120B (허깅페이스 링크)

    • 성능: o4-mini와 거의 동등한 수준

    • 인프라: 80 GB GPU 한 장으로도 실행이 가능

  2. GPT-OSS-20B(허깅페이스 링크)

    • 성능: o3-mini와 유사한 수준

    • 인프라: 16 GB 메모리 환경에서도 구동 가능

국내 기업과 기관, 왜 주목해야 할까요?

비즈니스가 주목해야하는 GPT-OSS의 가장 큰 특징 중 하나는, 고성능 챗봇을 온프레미스 환경에서 직접 운영할 수 있다는 점입니다.

기존에는 이 정도 성능의 언어 모델을 사용하려면 클라우드 기반 API를 통해서만 가능했고, 그에 따른 비용 부담이나 데이터 유출 위험, 외부 의존성이 불가피했습니다.

하지만 GPT-OSS는 내부망 서버에 설치해 자체적으로 구동할 수 있도록 설계되어, 성능과 보안, 비용 측면에서 모두 현실적인 대안을 제공합니다.

덕분에 외부로 민감한 데이터를 보내지 않고도, 우리 조직의 데이터를 활용한 고성능 챗봇이나 어시스턴트를 직접 개발하고 안정적으로 운영할 수 있습니다.

GPT-OSS가 제공하는 이점

  • 비용 절감: API 호출량에 따른 과금이 없어 장기 운영 비용을 크게 줄일 수 있습니다. GPT-OSS를 온프레미스에 배포하면 API 호출당 과금 구조에서 벗어나 비용을 절감할 수 있습니다.

  • 완벽한 보안·데이터 통제: 모든 연산이 내부 서버에서 일어나 외부 노출 걱정이 없습니다. 보안 요건이 높은 기업에서도 수준 높은 퀄리티의 LLM을 오픈소스로 다운로드 할 수 있습니다.

  • 비즈니스 맞춤화(커스터마이징): 기업에서 소스코드를 자유롭게 열어보고, 우리 비즈니스 요구에 맞춰 기능을 확장하거나 최적화할 수 있습니다. 자유로운 파인튜닝까지 완전히 개방되어 비즈니스에 맞는 확장성이 확보되었습니다.

기존 모델들과 무엇이 다른가요?

GPT-OSS는 배포 방식만 보면 LLaMA나 Mistral 같은 기존 오픈소스 모델들과 유사합니다.

하지만 가장 큰 차이는, 실제 상용 수준의 우수한 성능을 제공한다는 점입니다. 즉, GPT-OSS는 오픈소스임에도 불구하고 OpenAI의 o3-mini, o4-mini와 견줄 수 있는 성능을 갖춘 모델입니다.

항목

기존 GPT-4 / Claude / Gemini 등

GPT-OSS

사용 방식

API로만 사용 가능

직접 설치·운영 가능

비용 구조

사용량에 따라 요금 발생

무료, 상업적 활용 가능

보안 환경

클라우드 필수

온프레미스 가능

GPU 요구

대규모 클러스터 필요

단일 16~80GB GPU로 충분

성능 수준

-

o3-mini~o4-mini와 유사하거나 상회

다른 GPT와 성능 비교

이 차트는 GPT-OSS과 OpenAI의 기존 GPT 계열 모델을 두 가지 대표 벤치마크(PhD 수준 과학 문제, 다학문형 MMLU)에서 비교한 결과입니다.

출처: OpenAI 공식 블로그 포스트 “Introducing gpt-oss”

GPQA Diamond (PhD 수준 과학 문제)

→ GPT-OSS-120B는 o3-mini보다 높고, o4-mini와도 근접한 성능을 보입니다.
→ GPT-OSS-20B도 크기 대비 상당히 높은 정확도를 기록했습니다.

  • GPT-OSS-120B: 80.1%

  • GPT-OSS-20B: 71.5%

  • o3: 83.3%

  • o4-mini: 81.4%

  • o3-mini: 77%

MMLU (다분야 지식 평가)

→ GPT-OSS-120B는 90% 정확도로, o3-mini를 앞서고 상용 모델들과도 매우 근접한 수준입니다.
→ GPT-OSS-20B 역시 85.3%로 o3-mini에 근접한 성능을 보여줍니다.

  • GPT-OSS-120B: 90%

  • GPT-OSS-20B: 85.3%

  • o3: 93.4%

  • o4-mini: 93%

  • o3-mini: 87%

비교 요약

  • GPT-OSS-120B는 OpenAI o4-mini와 비교해도 코딩, 수학, 일반 지식, 도구 사용, 의료 질의 등 다양한 영역에서 유사하거나 더 나은 결과를 보였습니다.

  • GPT-OSS-20B는 더 작은 모델임에도 불구하고 o3-mini와 대등하거나 그 이상이며, 16GB GPU에서도 충분히 작동합니다.

즉, GPT-OSS는 상용 AI 수준의 성능을 제공하면서도, 오픈소스로 제공되어 누구나 설치하고 온프레미스에서 직접 운영할 수 있는 점에서 실질적인 전환점을 만들어냅니다.

새롭게 적용된 기술은 어떤가요?

GPT-OSS는 최신 언어 모델에서 쓰이는 대표적인 기술들을 모두 갖추고 있습니다.

기술 자체는 OpenAI, Google, Anthropic 모델과 유사하지만, 이제 직접 설치해서 쓸 수 있다는 점이 핵심적인 변화입니다.

각 기술을 쉽게 설명하면 다음과 같습니다.

1. Mixture-of-Experts(MoE) 구조 기반

GPT-OSS는 내부에 수많은 ‘AI 전문가’를 가지고 있습니다. 질문이 들어오면 그 중에서 가장 적합한 소수만 선택해 답을 만드는 방식입니다. 이렇게 하면 계산 자원을 아끼면서도 높은 성능을 낼 수 있습니다.

2. Chain-of-Thought 추론

정답만 내는 것이 아니라, 그 정답이 나온 이유를 생각의 흐름을 따라가며 설명합니다. 사람처럼 차근차근 논리를 전개하는 방식입니다.

3. Tool 사용 최적화

필요할 경우 계산기, 코드 실행기, 웹 검색 같은 외부 도구를 모델이 직접 활용해 더 정확한 답변을 만듭니다.

4. 단계별로 정교하게 훈련됨

  1. 방대한 글을 통해 기본 지식을 익히고,

  2. 사람이 정답 예시를 줘서 답변 방식도 배우고,

  3. 표현과 태도까지 조절하는 마무리 훈련까지 거친 모델입니다.

그래서 단순히 답만 주는 게 아니라 읽기 쉬우면서 신뢰감 있는 응답을 생성합니다.

5. inference_effort: 추론 정밀도 조절 기능

빠르게 대충 답할지, 혹은 시간을 더 들여 꼼꼼히 생각해서 답할지 상황에 맞춰 사용자가 3단계로 설정할 수 있습니다.

렛서와 어떻게 협업할 수 있을까요?

GPT-OSS를 활용해 사내에 AI 기반 업무 자동화 시스템을 구축하거나, 조직 구성원이 일상적으로 사용할 수 있는 고성능 AI 챗봇·RAG 서비스를 만들고 싶으신가요?

AI 기술이 발전하면서 오픈소스 모델을 활용한 도입은 쉬워졌지만, 실제 기업 환경에 안정적으로 안착시키는 일은 여전히 복잡하고 어렵습니다.

이처럼 복잡한 AI 도입·운영 전 과정을 전문적으로 지원하는 기업으로, 렛서(Letsur)는 다음과 같은 전방위적 지원을 제공합니다.

렛서는 AI 도입의 전 과정을 함께합니다

내부적으로 AI 전문가가 없어 업무 효율화 기획부터 막막함을 느끼고 계신가요? AI를 통한 비즈니스 업무 자동화를 단계별로 진행해보세요. 렛서는 교육과 기획부터 함께하여 우리 회사에 꼭 필요한 AI를 내재화 하는 것을 돕습니다.

  • 교육 & 도입 기획: 조직의 니즈를 바탕으로 어떤 AI를 도입해야 하는지 정의합니다.

  • 모델 선택 & 개발 지원: GPT-OSS 같은 오픈모델을 선택해 직접 구성하거나, API 모델과 혼합하는 방안도 설계합니다.

  • 사용자 중심 서비스 설계: 단순히 모델만 구축하지 않고, 실제 구성원이 사용하는 제품 형태로 만듭니다.

  • 지속 가능한 운영 체계 구축: AI를 단발성 프로젝트가 아닌, 장기적 자산으로 정착시킬 수 있도록 설계합니다.

AI 운영 플랫폼, Staix로 안정적이고 지속적으로 운영하세요

AI는 도입 이후, 관리 부터가 진짜 시작입니다. 렛서는 자체 AI 운영 플랫폼 Staix(스테이엑스)를 통해 AI가 실제 운영 환경에서 문제 없이 작동하도록 운영 인프라까지 제공합니다.

  • 오토스케일링 & 로드밸런싱: 사용자 수에 따라 AI 서버가 자동 확장되며, 과부하 시 자동 분산 처리

  • AI 성능 모니터링: 실시간 응답 품질, 모델 추론 속도, 데이터 이상 여부 등을 확인

  • 보안 & 정책 준수 가드레일: 기업 내부 규정, 개인정보보호법 등을 만족하는 기능 탑재

  • AI 실험환경 지원: 최신 AI 기술을 안전하게 시범 적용할 수 있는 샌드박스 구성

Staix의 핵심 철학은 복잡성의 내재화입니다.

기업은 AI의 내부 구조나 모델 업데이트를 몰라도, 일상 업무에 AI를 자연스럽게 활용할 수 있게 됩니다.

렛서와 함께 고성능 AI를 업무에 내재화하세요

GPT-OSS는 고성능 AI를 직접 설치하고 운영할 수 있는 새로운 선택지를 열었습니다. 하지만 그 기술을 조직 안에서 실제 업무에 녹여내는 일은 여전히 전문성과 경험이 필요한 영역입니다. 렛서와 함께 우리 비즈니스에 필요한 AI가 무엇인지 진단해보세요.

실무에서 바로 활용 가능한 AI

  • 사내 문서를 기반으로 한 RAG 챗봇

  • 내부 시스템에 연동된 AI 어시스턴트

  • 보고서 요약, 상담 대응, 이메일 작성 등 업무 자동화

  • 기밀 데이터를 포함한 로컬 AI 처리 시스템

  • AI 교육 및 실험용 언어모델로의 활용

직접 사내 인프라에서 AI 모델을 운영해보고 싶으시다면, 지금 바로 렛서에 문의해 보세요. 온프레미스 환경 경험이 풍부한 전문 컨설턴트와 바로 상담할 수 있습니다.

AI 기획, 설계부터 개발, 운영 안정화까지 AI 도입의 전 과정을 함께해 드리겠습니다.

Share article
AI 소식을 받아보고 싶으신가요?
Privacy Policy

렛서