네카라쿠배당토에서는 AI 서비스를 운영하기 위해 어떤 AI 직군을 채용할까?
인공지능(AI)이 점점 더 다양한 산업 분야에 깊이 스며들면서, 이를 성공적으로 개발하고 운영하기 위해서는 여러 전문 직군이 협력해야 합니다. 특히 네카라쿠배당토(네이버, 카카오, 라인, 쿠팡, 배달의민족, 당근마켓, 토스)와 같은 주요 IT 기업에서는 AI 기반 서비스를 개발, 운영, 최적화하기 위해 다양한 직군의 전문가를 채용하고 있습니다. AI 서비스 개발과 운영에서 주요한 직군과 그 역할을 소개합니다.
1. 데이터 엔지니어 (Data Engineer)
데이터 엔지니어는 AI 모델의 핵심 자원인 데이터를 수집, 정제, 저장, 관리하는 역할을 담당합니다. 대규모 데이터를 효과적으로 처리할 수 있는 데이터 파이프라인을 구축하고, 데이터베이스 설계 및 유지보수를 통해 머신러닝 모델의 학습 및 운영에 필요한 데이터를 제공합니다.
주요 업무:
데이터 수집 및 정제
데이터 파이프라인 설계 및 운영
데이터베이스 관리
데이터 품질 모니터링 및 문제 해결
2. AI 서비스 개발자 (AI Service Developer)
AI 서비스 개발자는 머신러닝 모델을 실제 서비스로 연결하고, 사용자 경험을 향상시키는 역할을 합니다. 검색, 추천, 광고, 개인화 등 다양한 기능에 AI를 적용하며, AI 모델의 성능을 지속적으로 개선합니다.
주요 업무:
머신러닝 모델 개발 및 최적화
AI 기반 기능 설계 및 구현
A/B 테스트를 통한 서비스 개선
사용자 피드백 기반 모델 개선
3. AI 인프라 개발자 (AI Infrastructure Developer)
AI 인프라 개발자는 AI 서비스를 운영하기 위한 시스템과 플랫폼을 설계하고 관리합니다. 대규모 데이터와 고성능 모델을 안정적으로 처리할 수 있는 확장 가능한 인프라를 구축하며, 모델 배포와 모니터링을 담당합니다.
주요 업무:
데이터 가공 및 모델 서빙 인프라 설계
모델 배포 자동화 및 모니터링
MLOps 환경 구축
AI 서비스 운영 효율성 개선
기업별 직군 수요 분석
2025년 1월 기준 ML 직군 공고가 내려가있는 네이버, 카카오를 제외하고, 배민, 라인, 토스, 당근, 여기어때에서 올린 직군 공고에 대한 분포를 확인해봤습니다. 특이한 점은 AI 서비스 개발자뿐만 아니라, AI 인프라 개발자에 대한 채용 비중이 꽤 높다는 것이었습니다.
과거에는 모델 개발에 초점이 맞춰졌지만, 현재는 모델의 운영, 안정성, 확장성이 AI 서비스 성공의 핵심 요소로 부상하면서 MLOps 전문가의 수요가 증가했습니다. 이는 단순한 트렌드가 아니라, AI 기술이 실질적인 비즈니스 가치로 연결되는 과정에서 자연스럽게 나타난 현상입니다.
기업별 공고 확인
네카라쿠배당토와 같은 IT 선도 기업들은 각기 다른 AI 서비스와 목표에 맞추어 다양한 직군의 전문가들을 채용하고 있습니다. 기업별로 어떤 직군이 요구되고 있는지 자세히 살펴보겠습니다.
데이터 엔지니어
배달의민족 - AI실 추천프로덕트팀 데이터 엔지니어
대규모 데이터 파이프라인 설계, 개발 및 운영
분산처리 어플리케이션 개발, 튜닝
추천 시스템 데이터 파이프라인 고도화를 위한 기술 검토 및 도입
AI 서비스 개발자
AI 서비스 개발자는 AI 모델을 실제 서비스로 구현하고 사용자 경험을 개선하는 데 중점을 둔 직군입니다. 주요 역할로는 머신러닝 모델 개발 및 최적화, 추천 및 검색 알고리즘 설계, A/B 테스트를 통한 성능 개선 등이 있습니다.
예를 들어, 배달의민족은 검색 랭킹 모델을 개발하고 개인화된 추천 시스템을 고도화하는 역할을 맡는 데이터 과학자를 채용하며, 당근마켓은 검색 의도를 이해하고 개인화된 피드 추천 기능을 개발하는 머신러닝 엔지니어를 모집합니다. 이 직군은 AI 기술을 사용자와의 접점에서 활용하며, 서비스 경쟁력을 높이는 핵심적인 역할을 수행합니다.
당근 - Software Engineer, Machine Learning (검색)
검색 의도 이해 및 랭킹 모델 개발
검색 서비스 최적화 및 개선
머신러닝/NLP를 활용한 검색 고도화
당근 - Software Engineer, Machine Learning (공통)
피드 추천 및 Engagement 모델 개발
데이터 분석을 기반으로 서비스 개선
LLM을 활용한 개인화 추천 시스템 개선
토스 - Ads AI Engineer
광고 플랫폼 내 머신러닝 기술 및 알고리즘 구현
광고 최적화 모델 개발
토스 - ML Engineer (LLM)
LLM 기반 서비스 및 제품 제공
RAG 데이터 파이프라인 구현, 파인튜닝, 모니터링
배달의민족 - 검색프로덕트팀 데이터 과학자
검색 랭킹 모델 개발 및 최적화
시멘틱 서치, 개인화 모델링
검색 로그 및 사용자 피드백 분석
라인 - Music Senior ML/DL Engineer
실시간 음악 추천 시스템 개발
추천 알고리즘 개선 및 A/B 테스트
라인 - LINE Ads ML Engineer
광고 랭킹 엔진 성능 튜닝 및 로직 구현
예측기 및 최적화 시스템 운영
AI 인프라 개발자
AI 인프라 개발자는 대규모 데이터를 안정적으로 처리하고 AI 모델을 효율적으로 운영할 수 있는 시스템과 플랫폼을 설계합니다. 주요 역할로는 데이터 가공 및 파이프라인 설계, 확장 가능한 모델 서빙 인프라 구축, MLOps 환경 관리 등이 포함됩니다.
예를 들어, 토스는 ML 플랫폼에서 데이터 과학자와 협업해 모델 배포와 모니터링을 담당하는 엔지니어를 채용하며, 여기어때는 데이터 파이프라인 설계와 안정적인 AI 모델 운영을 리딩할 MLOps 리더를 모집합니다. 이 직군은 AI 서비스의 안정성과 확장성을 보장하며, AI 기술을 비즈니스 환경에 통합하는 데 필수적인 역할을 합니다.
당근 - Software Engineer, Machine Learning (ML 인프라)
데이터 가공, 모델 훈련 및 서빙 전 과정 인프라 설계/운영
ML 서비스용 확장 가능한 인프라 구축
토스 - ML Engineer (Platform)
데이터 파이프라인 설계, ML 모델링 및 서빙
ML 기반 서비스와 제품 제공
토스 - ML Engineer (Serving)
ML 플랫폼 팀에서 Data Scientist 및 MLOps와 협업
토스 - MLOps Engineer
ML 기반 데이터 파이프라인, 모델링 및 모니터링
여기어때 - MLOps Leader
데이터 및 AI/ML 환경 구성, 데이터 파이프라인 설계/구축 리딩
AI 모델 서빙 안정성 관리
라인 - VOOM AI Lab ML Engineer
대규모 데이터 인프라 및 플랫폼 개발
AI 모델 배포 및 최적화, MLOps 수행
MLOps, AI인프라 없이도 성장할 수 있을까?
AI 서비스 운영이 꼭 전문 인력을 필요로 할까요? 스타트업이 성장하면서 대부분 한 번쯤 겪게 되는 중요한 이슈는 MAU(월간 활성 사용자)의 급격한 증가입니다. 위 그래프에서 보이듯이, 사용자 수가 일정 수준을 유지하다가 갑작스러운 성장이 시작되는 구간은 서비스 안정성과 확장성에 큰 영향을 미칠 수 있습니다.
특히 ChatGPT API나 Stable Diffusion과 같은 외부 AI 서비스를 사용하는 경우, 단일 호출당 수 초의 응답 시간과 쿼타(Quota) 제한 문제가 발생할 수 있습니다. 이는 서비스의 트래픽이 급증할 때 심각한 문제로 이어질 수 있습니다. 이러한 호출 지연은 실시간 처리가 중요한 서비스에서는 트래픽 관리의 복잡성을 크게 증가시키며, 안정적인 운영을 방해하는 주요 요인이 됩니다.
트래픽 관리의 주요 문제점
대량 동시 호출에 따른 병목 현상
MAU가 급증하거나 특정 시간대에 사용량이 폭발적으로 늘어나면, 외부 API 호출의 대기 시간이 길어지거나 요청이 실패할 가능성이 높아집니다. 외부 API의 처리 한계를 넘는 트래픽은 서비스 전체의 응답 속도를 저하시킬 수 있습니다.예측 불가능한 요청 지연
외부 API는 내부적으로 요청을 처리하는 과정에서 부하를 받을 경우, 응답 시간이 일정하지 않게 변동됩니다. 이는 사용자 경험에 부정적인 영향을 미치며, 특히 실시간 응답이 필요한 서비스에서는 치명적일 수 있습니다.비용 부담 증가
외부 API의 과도한 호출은 비용 증가로도 이어질 수 있습니다. 특히, 불필요한 중복 호출이나 최적화되지 않은 트래픽 처리는 스타트업의 한정된 자원을 소모하게 만듭니다.트래픽 관리 도구 부재
MLOps 환경 없이 트래픽 부하를 관리하기는 매우 어렵습니다. 적절한 로드 밸런싱, 요청 큐잉, 캐싱 등의 메커니즘이 없다면, 서비스의 확장성과 안정성을 보장하기 어렵습니다.쿼타 제한 문제
외부 API 사용 시, 트래픽 관리에서 중요한 또 다른 과제는 쿼타 제한입니다. 대부분의 외부 API는 사용량 기반의 제한(쿼타)을 두고 있으며, 이를 초과할 경우 서비스가 중단되거나 과도한 비용이 발생할 수 있습니다. 이러한 문제는 특히 트래픽이 예측하기 어려운 상황에서 스타트업에게 큰 부담으로 작용합니다.
어떤 것들을 고려하여 인프라를 설계해야 할까?
비즈니스 상황과 앱의 성격에 따라 인공지능 서비스를 운영하고 관리하는 방법은 다양하지만, 인프라 설계 시 트래픽 관리를 위해 기본적으로 다음과 같은 요소들을 고려해야 합니다.
요청 큐잉 및 쓰로틀링
요청을 한 번에 처리하지 않고, 적절한 속도로 분배하여 외부 API와 내부 인프라의 부하를 조절합니다.캐싱
반복적으로 호출되는 결과를 캐싱하여, 외부 API 호출 횟수를 줄이고 응답 속도를 단축할 수 있습니다.로드 밸런싱
여러 서버로 트래픽을 분산시키는 로드 밸런서를 사용하여 부하를 균등하게 분배합니다.대체 처리 메커니즘
외부 API가 응답하지 못할 때, 사전 저장된 데이터나 간단한 내부 알고리즘을 활용해 최소한의 서비스를 유지할 수 있는 폴백 시스템을 도입합니다.비동기 호출
외부 API 호출을 비동기 방식으로 처리하여 요청이 병렬적으로 진행될 수 있도록 합니다. 이를 통해 응답 시간이 긴 호출로 인해 다른 작업이 지연되지 않으며, 대규모 동시 요청 상황에서도 효율적으로 트래픽을 관리할 수 있습니다.
AI 서비스를 자체적으로 관리하기 어렵다면?
렛서의 고객사 A는 AI 기능을 앱의 핵심으로 활용하며, 월간 활성 사용자(MAU)가 83배 증가했지만, 자체적으로 MLOps나 AI 전문가를 채용하지 않고도 안정적인 운영을 이어갔습니다. 그 비결은 렛서의 AI API와 MLOps 인프라를 활용한 효율적인 서비스 운영에 있었습니다.
렛서는 스타트업이 복잡한 모델 운영 과정에서 발생하는 부담을 덜고, 안정성과 확장성을 확보할 수 있도록 돕습니다. 이를 통해 스타트업은 기술적 제약 없이 AI 기반 서비스를 발전시키고, 본연의 비즈니스 목표에 집중할 수 있는 환경을 마련할 수 있습니다.