Telco Cloud-native, AI 기반의 통신 NMS 발전 방향
이동통신 네트워크 구축의 진화(Cloud-native)
이동통신 네트워크의 구성방식은 4G(LTE) 이전의 HW 의존방식인 PNF(Physical Network Function)에서 5G가 시작되며 지금의 SW 중심 방식인 VNF(Virtualized Network Function) 로 발전했으며, 이제는 Cloud-native의 CNF(Container Network Function)로 이동하는 중입니다.
이는 네트워크의 기능의 개발방식, 테스트, 통합, 배포방식의 변화와 네트워크 관리의 역할을 담당하고 있는 NMS도 동시에 진화된 방향으로 신속히 변화되어야 함을 시사합니다.
Cloud-native, AI 통신 환경 전략에 맞는 미래의 NMS 구축 시 고려 사항
Cloud-native가 가속화되고, AI를 통한 다양한 시도 및 업무적용이 주요 화두로 급부상하면서 네트워크 구성과 이를 모니터링, 관리하는 NMS도 그 환경에 맞는 변화와 진화가 필요 합니다
이를 위해 다양한 측면에서 고려해야 할 몇 가지 주요한 사항은 아래와 같습니다.
Cloud-native 접근 방식: Cloud-native로의 전환은 애플리케이션 개발과 운영을 혁신적으로 변화시킬 것입니다. 이를 통해 AP는 신속하게 개발하고 배포되도록 비즈니스 민첩성을 확보하고 품질을 지속적으로 개선할 수 있습니다 (예> MSA, PVC)
AI 통합 활용 방안: NMS는 AI기술을 활용하여 네트워크 상태 모니터링, 장애감지, 예측분석 등을 개선할 수 있습니다. AI를 적극 활용하여 네트워크 이상 상태를 자동으로 감지하고 대응하는 기능을 개발해야 합니다. (실제로 이 부분에 대한 AI활용 개발이 지금도 여러 네트워크 업무부서에서 개발, 적용/활용단계까지 와 있습니다)
데이터 수집 및 분석: Cloud 환경에서는 방대한 양의 데이터를 처리하고 AI모델을 학습시킬 수 있습니다. NMS에서는 네트워크 데이터를 수집하고 분석하여 문제를 식별하고 최적화할 수 있어야 합니다. (대용량 데이터처리 ETL 활용, ELK 적용 시범 중)
NPM(Network Performance Monitoring) 강화: NPM은 전통적인 네트워크 모니터링을 넘어 사용자가 경험하는 네트워크 서비스 품질을 측정, 진단, 최적화하는 프로세스입니다. 강화된 NPM 솔루션은 다양한 유형의 네트워크를 결합하여 성능과 가용성, 그리고 사용자의 비즈니스와 연관된 네트워크 지표들을 분석, 제공해줄 수 있습니다.
DevOps문화: Cloud-native환경에서는 DevOps 문화를 적극적으로 채택하여 개발과 운영팀 간의 협업을 강화하고, 지속적 통합 및 배포(CI/CD)를 통해 AP를 효율적으로 관리해야 합니다.
AIOps: AI를 적극 활용한 NMS 네트워크 모니터링 과 운영
AI모델을 활용한 IT운영을 ‘AIOps(Artificaial Intelligence for IT Operations)’라고 합니다. 2014년 최초로 Gatner를 통해 등장한 이 용어는 IT 인프라 운영에 머신러닝, 빅데이터 등 AI 모델을 활용하여 리소스 관리 및 성능에 대한 예측 관리를 실현하는 것을 말합니다.
AIOps를 활용한 여러 가지 솔루션을 많은 Global IT회사에서 적용하고 있으므로 우리도 이를 NMS에 이를 적용하여 활용한다면 네트워크관리를 효율적으로 개선하고, 안전성을 높일 수 있을 것으로 예상합니다.
관제(Observe), 모니터링: AIOps를 통해 네트워크 성능지표를 실시간으로 모니터링하고 이상 상태를 감지할 수 있습니다.
운영(Engage)/이상탐지 및 경고: AIOps는 네트워크에서 발생하는 이상 상태를 자동으로 탐지하고, 운영 관리자에게 경고를 보낼 수 있습니다. 이를 통해 네트워크 문제를 사전에 예방하고 대응할 수 있습니다.
자동화된 조치(Automation): AIOps는 문제가 발생할 때 자동으로 조처를 할 수 있습니다. 예를 들어 장비의 재부팅, 자동 절체, 트래픽 경로 변경 등을 자동으로 수행할 수 있습니다.
데이터 분석 및 예측: 수집된 데이터를 분석 장애의 근본 원인을 판단하고 진단, 장애해결을 위해 상황에 맞는 정보를 담당자에 전달, 반복적인 장애에 대한 조치 방안을 자동화하고 사전 예방의 모니터링을 가능하게 할 수 있습니다.
위에서 설명해 드린 순환구조를 갖추고 NMS에 AIOps를 적용하면 NMS관제 및 운영의 효율적이고 안정적인 서비스를 제공할 수 있고, 구축한 데이터를 기반으로 AI 알고리즘 및 머신 러닝을 활용하여 어떠한 장애에 대한 신속한 조치와 대응도 자동으로 가능하게 될 것입니다.
NMS 발전을 위한 신중하지만, 적극적인 전략적 제안
새로운 기술을 받아들이고 이를 실제 활용할 수 있도록 준비하는 과정은 어려운 일입니다. 이 때문에 너무 신중하게 접근하며 결정을 주저하다가 결국 시간에 쫓기거나, 신기술 선정에 있어 아는 범위내에서 보고 싶은 것만 보고 발전을 위한 다른 접근법을 배척하는 경향이 나타나곤 합니다.
클라우드 네이티브, AI 기술은 매우 복잡하기도 하고, 미션 크리티컬 인프라, AP에 혁신적인 변화를 가져오기 때문에 신중하고 냉철한 의사 결정이 필요할 수도 있습니다. NMS는 빠르게 진화하는 네트워크의 변화에 맞추어 향후 이 변화에 맞도록 모든 것을 수용할 수 있는 NMS가 발전된 모습으로 변화될 시기가 곧 도래할 것으로 예측됩니다.
MSA의 저명한 마틴 파울러의 “설계를 소홀히 하면 단기적인 시간은 절약할 수 있지만, 결국 생산성의 저하를 가져오는 기술적 부채에 빠지게 된다”는 명언이 있습니다. 우리 네트워크IT개발팀도 NMS의 발전을 위해 서두르지 않고, PoC나 다양한 실습 위주의 검증을 통해 학습된 기술들을 토대로 NMS의 발전방향에 맞는 전략적 제안을 진행할 예정입니다. 끝으로 저희 팀 선/후배들이 준비하고 있는 NMS의 미래 구성 아키텍처를 소개하며 블로그를 마무리합니다.