자동화 활용 방안 소개 : B-MON 간헐적 오류 로그 패턴 분석을 통한 이상징후 자동 탐지

안녕하세요. ICT 사업본부 빌링담당 빌링운영팀입니다. AI가 개발에만 필요한 기술이라는 착각! 운영과 AI가 만나면? 저희 팀은 실제 운영업무에서 AI를 활용한 자동화 시스템들을 주도적으로 운용하고 있습니다. 저희가 왜 활용하기 시작했는지, 어떻게 구현했는지 일련의 과정들을 간략하게 소개시켜드리고, 실제 운영 결과까지 공유 드리도록 하겠습니다.  그럼 같이 살펴볼까요?
May 22, 2024
자동화 활용 방안 소개 : B-MON 간헐적 오류 로그 패턴 분석을 통한 이상징후 자동 탐지

운영환경에 AI가 필요한 이유는? Why?

BSS

우리 본부는 BSS는 대고객 시스템을 운영하고 있으며, 복잡 다양한 시스템/모듈/파트들과 유기적인 연동과 대량의 빅데이터를 다루고 있습니다.

이에 기존의 온라인 모니터링 시스템인 B-MON을 통해 시스템 오류를 감지, 관제팀에서 담당자에게 연락을 취하며 이상이 있을 시 신속한 대응(컨콜 등)프로세스가 구축되어 있으나, Grey영역인 간헐적인 오류사항(비즈니스 오류 등)은 운영 자체에서 발견 및 후속 개선 과정을 진행해야 합니다. 그래서, AI를 활용한 과거 데이터 분석을 통해 사전 대응할 수 있는 “B-MON 오류로그 패턴 분석을 통한 이상징후 탐지” 시스템을 구축하게 됐습니다.

효율적인 운영을 위해 무엇을 개발했을까요? What?

데이터 수집, 데이터 정제, 데이터 생성, 데이터 검증

그럼 저희팀이 어떻게 AI를 활용했을지 그 과정이 궁금하시리라 생각합니다.

저희 시스템 구축 과정은 아래와 같습니다.

  1. 환경구성

  • 기본구성은 Python환경에서 데이터 조작 및 모델 구현을 진행하였으며, Antbot을 통해 자동 탐지 스케줄을 등록 했습니다.

  1. 데이터 수집 및 정제

  • 데이터 수집 : 패턴 분석에 필요한 데이터를 식별합니다. 시스템/인터페이스 등 자산데이터, 로그 데이터 등이 해당됩니다. 또한 소스들의 연관관계 데이터를 포함하여 매일 현행화 작업을 진행합니다. 

  • 데이터 정제 : 수집된 데이터 중 보안상 개인정보를 제외합니다. 데이터는 학습할 수 있는 일관된 포맷으로 변환합니다. 한국어 자연어처리를 위해 KoNLPy와 Mecab을 활용하여 형태소 분석 및 데이터 전처리 작업을 수행합니다.

  1. 데이터 생성

  • 데이터 라벨링 : 정상/오류/성능확인/오류가능성/외부시스템오류 등 로그데이터에 라벨링 작업을 합니다.

  • 학습/검증 데이터 : 학습데이터 85%, 검증데이터 15% 비율로 데이터를 생성합니다. 

  1. 데이터 분석 및 모델링

  • 모델링 : Tensorflow에서 지원하는 keras라이브러리를 사용하여 MLP 모델을 구축합니다. 필요 시 파라미터 튜닝을 진행하고 데이터를 학습시킵니다.

  1. 실시간 탐지 분석 시스템 구축

  • 학습된 모델을 실시간 데이터에 적용하여 이상 징후를 사전 탐지 합니다.

  1. 알림 및 대응체계

  • 이상징후 탐지 결과를 담당자에게 메일로 발송하여 실시간 알림 서비스를 제공합니다.

  1. 모니터링 및 개선

  • 모니터링 : 모델의 성능을 지속적으로 모니터링합니다.

  • 재모델링 : 앞서 생성한 누적 오류로그 데이터 중 학습 데이터에 존재하지 않는 오류를 재학습하기 위해 정상 여부를 판단한 뒤 검증하여 이후 학습데이터에 추가하여 모델을 개선합니다.

이와 같은 과정을 통해 AI기반 이상징후 자동탐지 분석 및 실시간 알림 시스템을 구축할 수 있었습니다.

그럼 실제로 어떻게 활용됐을까요? How?

이상징후, VOC, 타임아웃

그럼 이렇게 만들어진 시스템을 실제로 저희는 어떻게 활용하고 있을까요?

시스템은 2021년 3월부터 적용되어 운영에 활용됐습니다. 적용하고 난 후 총 17종 업무를 탐지/개선 하여 장애를 사전 예방했습니다. 실제 업무를 하며 적용 전과 후를 비교했을 때 가장 크게 도움이 되었던 장점 2가지를 소개 드리겠습니다~

첫째, 신속한 대응 프로세스 구축

기존 프로세스를 살펴보면,

1) 이상징후 발생 2) VOC 인입 및 관제팀이 담당자에게 연락 3) 원인파악 및 대응 과 같이 순차적으로 진행했습니다.

변경된 프로세스에서는 각 담당자가 보다 빠르게 대응하기 위한 준비를 시작합니다. 

  1. 이상징후 발생 2) 이상징후 탐지 메일 발송으로 담당자가 이상징후 인지 3) 원인파악 및 해결방안 준비

 즉, 관제 자동화를 통해 업무 담당자가 빠른 확인이 가능해지면서 신속한 대응이 가능한 프로세스로 업그레이드 되었습니다.

둘째, 타임아웃에 대한 이상징후 모니터링 시간 단축

가장 최근에는 2024년 이상징후 탐지 1건이 있었습니다.

서비스 타임아웃의 경우 오류로 분류되지만 실제로 이상징후 여부 판단을 위해서는 상세내용 확인이 필요합니다. 이런 케이스 또한 학습 데이터에 포함시켰기 때문에 모든 타임아웃 건에 대한 모니터링이 아닌, 패턴을 벗어난 이상징후 탐지 대상을 집중적으로 모니터링 할 수 있었습니다. 

로그를 상세히 살펴보니 보완 필요성을 느꼈고, 개발팀에 개선 요청을 진행했습니다. 결과적으로 여러 파트의 도움으로 메모리 증설 및 쿼리 사전 튜닝을 진행하며 오류 발생 가능성을 감소시킬 수 있었습니다. 

이와 같이 실제 업무에 적용해 본 결과,

모니터링 시스템의 안정성을 더욱 높이고, 문제 발생 시 신속하게 대응하여 고객에게 더 나은 서비스를 제공할 수 있었습니다. 

앞으로의 우리는? Up & Go!

이러한 성공 경험은 운영업무에 많은 변화를 가져다 주었습니다. 저희는 “오류로그 패턴분석 이상징후 자동 탐지” 이외에도 “청구 추이분석”, “운영SR 할당 자동화”등의 여러 파트/업무들을 자동화로 대체하며 현재 총 18종의 자동화를 운영하고 있습니다.

1

AI 기반 B-MON 이상징후 탐지 자동화 계정

2

팀 조근점검

3

VOC미처리내역 알림(빌링담당)

4

운영SR미처리내역 알림(빌링담당)

5

QA진행사항 알림(빌링담당)

6

AI기반 운영SR 자동접수처리(빌링담당)

7

인수테스트 결함 및 진척율 알림(빌링담당)

8

jflow 작업의뢰 및 미등록대상 알림(빌링담당)

9

CM배포 자동화 및 배포점검결과 알림

10

AI기반 청구 추이분석 자동화

11

VDI 기반 점검 자동화(관제센타 이벤트시 즉시 점검)

12

버전업 이후 주요/추가 과제 운영 검증/체크 현황 레포팅

13

정기 점검/체크사항에 대한 확인 여부 레포팅

14

jflow Ended Not OK 작업 목록 알림(빌링담당)

15

SMS 발송상태 및 파라미터 점검 알림(빌링담당)

16

개인정보 보안점검 daily 보고

17

ITSM 운영SR 자료추출 jflow기반 배치 전환

18

시스템 오류 로그 관제

덕분에 업무 효율성이 높아짐과 동시에 또 다른 성장을 할 수 있는 시간을 확보한 셈입니다!

우리 모두 kt ds 성장에 같이 한발 나아간다고 생각하며 오늘도 저희는 효율적&안전한 운영을 위해 나아가겠습니다! Go!

그럼 이만 마치겠습니다. 감사합니다~

Share article
Subscribe to our newsletter

ICT사업본부 블로그