칼럼. AI와 AI 반도체
출처: 정부(2020.10.12), '인공지능 강국' 실현을 위한 인공지능 반도체 산업 발전전략
파라미터 개수가 늘어날수록 적절한 가중치 편향 값을 찾기 위해 더 많은 연산을 반복해야 하니까요. 널리 알려진 GPT-3 의 파라미터수는 1750억개 입니다. GPT-4의 파라 미터수는 공개되지 않았지만, 더 크다는 점에는 의심할 여지가 없습니다. 일부에서 GTP-4는 100조 개 의 파라미터 모델이 될 것이라는 예상을 했는데, OpenAI CEO 샘 알트만은 터무니없는 이야기라고 일축했습니다.
하지만 기존 반도체 칩들은 최신 AI를 구동시키기에 적합하지 않습니다. 일반 컴퓨터에 주로 쓰이는 CPU 는 데이터를 순차적으로 처리한다는 점에서, 한계가 명확합니다. 메모리에서 명령을 하나씩 처리하는 방식을 직렬(serial) 처리 방식이라 하는데, 직렬 처리 방식을 이용하면 인공신경망처럼 계산량이 많아지는 순간 CPU에 부담이 너무 많이 갑니다.
이에 대한 대안으로 현재는 AI 학습과 추론에 주로 GPU(Graphic processing unit)를 쓰고 있습니다. 그 래픽카드에 활용되는 그 GPU 맞습니다. 본래 GPU는 이미지를 빠른 속도로 정교하게 처리하기 위해 설계 된 반도체라 동시에 여러 개의 연산을 처리할 수 있 는 병렬(parallel) 처리 방식을 이용합니다.
그렇다고 GPU가 CPU보다 우월한 하드웨어는 아닙니다. AI 학습처럼 병렬적으로 쉬운 연산을 처리하는 데는 GPU가 적합하다는 뜻입니다. GPU는 코어가 여러 개여서 매우 많은 양을 병렬 처리할 수 있고, CPU는 상대적으로 어려운 연산을 잘 수행합니다. 이렇듯 그래픽뿐 아니라 AI 분야에서와 같이 범용 컴퓨팅 처리를 위한 GPU를 GPGPU(General- Purpose computing on GPU)라고 합니다.
하지만 GPU 또한 AI 연산에 최적화된 반도체는 아닙니다. AI 모델이 갈수록 복잡해짐에 따라 산업 현장에서는 가격, 전력 소모, 속도 등 AI 연산에 특화된 반도체가 필요해졌습니다. 예를 들어 GPU를 활용한 GPT-3 모델 사전 학습에는 약 1.3기가와트 시(GWh), 한국 전체에서 약 1분간 소비하는 전력량이 소모됐다고 합니다. 금전적으로는 약 1200만 달 러(한화 약 148억 원)가 들었는데요 이는 OpenAI가 MS(마이크로소프트)의 투자를 받고 비영리 단체에 서 영리 기업으로 전환한 이유 중 하나이기도 합니다.
이런 필요에 의해 등장해 2세대 AI 반도체 NPU(Neural Processing Unit), 3세대 AI 반도체 뉴로 모픽 등이 등장하고 있습니다.
NPU의 대표적인 예는 구글 TPU입니다. 행렬 곱셈 연산에 특화된 TPU는 대규모 머신 러닝 작업을 매 우 효율적으로 수행합니다. (OpenAI 수석 과학자 일 리야 셔츠케버가 최근 인터뷰에서 ‘TPU는 처음 기대 만큼 GPU와 크게 다르지는 않은 것 같다’는 언급을 하긴 했지만요) 구글뿐 아니라 아마존과 MS, 국내에 서는 리벨리온, 사피온코리아, 퓨리오사에이아이 등 의 스타트업이 AI 반도체 사업을 확장 중입니다.
AI 반도체의 발전 방향에 따라 CPU+GPU(1세대), ASIC(NPU)+FPGA(2세대), 뉴로모픽(3세대)의 칩 종류별로 분석하였고, 세대별 개략적인 특징은 아래와 같습니다.
•CPU + GPU(1세대)
전통적인 폰 노이만 구조를 따르고 있는 CPU 및 GPU는 높은 범용성 및 상대적으로 낮은 가격이라는 장점
이 있지만, AI 연산성능 및 에너지 효율성이 낮다는 단점이 있습니다.
•FPGA+ASIC(NPU)(2세대)
- FPGA는 하드웨어를 재설계하지 않고 프로그래밍을 통해 사용 목적에 맞게 변경이 가능한 반도체로, 높은
유연성을 지니나 전력 소모량이 많고, 가격이 비싸다는 단점이 있습니다.
- ASIC(NPU)는 특정 용도에 맞게 제작된 주문형 반도체로, AI 연산속도가 빠르며, 전력 효율성이 높으나 설계 변경이 어려우며, 학습을 위한 설계가 어렵다는 단점을 지니고 있습니다.
•뉴로모픽(3세대)
전통적인 폰 노이만 구조에서 벗어나 인간의 뇌를 모방하여 설계된 반도체로, AI 반도체 중 가장 높은 연산 속도 및 전력효율을 지니고 있지만, 기술 성숙도가 낮고 비(非) 폰 노이만 구조로 인한 낮은 범용성이 단점이 있습니다.
출처. spri 소프트정책연구소
#인공지능 #AI반도체 #하드웨어혁신 #GPT3 #GPT4 #LLM #AI연산 #AI개발트렌드 #기술혁신 #딥러닝 #머신러닝 #컴퓨터비전 #GPU #CPU #GPGPU #NPU #TPU #ASIC #FPGA #뉴로모픽 #AI기술 #테크트렌드 #AI모델 #언어모델 #AI연구 #기술발전 #AI효율성 #에너지효율 #AI프로세싱 #AI하드웨어