[빅데이터] Data Processing Model

Oct 27, 2023
[빅데이터] Data Processing Model

MPP (Massively Parrel Processing - 고속병렬처리방식)

  • 하나의 쿼리가 여러개의 프로세스 분산되고, 분산된 프로세스가 병렬로 수행된 다음 결과물이 다시 병합되는 방식.
  • 하나의 CPU에 대응하여 하나의 디스크가 존재하며, 이 둘은 하나의 노드로 기능함. 그리고 이들은 단일 컴퓨터의 경우엔 고속의 버스로, 분산된 환경에서는 고속화된 네트워크로 연결되어 있음.
  • 처리 성능은 노드의 수에 좌우됨. 따라서 CPU의 개수가 중요하며, CPU에 대응하기 위해 디스크의 개수도 증가해야 하므로 고사양의 컴퓨팅 방식임. → 상업적 목적의 활용이 어려움.
 
notion image
 
 

Bulk Synchronuous Parallel system

  • 프로세스를 단순이 분산시키는 것에서 더 나아가, 프로세스 내부 지역 메모리 데이터를 원본 데이터셋 메모리와 동기화 하는 방식임.
  • 지역 연산/통신 연산으로 두 가지 연산이 수행되며, 지역 연산↔동기화 연산과정 사이에는 슈퍼스텝이라는 작업이 수행됨. 지역연산의 결과는 슈퍼스텝 과정 중에는 유효하지 않으며, 슈퍼스텝 이후 동기화가 완료되어야만 유효해지며, 동기화가 완료되어야만 타 프로세서가 접근할 수 있다.
notion image
 

in-memory models

  • 실시간성을 확보하기 위한 데이터 프로세싱 모델로 in-memory db system, in-memory data processing system, in-memory realtime processing system으로 세분됨.
  • in memory model은 데이터를 하드 디스크가 아닌 메인 메모리에 모두 올려 서비스 수행하는 것. 메모리 가격의 하락으로 인해 가능해진 기술임.
  • 디스크↔RAM의 I/O 과정이 생략되면서 디스크 베이스 시스템보다 100가량 빠른 속도를 보임.
  • 단점 :
    • in-memory의 메모리는 휘발성 메모리임. 따라서 정전이나 전기적 이슈가 발생할 경우 데이터가 손실될 수 있는 위험이 있음. 이에 대한 대응으로 스냅샷(db 복사본)을 디스크에 저장하긴 하나 내구성이 보존되는 것은 아님.
    • 아무리 Ram의 개수를 증가시킨다 하더라도 Ram의 크기는 한정적임.
notion image
 

Map Reduce

Share article

MAchine Learning 공부하기