서론
과거 “데이터 엔지니어링 ≒ Apache Spark” 라고 알고 있었던 시절에, Apache Spark에 입문하려고 했다가 실패한 적이 있다. 지금 생각해보면 원인은 아래와 같았다.
- 당시 내가 접했던 강의는 Hadoop 클러스터 구성 + Spark + AWS 로 묶어 설명하는 강의였고, 내게는 갑자기 세 가지 이상의 새로운 tech stack들이 밀어닥치는 느낌으로 다가와 진입장벽이 생겼다
- python을 사용하는 데이터 분석가의 입장에서, IDE가 아니라 terminal에서만 작업하는 방식이 생소하게 느껴졌다
그렇게 실패했던 Apache Spark를 UDEMY 강의(Apache Spark 와 Python으로 빅 데이터 다루기)를 통해 다시 접하게 되었는데, 이제는 당시만큼 용어가 생소하지도 않고, 터미널에도 익숙해져 반감이 덜했다. 막상 쭉 들어보니 생각보다 진도도 수월하게 나가서, 약 일주일 간 SparkSQL, DataSets, Spark ML 파트 강의를 수강한 시점에서 리뷰를 작성해보기로 했다.
리뷰
이 강의는 Pyspark를 사용해 spark의 전반적인 기능들을 찍먹해 볼 수 있게 해준다. 초심자 입장에서 Spark는 설치 단계부터 쉽지 않은데, Windows OS 기준으로 설치 단계부터 Spark의 개념, RDD, SparkSQL, DataFrame 다루기, Spark 코드를 통한 알고리즘 문제 풀기, 클러스터 구성하기(Amazon Elastic MapReduce), Spark ML, Spark 스트리밍 순으로 커리큘럼이 구성되어 있어 아무것도 모르는 상태에서 시작하더라고 따라갈 수 있는 구성으로 되어있었다. 만약 데이터 엔지니어링 전반이 아니라 우선 Spark 자체를 배우고 싶다면 수강할 만한 강의라고 생각한다. 예제 자료도 풍부해서, 강의를 듣고 난 이후에 차근차근 예제 코드를 뜯어볼 수도 있었다.
이 강의는 아무래도 원래 인프라나 백엔드 등으로 커리어를 시작한 분들보다는, python을 주로 활용하는 데이터 직군 쪽이 듣기에 조금 더 친화적인 면이 있다. Pyspark를 사용하기도 하고, 터미널이나 인프라 구성에 익숙하지 않더라도 일단 Python에 익숙하다면 듣기에 무리가 없을 것이라는 생각이 들었다.
다만 살짝 아쉬웠던 부분 중 하나는 Mac 사용자 입장에서 강의 내 안내가 따로 없어서 따로 진행해야 했다는 점이다. 강의 내 리뷰 란에 수강생들이 남겨둔 링크를 참고해 진행해야 했다. 설치 뿐만 아니라 코드 실행 과정에서도 오류 종종 있어서 구글링으로 해결해야 하는 부분들이 있었다. 다만 이런 것들은 공부의 일환으로 진행한다고 생각하면 크게 반감이 드는 부분은 아니었다.
시각자료가 풍부하지 않다는 점도 아쉬웠다. 주로 파란 배경에 간략한 영어 설명이 적힌 PPT로 강의가 진행되는데, 개념 설명이나 구현하고자 하는 것이 무엇인지 한 눈에 알아볼 수 있는 시각자료를 제시해줬다면 더 좋았겠다는 생각이 든다. 구두로 자세히 설명해주기는 하지만, 관련 용어에 대한 직역이 자막에 그대로 나와서 이해가 한 번에 되지 않아 중간중간 멈춰 검색해보는 시간이 필요했다.
마치며
Apache Spark에 입문해보고는 싶지만 엄두가 나지 않아 미뤄두고 있었지만, 이번 기회를 통해 비교적 수월하게 입문하게 되었다는 느낌이 든다. Spark 자체는 데이터 엔지니어에게도, 분석가에게도 유용하게 활용될 수 있는 분산 처리 시스템이고, ML/DL 라이브러리에 비해서는 자주 업데이트 되는 편이 아니라서 배워두면 두고두고 쓰기 좋겠다는 생각도 든다. Python과 기본적인 데이터 처리에 대한 지식 정도만 갖추고 듣는다면 쉽게 다이브 할 수 있는 강의이고, deep dive를 위한 자료도 알려주니 Apache Spark에 관심있는 분들에게는 추천한다.
* 이 글은 글또 9기에서 활동하는 기간동안 UDEMY 강의 쿠폰을 지원받아 작성된 글입니다
Share article