플레이데이터 데이터엔지니어링 28기 10월 3주차 회고
2023.10.16 ~ 2023.10.20
Oct 23, 2023
ㅤ | 10월 16일 (월) | 10월 17일 (화) | 10월 18일 (수) | 10월 19일 (목) | 10월 20일 (금) |
학습내용 | Machine Learning
- Scaling
- 평가지표 | Machine Learning
- 평가지표(이진분류, 다중분류)
- 분류 모델 | Machine Learning
- 앙상블
(Randomforest, XGBoost, LightGBM, Catboost) | Machine Learning
- 앙상블
- HPO | Machine Learning
- 경진대회 마무리 및 발표 |
추가 학습 필요 내용 | ㅤ | EDA부터 결과도출까지 전 과정을 한번 쭉 따라쓰면서 주석달아보기 | ㅤ | ㅤ | 경진대회 회고록 리포트 작성 |
비고 | ㅤ | - | ㅤ | ㅤ |
1) 전반적인 느낀 점
쉽게 쉽게 이해하고, 적응이 되면 깊게 알아가는 방식이 필요하다. 모든걸 다 깊게 알 수는 없으니..
2) 좋았던 점 (좋았거나 내가 잘했던 점)
경진대회 score 3위로 마무리했다. public에서는 최종 1위였는데 살짝 아쉽지만 그래도 만족스럽다. 과적합을 조금만 더 줄일 수 있었다면 ㅠㅠ
굉장히 멀게만 느껴졌던 머신러닝 개념을 간단하게 나마 알아본 것이 굉장히 뿌듯했다. 이곳에 온 목적을 찾을 수 있었던 시간들이었다
3) 아쉬웠던 점 & 개선점
지식을 받아들이고 응용하는 것은 잘하는데, 맨땅에서 시작하려니 막막한 기분을 많이 느꼈다.
강사님 말씀처럼 머신러닝 지식이 가장 많을 때 데이콘에 나가보는 것이 좋은 것 같아 이번 주말에 준비를 많이 하려고했는데, 일정이 있어서 못한게 아쉽다. → 평일에 시간관리 좀 더 잘할
4) 기억해야할 점, 깨달은 점
코딩도 디자인이다. 목차를 잘 짜는 것이 중요하다 !
잘 모르겠으면, 제공된 자료 내 목차를 달달 외운다.
- 강사님 개인적 의견으로, train score와 test score가 10이상 차이나면 문제 있다고 본다.
- train score가 90이상은 맞추려고 노력했다, 그거 보다 낮다면, feature을 늘려야한다.
전처리 이후 feature들의 상관관계가 없을 수록 좋다. (feature들은 독립성을 가져야한다.)
독립성이 보장되지 않으면, 비슷한 feature들간에서 overfitting이 발생하게 된다.
5) 다음주 계획
팀을 꾸려서 데이콘 준비에 해본다. 코딩 디자인과 EDA를 중점적으로 해보려고 한다.
몸 건강도 중요하다! 지금처럼 운동을 꾸준히 간다
Share article