4월 군복무를 마치고 동기 형으로부터 "같이 해볼래?" 라는 이야기와 함께 시작하게 된 동아리가 바로 쿠다였다. 근데.... 벌써 끝이 났다 ㅠㅜㅜ..(약간의 스포를 미리 하자면-> 5기엔 운영진으로..?) 데이터 분석 분야에 대한 막연한 관심만 있던 필자에게 KHUDA는 굉장히 거리감 느껴지는 동아리였다. 한번도 해본 적이 없었으니.. 무엇보다 동아리 중에서 자기소개서와 면접을 보는 동아리??? 라는 의문이 들기도 했다. (요즘 동아리들은 다 하는건가? 사실 잘 모르겠다.. 군바리에서 이제 막 예비군 1년차가 된 20학번 아저씨다 보니..)
하여튼 질문 내용과 면접은 크게 어렵지 않았다. 지금 기억나는 건 pandas나 numpy 등 python 모듈 사용 가능에 대한 여부? 뭐 iloc이라던지 행/열 제거 과정, 전처리, 분석 등등에 대한 기본적인 개념, 코드 예시에 대해 물어봤다. 이번 학기 본격적으로 소융 복전을 시작하기 전 공부했던 내용들이 나온 덕분에 대답은 어렵지 않게 했다. 다만 데이터 분석, 인공지능 분야에 대해 기초적인 지식이 없다보니 막연한 두려움이 앞섰다.
특히 수학적 베이스가 상대적으로 이공계 계열의 학생들보다 부족하다보니 그런 생각이 들었던 게 아닐까.. 이번 학기를 마치면서도 사실 뼈저리게 느꼈다. 대학 수학이라지만, 고교 과정에서 나왔던 여러 개념들이 적용되지 않아서야 풀 수 없는 문제들도 많았고, 남들은 다 아는데 나만 모르는 그런... 뭐랄까, 분함? 박탈감?(ㅋㅋㅋ)을 좀 느꼈다. 여튼 그런 두려움이 있었지만, 나의 호기심과 열정을 누가 말리랴! 일단 도전해보자 하면서 본격! 쿠다 동아리를 시작하게 되었다.
2. 정규 세션
6월 한 달과 7월은 정규세션이라고 해서 쿠다 내부적으로 머신러닝, 인공지능에 대해 학습하는 과정이었다. 네이버 블로그에 정리한 글들이 그 과정의 예시인데, 추후 Tistory에도 포스팅하려 한다(복습 차원에서!). 교재는 '혼자 공부하는 머신러닝 + 딥러닝'이라는 교재를 사용했고, 1주일마다 한 챕터씩 각자 공부하고 조별로 파트를 나누어 공부한 내용에 대해 발표하는 형식이었다. 음, 우선 첫인상은 굉장히 단순명료하고 재밌게 다가왔다. 내가 생각하는 머신러닝은 이게 아닌데..? 알파고나 chatGPT에서 쓰이는 인공지능이 이런 건가? 하면서 웃어넘긴 예제들도 많았다. 저자의 의도대로 쉽게 다가갈 수 있어서 굉장히 좋았고, 첫 접하는 개념임에도 불구하고 이해하면서 넘어갈 수 있다는 사실에 막 감격스럽기도 했다.
하지만... 머신러닝과 인공지능에 대해 문외한이었던 필자에게 벅찰 정도의 어려운 개념들도 꽤 있었다. 지금 당장 생각나는 거라면.. 음 차원축소(pca)라던지, 손실함수, 에포크? 와 같이 다소 난해한 개념이 있었다. (당장 내년에 기계학습수업은 어떻게 듣냐ㅠㅠㅜ.. 걱정된다.) 다시 공부하고는 있지만, 당시엔 모르면 넘어갔던 적도 꽤 많아서 그 점이 좀 아쉽긴 하다.
8월에서 9월 넘어가는 주였던 걸로 기억하는데, 2주 정도의 시간이 주어진 채 토이 프로젝트를 진행하게 되었다. 당시 우리 2조는 총 6명의 많지도 적지도 않은 인원들로 이루어졌고, 짧은 기간 동안 발빠르게 프로젝트를 진행했다. 당시 우리의 프로젝트명은 '다양한 책 추천 알고리즘을 이용한 책 추천 시스템'으로 필자가 아이디어를 제시했다. 과거 필자가 OUTTA 부트캠프에서 진행했던 상품 추천 시스템에서 아이디어를 따와, 알라딘이라던지, 교보문고에서 보여주고 있는 책 추천 알고리즘의 구현을 우리가 실제로 해보기 위해서였다.
추천 시스템의 알고리즘들은 개인화, 비개인화를 거쳐 협업필터링, 컨텐츠 기반 필터링, 하이브리드 필터링 등등 세부적으로 나뉜다. 그 가운데 우리 2조는
Memory-based CF 중 User-based CF, Item-based CF 구현
Model-based CF 중 Bayesian Network CF 구현
을 진행했고, 필자는 그 가운데 전처리 과정과 발표를 맡았다. 전처리 과정을 간단하게 짚고 넘어가면, 모델링 파트에서 전처리 과정을 요청하면 해당 api를 따와 크롤링, 시각화 과정을 거쳤고, 또 요청사항에 맞게 임의적으로 데이터를 추가하거나 이상치를 제거하는 등 간단하게만 진행했다.
정규 세션과 토이 프로젝트가 끝나고, 중간고사를 기점으로 KHUDA는 심화 트랙 세션을 진행했다. 방학 동안 배웠던 머신러닝과 기초적인 데이터 분석 지식을 토대로 본격적으로 우리의 관심사에 맞게 공부를 진행했다. 필자는 마케팅, 기획 분야에 관심이 많았기 때문에 '데이터 비즈니스' 트랙을 선택했다. (NLP, 금융, CV, 데이터 엔지니어링 등 다양한 세션이 있었다!) 우리 트랙에 대해 간단하게 소개하자면,
'Data Business Track' "데이터비즈니스 트랙에서는 비즈니스 분야에서 많이 사용되는 기초통계와 다변량 통계 모형을 다룹니다. 데이터분석 공모전, 대회 또는 프로젝트에 참여할 때 유용하게 사용되는 통계적 방법론들을 배웁니다. 데이터비즈니스의 목표는 이런 통계적 방법론을 단순히 사용하는 것에서 넘어 그 방법론을 왜 사용하고, 원리는 무엇인지 알고 사용하자는 것입니다. 교재의 설명을 넘어 수학적 원리 및 개념을 이해하고 탐구하고자 합니다."
라는 목표를 갖고 약 9주 간의 커리큘럼을 거쳐 심화 트랙 컨퍼런스를 끝으로 준비한 프로젝트를 발표하는 과정이었다. 아래 글에도 언급했지만, 심화 트랙 간 공부했던 여러 통계분석 기법들과 활용 방안, 교재를 통해 얻은 우리의 학습 과정을 블로그에 꾸준하게 정리하고자 했다.
만약 통계 분석을 바탕으로 한 비즈니스적 인사이트를 도출하고 싶은 사람들이라면, 혹은 ADP와 같은 데이터 분석 자격증이 필요한 사람들이라면 한 번씩 글을 참고해봐도 좋을 듯하다.
5. 심화 프로젝트
+) 쿠다 4기의 끝
마지막으로 심화 트랙 프로젝트다. 본 프로젝트에 대한 회고글과 내용들은 아래 글에 첨부했으니, 궁금하면 들어가서 읽어 보시길~~
쿠다 4기를 마치면서..
정말.. 어떻게 지나간 지도 잘 모르겠는 6개월이다.. (군대에 있을 땐 그렇게 안 가던 시간이..) 사실 걱정이 굉장히 많았다. "어떻게 하면 이과 애들에게 밀리지 않고 잘할 수 있지?", "만약 따라가지도 못하면 어떡해?" 처럼 정말 근심 걱정이 가아아아득했던 필자에게 KHUDA는 정말 감사하고도 고마운 존재였다.
가장 좋았던 건 역시 부족했던 자신감을 다시 심어준 것! 개선해야 할 점을 계속해서 짚어주고 노력하라고 되새겨주었다!! 그리고, 4기 수료를 기점으로 5기 운영진에 도전했다. (잘할 지는 미지수지만ㅎㅋㅋㅋㅋ) 생각하고 있던 부처는 교육부나 대외협력부였지만, 아마도 기획부로 옮겨질 듯하다.
여튼 중요한 건 쿠다에 대한 애정이 남았기 때문에 필자가 경험했던 재미와 즐거움을 5기 회원들에게도 전달해주고자 한다. 학교에 입학하고 정말 첫 본격적인 동아리 활동이 아니었을까 싶은데, 잘할 수 있으면 좋겠다.. 5기 과정에 대해서는 회고글보다는 그때그때의 배움과 동아리 활동들을 정리하여 포스팅해보고자 하니, 잘 지켜봐주길!