12주차 일정
10/23 - 10/27 미니프로젝트 5차
10/23 - 10/27 미니프로젝트 5차
미프라는 무한 굴레에 빠진 지 2주째.. 다음 주에 바로 6차 미프가 시작된답니다.. 아 즐겁다.. 하하호호^^
5차 미니프로젝트 중 처음 이틀은 AICE 시험 대비 강의가 있었다.
샘플 문항만 봤을 땐 이 정도면 할 만하지! 싶다가도 이런저런 제약사항들이 꽤 많아서 실제 시험은 어떨지 직접 문제를 마주쳐야만 알 수 있을 거 같은 느낌..
이번 팀은 유독 처음 함께 팀을 하는 분들이 많았는데 팀원분들과 서로 코드 리뷰를 하면서 새로 알게 된 함수들도 있었어서 나름 쏠쏠한 재미가 있었다!
# include: 포함할 type
df.select_dtypes(include=[float,bool])
# exclude: 제외할 type
df.select_dtypes(exclude=['int64'])
# include, exclude 혼합 가능
df.select_dtypes(include =[float,object], exclude=['int64'])
# get_dummies는 기본적으로 object 컬럼에 대해서만 진행
pd.get_dummies(df)
# DataFrame.plot.bar()로도 그래프 그리기 가능!
df.plot.bar()
그리고 남은 3일은 스마트폰 센서를 통해 측정된 데이터를 가지고 사용자의 행동을 분류하는 모델을 만들고 마지막 날에 개인 캐글 컴피티션을 진행했다.
여러분은 살면서 컬럼이 562개인 데이터를 보셨습니까?
저는 태어나서 처음 봤습니다..
이 데이터는 컬럼이 하도 많아서 data.info()도 안되더군요 ㅋ
단순히 6개의 행동을 분류하는 모델은 대체로 성능이 잘 나왔지만...
정적/동적 분류 후 각각 3개의 행동으로 분류하는 투 스텝 모델은 저주를 받은 것 마냥 100%에 임박하는 정확도가 나와 소름이 돋았다는 이야기
이게 맞아?라는 의문으로 모든 팀원들이 실소를 했지만 이게 정답이 맞다네요...
최종적으로 만든 모델이 98%의 성능을 내보여서 여전히 의심을 가진 채로 캐글 컴피티션에 도전장을 내밀었습니다.
아니 이런 근데 캐글 컴피티션은 다른 데이터가 주어져서 데이터 전처리부터 모델링까지 처음부터 모든 과정을 해야 하는 거였더라고요?!!
ㅇㅋ. 하루 만에 해내주지.
그 결과 trian, validation 데이터 기준, 0.984, 0.985의 정확도로 시작해 그들만의 리그를 펼친 결과 0.986을 달성할 수 있었다.
실제 test 데이터를 예측해 캐글에 제출한 결과 0.991의 성능을 보여서 오히려 더 신기했던🫨
좀 더 좋은 성능을 낼 수 있지 않을까? 하는 마음에 pycaret까지 손을 대고 말았다..
실행시간이 꽤. 정말 오래. 걸리지만 여러 모델을 한 번에 돌려볼 수 있다는 점은 정말 좋은 것 같다고 생각함!!!!!
가장 정확도가 높은 lgbm, xgb, et 세 모델을 가지고 Voting을 해보았으나 여전히 991 클럽에서 탈출할 수 없었고
lgbm을 계속해서 튜닝한 결과 993 클럽으로 신분상승을 이뤄내 최종적으로 13등에 안착했다 ✨✨✨
각종 인터넷 세상의 도파민에 중독된 2조 팀원분들의 힌트가 아니었으면 난 여전히 89 클럽에서 머물러 있었을지도?
이 자리를 빌려 감사감사 인사 전합니다🙇🙇♂️🙇♀️
그리고 5차 미프 마지막 날은 1,2반의 회식이 있었어요!!!
기존 9명이었던 인원이 16명으로 증가했는데 그 원인에는 나의 발언이 아주 큰 일조를 했다는..^^ 반장님 기쁘실 듯 ㅎㅎ
듣기로는 3차까지 가셨다던데.. 저 빼고 재밌는 얘기 하면 I am 슬퍼요. Next Time 함께해요.
궁금한 사람은 에이블스쿨 화제의 수도권 1,2반 반소식에서 보시길 ~.~ (영업대마왕)