2주차 일정
8/14 - 8/16 데이터 처리
8/17 - 8/18 데이터 분석 및 의미 찾기
8/14 - 8/16 데이터 처리
1주차에 배웠던 pandas를 활용해 데이터를 변경, 수정 및 결합하는 방법 그리고 matplotlib과 seaborn을 활용한 시각화 기법들을 배우는 수업이었다.
시각화 메서드가 워낙 많고 다양하다 보니 어떤 그래프를 그릴 때마다 파라미터는 어떻게 넣어야 하는지, 옵션은 무엇이 있는지 구글에 검색하는 게 일상이었는데 이번 수업을 통해서 자주 사용하는 그래프들은 확실하게 머릿속에 각인시켜 두었다.
- plt.plot
- plt.hist / sns.histplot
- plt.boxplot
- sns.kdeplot
- sns.barplot
- sns.countplot
에이블 시작 일주일 만에 찾아온 빨간 날 ^6^
약간의 여유를 즐기면서 복습도 잊지 않고 계속해 나가고 이번 주부터 시작한 알고리즘 스터디도 열심히 쫓아가고 있다.
16일부터는 17-18일 수업과 이어지는 단변량 분석에 대해 배웠다.
하루종일 배운 내용을 하나의 표로 정리하면 다음과 같다.
기초 통계량 | 시각화 | |
숫자형 | min, max, mean, std, 사분위수 | histogram, density plot, box plot |
범주형 | 범주별 빈도수, 범주별 비율 | bar plot, pie chart |
각 변수에 맞는 분석기법과 시각화 기법을 사용해야 하기 때문에 엄청 강조하셨던 기억이 난다!!
이거보다 더 강조하셨던 CRISP-DM 그림 🌀
프린트해서 앞에 놓고 매일매일 보라고 하시던 강사님.. ㅎ
빅분기 공부할 때 열심히 외웠던 기억이 떠올라서 프린트는 하지 않았습니다..
8/17 - 8/18 데이터 분석 및 의미 찾기
데이터 분석 및 의미 찾기에서는이변량분석, 가설점정, 평균 추정과 신뢰구간에 대해 배웠다.
이변량분석에서는 두 변수 사이 관계를 파악하기 위해 필요한 시각화, 수치화 기법을 열심히 배우고 실습해 보면서 분석을 위한 기초를 열심히 닦았다.
숫자 | 범주 | |
숫자 | - 시각화: 산점도 - 수치화: 상관분석, 상관계수 |
- 시각화: KDE plot |
범주 | - 시각화: sns.barplot - 수치화: t-test, ANOVA |
- 시각화: 모자익 플롯 - 수치화: 카이제곱검정 |
그리고 가설 검정을 수행하면서 x, y 변수 타입에 맞는 기법들을 머리에서 끄집어내 적용해 볼 수 있었다.
이전에 공모전이나 프로젝트들을 하면서 느꼈던 부분이 EDA가 정말 어렵다는 것인데, 사실 코드 뚱땅거리면서 시각화하고 수치화를 해도 그 값과 그림을 해석할 줄 모르면 말짱 도루묵이다.
그래서 EDA가 중요하다는 걸 알지만 어떻게 해석해야 할지 몰랐던 부분들도 이번 수업을 통해 조금이나마 깨우칠 수 있었다.
그리고 하나의 변수에 대해서 한 번의 EDA만 수행하는 것이 아닌 부분으로 나눠서 작은 단위 속에 있는 패턴이나 인사이트를 발견할 수 있다는 것도 알게 되었다!
2주차 내용들을 토대로 바로 미니프로젝트를 시작해야 해서 좀 더 꼼꼼하게 보고 모르는 부분은 확실히 해결해 정리를 해두었는데 바로 있을 미니 프로젝트에서 요긴하게 잘 써먹을 수 있길 바란다 💪
그리고 알고리즘 스터디도 시작했다!
최근에 Do it! 알고리즘 코딩테스트 책이 생겼는데 그저 노트북 높이 맞추기용 받침대로 사용하다가 우리 반 에이블러분이 스터디 모집글을 올려주셔서 받침대에서 다시 본연의 책 역할을 하고 있다.
막무가내로 문제를 많이 풀기만 해서 자료구조들이나 알고리즘에 대해 이론적 지식이 부족하다고 생각했는데 이번 스터디를 통해 갓.벽까진 아니더라도 이 알고리즘이 어떨 때 쓰이는 알고리즘인지 딱 요정도만이라도 확실하게 알아가고 싶다.