Logistic Regression
·
DS & ML/Machine Learning
로지스틱 회귀, Logistic Regression Yes/No, True/False와 같은 두 가지로 나뉘는 분류 문제(=이진 분류)를 다룸 알고리즘의 근간을 선형 회귀 분석에 두고 있어 선형 회귀 분석과 상당히 유사함 분류 문제에 있어서 Baseline으로 자주 활용됨(타 모델과 비교 목적) 장점 단점 선형 회귀 분석만큼 구현하기 용이함 선형 회귀 분석을 근간으로 하고 있기 때문에, 선형 관계가 아닌 데이터에 대한 예측력이 떨어짐 계수(기울기)를 사용해 각 변수의 중요성을 쉽게 파악할 수 있음 코드 from sklearn.linear_model import LogisticRegression model = LogisticRegression() # 로지스틱 회귀 model.fit(X_train, y_tr..
Linear Regression
·
DS & ML/Machine Learning
선형 회귀, Linear Regression 가장 기초적인 머신러닝 모델 여러 가지 데이터를 활용하여 연속형 변수인 목표 변수를 예측해 내는 것이 목적 예측할 종속변수만 연속형 변수이면 되며, 그 외 변수는 연속형일 필요 없음 장점 단점 모델이 간단하기 때문에 구현과 해석이 쉬움 최신 알고리즘에 비해 예측력이 떨어짐 같은 이유로 모델링하는 데 오랜 시간이 걸리지 않음 독립변수와 예측 변수의 선형 관계를 전제로 하기 때문에, 이러한 전제에서 벗어나는 데이터에서는 좋은 예측을 보여주기 어려움 연속형 변수: 나이, 키와 같이 연속적으로 이어지는 변수(만족도, 키, 몸무게 등) 데이터 간의 크고 작음을 비교하거나 사칙연산 등을 할 수 있음 범주형 변수: 이어지는 숫자가 아닌 각 범주로 구성된 변수(계절, 성별 ..
머신러닝이란
·
DS & ML/Machine Learning
인공지능, 머신러닝, 딥러닝 인공지능: 인간의 뇌를 모방하는 모든 프로그램 머신러닝: 데이터를 기반으로 학습해 무언가를 예측하거나, 데이터 자체의 어떤 특성을 찾아내는 프로그램 딥러닝: 머신러닝 알고리즘 중 하나로, 인공 신경망에서 진화한 형태. 주로 이미지, 비디오, 자연어 분석에 쓰임 머신러닝(Machine Learning; ML) 1) 머신러닝 알고리즘으로 입력된 데이터(입력값과 정답값) 간의 관계를 밝혀내서 2) 그 관계를 새로운 프로그램(모델)으로 만들어 3) 새로운 데이터가 주어졌을 대 결과를 예측하는 일련의 과정 머신러닝 알고리즘에 입력값과 해당 정답값에 대한 결과값을 입력해 주면, 입력값과 정답값 간의 관계를 찾아 머신러닝 알고리즘이 새로운 프로그램(모델)을 만듦 그 후 새로운 프로그램에 ..
캐글 필사 | Porto Seguro’s Safe Driver Prediction - 1. Data Preparation & Exploration
·
DS & ML/Kaggle
Porto Seguro’s Safe Driver Prediction 데이터에 관련된 커리큘럼에는 총 4가지의 노트북이 존재한다. 그중 한 가지를 마무리한 지 거의 한 달이 가까이 되었다. 중간에 코테에 한 번 도전해 보려고 준비하느라 그리고 지금 진행 중인 소모임 프로젝트에 시간을 많이 투자해야 할 것 같아 캐글 필사의 우선순위가 뒤로 조금 밀렸다. 다른 노트북까지 필사를 완료하기까지 시간이 조금 걸릴 것 같아 완료한 한 개의 노트북에 대한 회고를 작성해보려 한다. Data Preparation & Exploration 이름에서 볼 수 있듯이 모델링 과정 없이 전처리를 위주로 진행하는 노트북이다. 다음과 같이 feature들은 접두사, 접미사 형태로 구성되어 있으며 개수는 59개로 굉장히 많은 편이다. ..
캐글 필사 | Titanic - Machine Learning from Disaster
·
DS & ML/Kaggle
더 많은 데이터를 경험하고 코드 작성에 대한 스킬을 습득하기 위해 캐글 필사를 시작하였다. [이유한님] 캐글 코리아 캐글 스터디 커널 커리큘럼을 따라서 진행할 계획이며, 첫번째 데이터에 대한 필사는 마친 상태이다. 필사는 캐글 안에서 진행하며 노트북은 모두 깃허브에 업로드 하고 있으며, 새로 알게된 함수나 헷갈렸던 부분에 대해서는 Issue에 하나씩 추가하고 있다. 하나의 데이터에 대한 여러 노트북들을 모두 완료하면 하면서 느낀 점과 새로 알게된 부분들을 블로그에 기록하려고 한다. 첫번째 데이터인 타이타닉에 대한 세가지 노트북을 3주간에 걸쳐 모두 필사하였다. 1. EDA To Prediction(DieTanic) 노트북 이름에서 볼 수 있듯이 예측을 위해 EDA(탐색적 데이터 분석)을 위주로 진행하였다..