로지스틱 회귀, Logistic Regression
- Yes/No, True/False와 같은 두 가지로 나뉘는 분류 문제(=이진 분류)를 다룸
- 알고리즘의 근간을 선형 회귀 분석에 두고 있어 선형 회귀 분석과 상당히 유사함
- 분류 문제에 있어서 Baseline으로 자주 활용됨(타 모델과 비교 목적)
장점 | 단점 |
선형 회귀 분석만큼 구현하기 용이함 | 선형 회귀 분석을 근간으로 하고 있기 때문에, 선형 관계가 아닌 데이터에 대한 예측력이 떨어짐 |
계수(기울기)를 사용해 각 변수의 중요성을 쉽게 파악할 수 있음 |
코드
from sklearn.linear_model import LogisticRegression
model = LogisticRegression() # 로지스틱 회귀
model.fit(X_train, y_train) # 모델 학습
pred = model.predict(X_test) # 예측
이진분류 평가 지표
- 정확도, accuracy
- 오차행렬
- 정밀도, precision
- 재현율, recall
- F1 Score
- 민감도
- 특이도
- AUC
다중공선성
- 독립변수 사이에 상관관계가 높은 때에 발생하는 문제
- A, B 변수가 모두 목표 변수를 양의 방향으로 이끄는 계수를 가지고 있을 때, A와 B의 상관관계가 매우 높으면 두 변수중 어떤 변수로 인해 y가 증가했는지 명확하게 알 수 없음
- 해결) 상관관계가 높은 변수 중 하나를 제거하거나 둘을 모두 포괄하는 새로운 변수를 만들어야 함
- 해결) PCA와 같은 방법으로 차원 축소를 수행할 수 있음
참고: 데싸노트의 실전에서 통하는 머신러닝
GitHub - dduniverse/ML-study: <데싸노트의 실전에서 통하는 머신러닝> 실습 노트북
<데싸노트의 실전에서 통하는 머신러닝> 실습 노트북. Contribute to dduniverse/ML-study development by creating an account on GitHub.
github.com
반응형