Naive Bayes
·
Machine Learning
나이브 베이즈 모델 Naive Bayes 베이즈 정리를 적용한 조건부 확률 기반의 분류 모델 조건부 확률: A가 일어났을 때 B가 일어날 확률 딥러닝보다 간단한 방법으로 자연어 처리를 원할 때 나이브 베이즈 모델을 사용 장점 단점 비교적 간단한 알고리즘에 속하며 속도 또한 빠름 모든 독립변수가 각각 독립적임을 전제로 하는데 이는 장점이 되기도하고 단점이 되기도 함 작은 훈련셋으로도 잘 예측함 실제로 독립변수들이 모두 독립적이라면 다른 알고리즘보다 우수할 수 있지만, 실제 데이터에서 그런 경우가 많지 않기 때문에 단점임 각 독립변수들이 모두 독립적이고 그 중요도가 비슷할 때 유용함 자연어 처리(NLP)에서 간단하지만 좋은 성능을 보여줌 범주 형태의 변수가 많을 때 적합하며, 숫자형 변수가 많은 때는 적합하..
KNN(K Nearest Neighbors)
·
Machine Learning
K-최근접 이웃 모델, KNN(K Nearest Neighbors) 종속변수가 범주형이며, 개수가 3개 이상인 다중분류(Multiclassification)을 다룸 거리 기반 모델로, 각 데이터 간의 거리를 활용해서 새로운 데이터를 예측 다중분류 모델에서 가장 간편히 적용할 수 있는 알고리즘으로 baseline으로 사용 주로 분류에 사용되며, 로지스틱 회귀로 해결할 수 없는 3개 이상의 목표 변수들도 분류할 수 있음 작은 데이터셋에 적합 장점 단점 수식에 대한 설명이 필요없을 만큼 직관적이고 간단함 데이터가 커질수록 상당히 느려질 수 있음 선형 모델과 다르게 별도의 가정이 없음 아웃라이어에 취약함 코드 from sklearn.neighbors import KNeighborsClassifier knn = ..
Google map 구글 맵 Place API 사용하여 장소 정보 가져오기
·
TIL/기타
구글 맵 API를 사용하기 위해서는 Google Cloud에 가입한 뒤 API 키를 받아야 한다. 무료 체험판 및 무료 등급 | Google Cloud $300의 무료 크레딧과 월별 한도까지 무료로 사용할 수 있는 Compute Engine, Cloud Storage 등 20여 개의 제품으로 Google Cloud에서 빌드하세요. cloud.google.com 시작하기를 누르고 과정을 따라가며 입력하다 보면 프로젝트 생성과 함께 최종적으로 API 키가 발급되고 아래와 같은 화면이 보이게 될 것이다. 그다음으로 라이브러리에 들어와서 필요한 API를 추가해주어야 한다. 사용할 Places API를 검색해 주고 노란색 박스친 부분을 클릭해 주면 된다.('관리'가 아닌 '사용'이라고 나타남) 그다음 다시 사용자..
Logistic Regression
·
Machine Learning
로지스틱 회귀, Logistic Regression Yes/No, True/False와 같은 두 가지로 나뉘는 분류 문제(=이진 분류)를 다룸 알고리즘의 근간을 선형 회귀 분석에 두고 있어 선형 회귀 분석과 상당히 유사함 분류 문제에 있어서 Baseline으로 자주 활용됨(타 모델과 비교 목적) 장점 단점 선형 회귀 분석만큼 구현하기 용이함 선형 회귀 분석을 근간으로 하고 있기 때문에, 선형 관계가 아닌 데이터에 대한 예측력이 떨어짐 계수(기울기)를 사용해 각 변수의 중요성을 쉽게 파악할 수 있음 코드 from sklearn.linear_model import LogisticRegression model = LogisticRegression() # 로지스틱 회귀 model.fit(X_train, y_tr..
Linear Regression
·
Machine Learning
선형 회귀, Linear Regression 가장 기초적인 머신러닝 모델 여러 가지 데이터를 활용하여 연속형 변수인 목표 변수를 예측해 내는 것이 목적 예측할 종속변수만 연속형 변수이면 되며, 그 외 변수는 연속형일 필요 없음 장점 단점 모델이 간단하기 때문에 구현과 해석이 쉬움 최신 알고리즘에 비해 예측력이 떨어짐 같은 이유로 모델링하는 데 오랜 시간이 걸리지 않음 독립변수와 예측 변수의 선형 관계를 전제로 하기 때문에, 이러한 전제에서 벗어나는 데이터에서는 좋은 예측을 보여주기 어려움 연속형 변수: 나이, 키와 같이 연속적으로 이어지는 변수(만족도, 키, 몸무게 등) 데이터 간의 크고 작음을 비교하거나 사칙연산 등을 할 수 있음 범주형 변수: 이어지는 숫자가 아닌 각 범주로 구성된 변수(계절, 성별 ..
JVMNotFoundException: No JVM shared library file (jvm.dll) found. Try setting up the JAVA_HOME environment variable properly.
·
TIL/오류해결
한국어 정보처리를 위한 파이썬 패키지 KoNLPy를 사용하는 과정에서 오류가 발생했다. konlpy를 설치는 정상적으로 되었으나, 형태소 분석기를 사용하려 하자 아래와 같은 JVMNotFoundException이 발생하였다. JVMNotFoundException: No JVM shared library file (jvm.dll) found. Try setting up the JAVA_HOME environment variable properly. JAVA_HOME 환경 변수에 jvm.dll이 없어서 발생한 오류임을 알 수 있었다. 나 같은 경우는, 노트북 블루스크린 때문에 눈물과 함께 메인보드를 한 번 교체하면서 모든 데이터가 전부 초기화되면서 JAVA도 삭제되었다. 노트북에 깔린 언어라곤 파이썬만 존재..