DataFrame의 통계 정보를 확인하기 위해 describe()를 사용할 수 있다.
다음과 같이 int, object형의 데이터로 구성된 데이터프레임 data가 있다.
기본적으로 describe() 함수는 int, float 같은 숫자 데이터에 대한 통계 정보를 제공한다.
data.describe()
object형 데이터도 describe()를 사용할 수 있다.
describe() 함수의 매개변수 include에 'object'를 전달해 주면 된다.
data.describe(include='object')
object 데이터에 describe 결과는 count, unique, top, freq 정보가 제공된다.
- count: 데이터의 개수
- unique: 고윳값의 수(nunique의 결과와 같음)
- top: 가장 많이 등장하는 value
- freq: 전체 데이터에서 top에 나온 value의 개수
예를 들어 workclass 변수는 총 46043개의 값이 존재하며, 고윳값은 8개이다. 가장 많이 등장한 value는 Private이고 33906번 등장하였음을 알 수 있다.
describe() 함수의 include 매개변수에 원하는 데이터 형을 전달하면 해당 데이터에 대한 요약정보를 위와 같이 볼 수 있다.
숫자형과, 문자형 모두 보기 위해서는 include='all'로 설정하면 된다.
data.describe(include='all')
문자형 데이터들에 대해서 존재하는 unique, top, freq 정보에 대해서는 숫자형 변수의 값이 NaN으로 출력되며, 숫자형 변수의 통계적 요약정보에 대해서는 문자형 데이터들이 NaN으로 출력되는 것을 볼 수 있다.
더 자세한 정보는 아래 공식 문서에서 볼 수 있다.
데이터: https://media.githubusercontent.com/media/musthave-ML10/data_source/main/salary.csv