pandas | describe()를 사용하여 object 데이터까지 확인하기

2023. 5. 15. 21:23·TIL/python

DataFrame의 통계 정보를 확인하기 위해 describe()를 사용할 수 있다.

 

다음과 같이 int, object형의 데이터로 구성된 데이터프레임 data가 있다.

 

기본적으로 describe() 함수는 int, float 같은 숫자 데이터에 대한 통계 정보를 제공한다.

data.describe()

 

object형 데이터도 describe()를 사용할 수 있다.

describe() 함수의 매개변수 include에 'object'를 전달해 주면 된다.

data.describe(include='object')

object 데이터에 describe 결과는 count, unique, top, freq 정보가 제공된다.

  • count: 데이터의 개수
  • unique: 고윳값의 수(nunique의 결과와 같음)
  • top: 가장 많이 등장하는 value
  • freq: 전체 데이터에서 top에 나온 value의 개수

예를 들어 workclass 변수는 총 46043개의 값이 존재하며, 고윳값은 8개이다. 가장 많이 등장한 value는 Private이고 33906번 등장하였음을 알 수 있다.

 

describe() 함수의 include 매개변수에 원하는 데이터 형을 전달하면 해당 데이터에 대한 요약정보를 위와 같이 볼 수 있다.

숫자형과, 문자형 모두 보기 위해서는 include='all'로 설정하면 된다.

data.describe(include='all')

문자형 데이터들에 대해서 존재하는 unique, top, freq 정보에 대해서는 숫자형 변수의 값이 NaN으로 출력되며, 숫자형 변수의 통계적 요약정보에 대해서는 문자형 데이터들이 NaN으로 출력되는 것을 볼 수 있다.

 

 

더 자세한 정보는 아래 공식 문서에서 볼 수 있다.

 

pandas.DataFrame.describe — pandas 2.0.1 documentation

The percentiles to include in the output. All should fall between 0 and 1. The default is [.25, .5, .75], which returns the 25th, 50th, and 75th percentiles.

pandas.pydata.org

 

데이터: https://media.githubusercontent.com/media/musthave-ML10/data_source/main/salary.csv

반응형
저작자표시 (새창열림)
'TIL/python' 카테고리의 다른 글
  • python | geopy 라이브러리를 사용하여 두 좌표간 거리 구하기
  • pandas | str.split()을 사용하여 하나의 컬럼을 여러개로 나누기
  • pandas | merge(), join(), concat() 함수 사용하기
  • python | 파이썬 이진 탐색 라이브러리 bisect 사용하기
dduniverse
dduniverse
  • dduniverse
    dduniverse
    dduniverse
  • 전체
    오늘
    어제
    • 분류 전체보기 (242)
      • Algorithm (123)
        • 알고리즘 이론 (8)
        • 백준 (19)
        • 프로그래머스 (83)
        • 구름 알고리즘 먼데이 챌린지 (13)
      • 빅데이터분석기사 (10)
        • 통계 (4)
        • 실기 (6)
      • KT에이블스쿨 (26)
      • FrontEnd (11)
        • React (5)
        • 기타 (6)
      • BackEnd (18)
        • Django (15)
        • Spring (3)
      • DS & ML (11)
        • Machine Learning (9)
        • Kaggle (2)
      • TIL (43)
        • python (22)
        • javascript (3)
        • 오류해결 (10)
        • 기타 (7)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
    • 관리
    • 글쓰기
  • 링크

  • 인기 글

  • hELLO· Designed By정상우.v4.10.0
dduniverse
pandas | describe()를 사용하여 object 데이터까지 확인하기
상단으로

티스토리툴바