pandas

· TIL/python
다음과 같은 데이터프레임에 engine, mileage, max_power 등 각 값에 숫자와 문자가 함께 있는 컬럼들이 있다. 이런 컬럼들에서 숫자와 문자를 분리하기 위해 str.split() 함수를 사용할 수 있으며, 실행 결과는 다음과 같다. data['engine'].str.split() 이렇게 분리했을 때 숫자 값은 [0]번 인덱스에 존재하므로 다음과 같이 인덱스를 사용해 추출할 수 있다. data['engine'].str.split().str[0] 추출한 결과를 기존 데이터 프레임에 반영하기 위해서는 분리한 개수만큼의 코드를 반복해서 작성해야 한다. data['engine'] = data['engine'].str.split().str[0] data['engine_unit'] = data['en..
· TIL/python
DataFrame의 통계 정보를 확인하기 위해 describe()를 사용할 수 있다. 다음과 같이 int, object형의 데이터로 구성된 데이터프레임 data가 있다. 기본적으로 describe() 함수는 int, float 같은 숫자 데이터에 대한 통계 정보를 제공한다. data.describe() object형 데이터도 describe()를 사용할 수 있다. describe() 함수의 매개변수 include에 'object'를 전달해 주면 된다. data.describe(include='object') object 데이터에 describe 결과는 count, unique, top, freq 정보가 제공된다. count: 데이터의 개수 unique: 고윳값의 수(nunique의 결과와 같음) top:..
· TIL/python
pandas에서 데이터를 결합할 때 사용하는 merge(), join(), concat() 함수 사용 방법에 대해 정리해보려 한다. 다음과 같은 left, right 데이터를 사용한다. merge() 함수를 사용하면 기본적으로 공통된 컬럼을 기준으로 inner join(내부 조인)을 수행한다. inner join(내부 조인): 양쪽 테이블에서 공통된 키값에 대해서만 데이터 결합 따라서 left, right의 공통된 컬럼 key를 기준으로 결합하며, b, c, e에 대해서 내부 조인을 수행한다. left.merge(right) 내부 조인이 아닌 전체 조인(outer join)을 하고 싶으면 merge() 함수의 매개변수 how에 'outer'를 전달해 주면 된다. outer join(전체 조인): 공통되지..
· TIL/python
datetime 라이브러리는 날짜와 시간을 처리하는 다양한 기능을 제공하는 파이썬 라이브러리이다. date: 날짜 처리 오브젝트 time: 시간 처리 오브젝트 datetime: 날짜, 시간 처리 오브젝트 datetime 라이브러리를 사용하기 위해서는 datetime 패키지에서 datetime 라이브러리를 불러오면 된다. from datetime import datetime 현재 날짜와 시간을 출력하는 방법으로는 now, today 메소드가 있다. datetime.now() 또는 datetime.today()를 통해 현재 날짜와 시간을 알 수 있다. datetime 객체는 (년, 월, 일, 시, 분, 초, 밀리초) 형식으로 구성되어 있고, print를 이용하면 년-월-일 시:분:초.밀리초 형식으로 출력된다..
dduniverse
'pandas' 태그의 글 목록