[Tutorial🔥] T1 2회 기출유형 Python
문제 1
import pandas as pd
# 데이터 불러오기
df=pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv')
# 'f5' 컬럼 기준 내림차순 정렬
df=df.sort_values('f5',ascending=False)
# 상위 10개 데이터의 'f5' 컬럼 최솟값으로 대체
df[:10]['f5']=df[:10]['f5'].min()
# 조건에 맞는 결과 출력
print(df.loc[df['age']>=80,'f5'].mean())
최솟값 대체하는 과정에서 loc를 사용하면 결과 값이 달라짐. 이유는?
문제 2
import pandas as pd
# 데이터 불러오기
df=pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv')
# df.shape # (100,8)
# 70% 데이터만 선택
df_new=df[:70]
std1=df_new['f1'].std() # 결측치 처리 전 표준편차
# 결측치 처리
df_new['f1']=df_new['f1'].fillna(df_new['f1'].median())
std2=df_new['f1'].std() # 결측치 처리 후 표준편차
# 결과 출력
print(abs(std2-std1))
문제 3
import pandas as pd
# 데이터 불러오기
df=pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv')
# 이상치 찾기(평균,표준편차 이용)
high=df.loc[df['age']>(df['age'].mean()+df['age'].std()*1.5),'age'].sum()
low=df.loc[df['age']<(df['age'].mean()-df['age'].std()*1.5),'age'].sum()
결과 출력
print(high+low)
반응형