[3rd-type1-1] 3회 기출유형 작업형1
문제 1
import pandas as pd
df = pd.read_csv("../input/big-data-analytics-certification/t1-data2.csv", index_col='year')
df=df.T # 행렬전환
print((df['2022년']>df['2022년'].median()).sum())
df.T를 통해 index와 columns의 위치를 바꿔 '2022년' 컬럼 기준 중앙값을 구하고자 함
문제 2
import pandas as pd
df = pd.read_csv("../input/big-data-analytics-certification/t1-data1.csv")
df=df.dropna(axis=0) # 결측치 제거(행: axis=0)
# print(len(df)*0.6) # 36.6
df=df[:int(len(df)*0.6)] # 앞에서부터 60% 데이터만 선택
print(df['f1'].quantile(0.75))
60% 데이터 선택 → len(df)*0.6
문제 3
import pandas as pd
df = pd.read_csv("../input/big-data-analytics-certification/t1-data1.csv")
# df.isnull().sum() # 결측치 확인
df_null=pd.DataFrame(df.isnull().sum(),columns=['null'])
# df_null[df_null['null_count']==df_null['null_count'].max()].index # Index(['f1'], dtype='object')
print(df_null[df_null['null']==df_null['null'].max()].index[0])
df.isnull().sum()의 결과로 출력되는 컬럼명과 결측치 개수를 데이터프레임으로 만들어 최댓값과 그에 대한 인덱스 찾기
반응형