개발은 처음이라 개발새발

누락 데이터 치환하기1 [python/pandas] 본문

파이썬/판다스

누락 데이터 치환하기1 [python/pandas]

leon_choi 2022. 7. 28. 11:39
반응형

이번 시간은 누락 데이터를 제거하는 것이 아니라 치환하는 작업을 진행하겠습니다. 데이터 분석의 품질을 높이기 위해서는 결측치가 많은 데이터를 제거하는 것도 방법이지만 데이터의 양이 품질을 결정하기도 하기 때문에 무작정 제거하기보다는 평균데이터로 누락 데이터를 치환하는 작업도 알아두면 좋습니다. 

 

데이터를 치환하는 방법은 우선 mean()함수를 통해 데이터의 평균을 구한 뒤 fillna()함수로 결측치를 채우는 방법이 있습니다. 코딩을 진행해 보겠습니다.

 

import pandas as pd
import numpy as np

df= pd.read_excel("판다스호.xlsx", sheet_name="Sheet1")

print(df)
mean_age = df['나이'].mean(axis=0)
print('\n')
print(mean_age)
print('\n')

df['나이'].fillna(mean_age, inplace=True)  
    
print(df.head(30))

NaN 값이 평균으로 채워진 것을 확인할 수 있습니다. 하지만 좀 더 디테일한 부분을 보자면 child는 어린아이인데 남자,여자, 아이의 모든 나이 평균인 25.034로 채워져 있습니다. 다음 시간에는 man, woman, child 이 3가지 조건별로 평균을 구하고 각각의 조건을 맞춰 결측치를 채워보도록 하겠습니다.

반응형