목록평균 (2)
개발은 처음이라 개발새발

이번 시간은 누락 데이터를 제거하는 것이 아니라 치환하는 작업을 진행하겠습니다. 데이터 분석의 품질을 높이기 위해서는 결측치가 많은 데이터를 제거하는 것도 방법이지만 데이터의 양이 품질을 결정하기도 하기 때문에 무작정 제거하기보다는 평균데이터로 누락 데이터를 치환하는 작업도 알아두면 좋습니다. 데이터를 치환하는 방법은 우선 mean()함수를 통해 데이터의 평균을 구한 뒤 fillna()함수로 결측치를 채우는 방법이 있습니다. 코딩을 진행해 보겠습니다. import pandas as pd import numpy as np df= pd.read_excel("판다스호.xlsx", sheet_name="Sheet1") print(df) mean_age = df['나이'].mean(axis=0) print('\n..

스포츠 데이터를 다루는 직업을 하면서 게임에 적용할 새로운 가공 데이터를 생성하거나 게임 페이지에 표출할 데이터를 만들어야 할 때 항상 패시브로 들어가는 데이터가 있다면 '평균'입니다. 분량이 많지 않다면 엑셀로 간다하게 할수도 있지만 한 선수의 시즌 전체, 더 나아가 해당 시즌에 출전한 모든 선수의 평균을 구해야 한다고 하면 개인 역량상 엑셀 함수만으로 꽤나 막막합니다. 이때 간단한 판다스 코드가 있다면 "groupby(['column']).agg({key: value})" 입니다. 우선 데이터를 불러옵니다. 전 개인적으로 크롤링한 kbl 21/22 정규시즌을 불러오겠습니다. import pandas as pd import numpy as np df = pd.read_excel("kbl.xlsx", s..