목록데이터분석 (70)
개발은 처음이라 개발새발
오늘은 책 한권을 소개해볼까 합니다. 데이터 분석을 하는 데 있어서 파이썬도 중요하지만 데이터를 저장하고 관리하는 것도 매우 중요한대요. 그러기 위해서는 DBMS라고 하는 데이터베이스를 관리하고 운영하는 시스템 공부도 중요합니다. 그래서 소개해 드릴 책은 그중에서 가장 기본서라고 할 수 있는 "이것이 MySQL이다"라는 책입니다. 저는 올해 들어서 파이썬과 판다스 공부를 열심히 하고 있는데요. SQL에 대해서 아주 모르는 것은 아니지만 좀 더 역량을 쌓기 위해서 하반기부터는 이것이 MySQL이다를 통해 SQL 공부도 열심히 해서 포스팅을 남겨보려 합니다. https://book.naver.com/bookdb/book_detail.nhn?bid=16345347 이것이 MySQL이다 - 『이것이 MySQL이..
안녕하세요. 이제 22/23 PL 개막이 5일 정도 남았는데요. D-5 기념으로 지난 시즌 프리미어리그 득점순위 탑 5 선수들의 경기당 주요 공격 지표에 대해 알아보겠습니다. 제목은 리그 Top 5 득점자들의 경기당 주요 공격지표로 하겠습니다. 근데 이제 파이썬을 곁들인... 늘 그랬듯이 활용한 스탯은 모두 fotmob 사이트(https://www.fotmob.com/)를 통해 모았습니다. 우선 잘 모은 데이터를 한번 확인해보겠습니다. 데이터를 불러오죠. import pandas as pd import numpy as np df= pd.read_excel('epl.xlsx',sheet_name='Sheet1') print(df) print('\n') league season team name assist..
https://data-so-hard.tistory.com/34 누락 데이터 치환하기1 [python/pandas] 이번 시간은 누락 데이터를 제거하는 것이 아니라 치환하는 작업을 진행하겠습니다. 데이터 분석의 품질을 높이기 위해서는 결측치가 많은 데이터를 제거하는 것도 방법이지만 데이터의 양이 data-so-hard.tistory.com 지난 편에서는 fillna() 함수를 통해 평균 수치를 결측치에 삽입하는 것을 진행해봤습니다. 오늘은 좀 더 디테일하게 평균 데이터를 삽입해보려고 하는데요. 우선 판다스호의 데이터를 살펴보겠습니다. 데이터를 보면 성인 컬럼에 man, woman, child 총 3가지의 값이 있는데요. 이럴 경우 단순 평균을 넣을 경우 데이터의 질이 나빠질 수 있습니다. 특히, chil..
이번 시간은 누락 데이터를 제거하는 것이 아니라 치환하는 작업을 진행하겠습니다. 데이터 분석의 품질을 높이기 위해서는 결측치가 많은 데이터를 제거하는 것도 방법이지만 데이터의 양이 품질을 결정하기도 하기 때문에 무작정 제거하기보다는 평균데이터로 누락 데이터를 치환하는 작업도 알아두면 좋습니다. 데이터를 치환하는 방법은 우선 mean()함수를 통해 데이터의 평균을 구한 뒤 fillna()함수로 결측치를 채우는 방법이 있습니다. 코딩을 진행해 보겠습니다. import pandas as pd import numpy as np df= pd.read_excel("판다스호.xlsx", sheet_name="Sheet1") print(df) mean_age = df['나이'].mean(axis=0) print('\n..
https://data-so-hard.tistory.com/31 isnull(), notnull() 누락 데이터 확인 [python/seaborn] 엑셀을 가지고 데이터를 다룰 때 가장 불편한 점이 있다면 데이터의 누락과 오류 같은 문제들을 바로 찾기가 쉽지 않다는 점입니다. 이번 시간에는 파이썬을 통해 누락 데이터에 대해 알아보는 data-so-hard.tistory.com 지난 편에서는 파이썬의 간단한 코드를 통해 엑셀에 저장된 데이터 중 누락된 부분을 확인해봤는데요. .이번 시간에는 이 누락된 데이터를 제거하는 방법에 대해 알아보도록 하겠습니다. 우선 지난 시간에 했던 코드를 들고 오겠습니다. import seaborn as sns df= sns.load_dataset('titanic') #누락 데..
엑셀을 가지고 데이터를 다룰 때 가장 불편한 점이 있다면 데이터의 누락과 오류 같은 문제들을 바로 찾기가 쉽지 않다는 점입니다. 이번 시간에는 파이썬을 통해 누락 데이터에 대해 알아보는 방법과 이를 제거하는 것에 대해 알아보도록 하겠습니다. 우선 데이터는 seaborn 라이브러리의 타이타닉 데이터셋을 사용해보겠습니다. 혹시 seabron 라이브러리가 없다면 아래의 코드를 이용해 설치해야 합니다. pip install seaborn 우선 데이터를 불러오겠습니다. import seaborn as sns df= sns.load_dataset('titanic') print(df.head()) 이렇게 df 옆에 .head()를 붙여 상단 5줄의 데이터만 확인해봤는데요. deck 컬럼을 보시면 누락 데이터에 "Na..
오늘도 축구 데이터를 가지고 df.plot의 다양한 그래프를 그려보고자 하는데요. 이번에 다뤄볼 데이터는 제가 최근에 입덕한 리버풀의 플레이메이커 트렌트 알렉산더-아놀드의 데이터입니다. 아놀드는 포지션은 오른쪽 풀백이지만 실제 경기를 보고 있으면 공격 전개시 중앙으로 침투하여 중앙 미드필더 같은 모습을 보이거나 우측에서 롱패스와 크로스를 통해 플레이메이커로서 98년생인 어린 나이에도 불구하고 굉장히 좋은 모습을 보여주고 있습니다.그래서 이번에 아놀드의 패스 관련 데이터를 수집해 그래프로 표현봤는데요. 참고한 사이트는 지난 번과 동일하게 fotmob을 통해 수집했습니다. https://www.fotmob.com/ FotMob FotMob is the essential app for matchday. Get..
안녕하세요, 개발새발입니다. 저는 최근에 일을 하면서 프리미어리그에 흠뻑 빠지게 돼 22/23 시즌을 앞두고 다끝난 21/22시즌을 다시보기 하고 있습니다. 그중에서 득점왕을 차지한 손흥민 선수의 경기를 많이 챙겨보고 있는데요. 이번 시간에는 지난 7년간 프리미어리그에서 활약 중인 손흥민 선수의 공격포인트(득점, 어시스트) 기록은 면적 그래프로 그려보도록 하겠습니다. import pandas as pd import matplotlib.pyplot as plt #한글 처리 from matplotlib import font_manager, rc font_path = "c:/windows/Fonts/malgun.ttf" #한글 폰트 경로 font_name = font_manager.FontProperties(..
지난 편에서는 한글 폰트를 사용했을 때 발생하는 오류를 해결했습니다. 이번 시간에는 matplotlib에서 제공하는 다양한 스타일을 소개하고 그래프를 좀 더 꾸며보기로 하겠습니다. 우선 지난 편에 만들었던 그래플 다시 한번 보겠습니다. 보게 되면 제목과 x,y축에 있는 한글들이 너무 작습니다. 그리고 연도들이 너무 붙어 있어 명확하게 무엇을 의미하는지 확인하기가 힘듭니다. 우선 이 3가지의 문제들을 해결해보겠습니다. 우선 연도부터 건드려보겠습니다. 숫자들이 붙어 있는 것은 크기를 줄여서 해결할 수도 있지만 그렇게 되면 너무 작아 안 보이는 것은 같겠죠. 이럴 때는 숫자의 각도를 변경해 해결할 수 있습니다. 그리고 표의 사이즈 크기를 키우는 것도 하나의 방법이니 모두 적용해보겠습니다. 그래프의 크기를 키우..
오늘은 파이썬 교재 중 데이터 분석에 필요한 판다스에 대해 공부할 수 있는 교재와 예제를 다운 받을 수 있는 사이트를 추천드리려고 합니다. 우선 교재는 아래의 링크에 해당하는 교재입니다. http://www.kyobobook.co.kr/product/detailViewKor.laf?ejkGb=KOR&mallGb=KOR&barcode=9788956748337 파이썬 머신러닝 판다스 데이터 분석 - 교보문고 너도 할 수 있어, 판다스!사회적으로 데이터 분석에 대한 관심이 커지면서 머신러닝에 입문하려는 사용자들도 늘어났다. 하지만 복잡하고 어려운 고급적인 수학과 통계학 이론 도서들로는 금방 www.kyobobook.co.kr 자료실은 아래 링크와 같습니다. http://infopub.co.kr/index.as..