목록공부 (25)
개발은 처음이라 개발새발
안녕하세요. 드디어 50번째 포스팅을 하게 됐습니다. 대학생 시절 야구 기자를 하겠다 다짐한 이후에 네이버 블로그를 열심히 하던 시절 이래로 자주는 아니지만 꾸준히 한 결과물이라 개인적으로 기쁩니다. 50번째로 포스팅할 글은 SQL입니다. SQL은 데이터분석에 있어서 데이터베이스를 구축하고 데이터를 저장하는 데 필수적인 프로그램인데요. 열심히 공부 중인 만큼 꾸준히 포스팅해보도록 하겠습니다. 첫글로 SQL에서 테이블을 생성하고 데이터를 입력하는 것을 작성해보겠습니다. 우선 테이블을 생성하기 위해서 create table 문법을 활용해야 합니다. CREATE TABLE `member_tbl` ( `member_id` char(8) NOT NULL, `member_name` char(5) NOT NULL, ..
오늘은 책을 하나 소개해볼까 합니다. 최근에 데이터분석 업무를 하면서 통계학 비전공자인 저는 굉장히 한계를 느끼고 있는데요. 그래서 올해 하반기 목표로 통계학 전공자만큼은 아니지만, 심화학습을 하기 전 맛보기 정도로는 알자는 결심을 하게 됐습니다. 그렇게 책을 한권 구입하게 됐는데 바로 "세상에서 가장 쉬운 통계학 입문"입니다. http://www.kyobobook.co.kr/product/detailViewKor.laf?mallGb=KOR&ejkGb=KOR&barcode=9788990994004 통계학입문 - 교보문고 중학교 기초수학으로 3주 만에 끝내는 통계학마케팅을 위한 데이터 분석, 금융상품의 리스크와 수익률 분석, 주식과 환율의 변동률 분석 등 쏟아지는 데이터에서 의미 있는 정보를 뽑아내기 위 ..
오늘은 책 한권을 소개해볼까 합니다. 데이터 분석을 하는 데 있어서 파이썬도 중요하지만 데이터를 저장하고 관리하는 것도 매우 중요한대요. 그러기 위해서는 DBMS라고 하는 데이터베이스를 관리하고 운영하는 시스템 공부도 중요합니다. 그래서 소개해 드릴 책은 그중에서 가장 기본서라고 할 수 있는 "이것이 MySQL이다"라는 책입니다. 저는 올해 들어서 파이썬과 판다스 공부를 열심히 하고 있는데요. SQL에 대해서 아주 모르는 것은 아니지만 좀 더 역량을 쌓기 위해서 하반기부터는 이것이 MySQL이다를 통해 SQL 공부도 열심히 해서 포스팅을 남겨보려 합니다. https://book.naver.com/bookdb/book_detail.nhn?bid=16345347 이것이 MySQL이다 - 『이것이 MySQL이..
오랜만입니다. 오늘은 데이터분석에서 가장 중요한 정규화 작업에 대해 알아보도록하겠습니다. 정규화는 여러 열의 데이터가 들어 있을 때 모든 열의 데이터의 단위가 동일하면 더할나위 없이 좋지만 저희에겐 그런 행운은 없기에 단위가 서로 다른 열을 가지고 머신러닝을 하게 되면 머신러닝 분서 결과가 달라질 수 있습니다. 그렇기에 숫자 데이터간의 상대적인 크기 차이를 제거해 각 열에 속하는 데이터 값을 동일한 크기 기준으로 나눈 비율로 나타내는데 이를 두고 정규화(normalization)이라고 합니다. 정규화를 거친 데이터의 범위는 0~1 또는 -1~1이 됩니다. 정규화 작업중 기본적인 방법으로는 해당 열의 데이터를 열의 최대값의 절대값으로 나누는 방법이 있습니다. 이렇게 되면 가장 큰 값은 자기 자신과 나눈 것..
https://data-so-hard.tistory.com/31 isnull(), notnull() 누락 데이터 확인 [python/seaborn] 엑셀을 가지고 데이터를 다룰 때 가장 불편한 점이 있다면 데이터의 누락과 오류 같은 문제들을 바로 찾기가 쉽지 않다는 점입니다. 이번 시간에는 파이썬을 통해 누락 데이터에 대해 알아보는 data-so-hard.tistory.com 지난 편에서는 파이썬의 간단한 코드를 통해 엑셀에 저장된 데이터 중 누락된 부분을 확인해봤는데요. .이번 시간에는 이 누락된 데이터를 제거하는 방법에 대해 알아보도록 하겠습니다. 우선 지난 시간에 했던 코드를 들고 오겠습니다. import seaborn as sns df= sns.load_dataset('titanic') #누락 데..
안녕하세요. 지난 번에는 아놀드의 데이터를 다뤄봤다면, 이번에는 조금 더 재밌는 지도 그리기를 해볼까 합니다. 파이썬에는 'Folium'이라는 라이브러리가 있는데요. 이를 통해서 지도에 다양한 시각화 요소를 넣을 때 굉장히 유용하게 쓸 수 있는 라이브러리 입니다. 저는 이를 가지고 다가올 22/23시즌 프리미어리그 20팀의 홈구장이 표시된 지도를 만들어보려고 하는데요. 이를 위해서는 먼저 홈구장 마커를 찍을 잉글랜드 지도가 먼저 필요합니다. 우선 코드를 보시겠습니다. import pandas as pd import folium df= pd.read_excel('PL.xlsx',sheet_name='Sheet1',index_col=0) print(df) #잉글랜드 지도 만들기 England_map = fo..
오늘은 책을 한권 소개해볼까합니다. 보통 파이썬을 처음 공부하고자 마음 먹을 때, 특히 저와 같이 일을 하면서 필요성을 느껴 공부를 해보고자 할 때는 주변 지식이 없기에 무엇부터 시작해야 할지 꽤나 막막합니다. 그래서 이것저것 sns에서 광고하는 파이썬 강의 사이트를 찾아보며 이것저것 강의를 듣게 되는데요. 하지만 이렇게 시작하게 되면 금방 흥미를 잃어 강의를 완강하기가 꽤나 힘들더라고요. 왜냐하면 첫 번째로 일에 대한 필요성을 느껴 시작하게 됐다는 것은 내가 하는 실무에 바로 적용하길 원하다는 뜻인데, 사람들은 수많은 일을 하고 파이썬 다양한 곳에서 활용되고 있어 저에게 딱맞는 수업과 예제를 풀어보기란 정말 어렵습니다. 그리고 바로 실전에 활용하는 수업을 듣게 되면 기본 지식에 굉장히 소홀한 수업을 듣..
반복문을 활용한 합을 구하는 문제입니다. 문제를 쭉 읽어보면 n이라는 숫자가 주어졌을 때 1부터 n까지의 합산을 반복문을 통해 구해보라는 것인데요. 예제 1의 3을 입력했더니 출력이 6이 나오는 것을 감안했을 때 "1 + 2 + 3 = 6" 을 의미하는 것을 알 수 있습니다. 그렇다면 일단 n의 변수를 만들어야 겠죠? input() 함수를 활용할 것이고 연산을 해야 하기 때문에 int를 씌어야 합니다. 코드를 진행해 보겠습니다. n = int(input()) 변수 n을 만들었으니 반복문을 작성하기 전에 또 하나 만들어야 할게 있습니다. n은 어디까지나 반복문의 범위를 지정해주는 변수이기 때문에 반복문을 통해 더해질 변수를 하나더 적어야 합니다. 그 변수는 반복문을 통해 처음 더해졌을 때 1이 되어야 하니..
1, 2편에서는 선그래프에 대해 배웠다면 이제는 그래프의 다양한 종류에 대해 알아보겠습니다. df.plot 매소드를 통해서 여러 그래프를 만들 수 있는데요. 판다스에 내장된 그래프 종류는 아래와 같습니다. 선 그래프는 df.plot()을 통해서 바로 나올 수 있지만, 다른 그래프 종류들은 그렇지 않습니다. 다른 그래프를 그리기 위해서는 괄호 안에 " kind = " 옵션을 추가해 적용해야 합니다. 지난 시간에 사용한 남북한 발전전량합계 자료를 가지고 막대 그래프를 한번 그려보겠습니다. 코드는 아래와 같습니다. import pandas as pd import matplotlib.pyplot as plt df = pd.read_excel('./남북한발전전력량.xlsx', engine='openpyxl') #..
판다스는 데이터 분석뿐만 아니라 그래프를 통해 데이터의 시각화 역시 가능한 라이브러리인대요. 이번 시간에는 "df.plot()" 을 통해 데이터프레임의 데이터를 시각화 그래프로 표현하는 법을 배우겠습니다. 그렇다면 우선 데이터를 먼저 불러와야 겠죠. 지난 판다스 데이터 분석 자료실을 소개드린 적이 있는데요. 그중 "남북한발전전량.xlsx"을 활용해보겠습니다. 자료실이 궁금하신 분들은 아래의 링크를 통해 확인해주세요. https://data-so-hard.tistory.com/15 파이썬 머신러닝 판다스 데이터 분석 자료실 오늘은 파이썬 교재 중 데이터 분석에 필요한 판다스에 대해 공부할 수 있는 교재와 예제를 다운 받을 수 있는 사이트를 추천드리려고 합니다. 우선 교재는 아래의 링크에 해당하는 교재입니다..