목록코딩 (69)
개발은 처음이라 개발새발
데이터프레임은 구성의 형태와 속성이 균형하담녀 행 또는 열 중에 어느 한 방향으로 이어 붙여도 데이터의 일관성을 유지할 수 있습니다. 오늘은 기존 데이터프레임의 형태를 유지하면서 이어 붙이는 concat() 함수에 대해 알아보겠습니다. 우선 예제를 만들어 보겠습니다. import pandas as pd df1 = pd.DataFrame({'a':['a0','a1','a2','a3'], 'b':['b0','b1','b2','b3'], 'c':['c0','c1','c2','c3']}, index=[0,1,2,3]) df2 = pd.DataFrame({'a':['a2','a3','a4','a5'], 'b':['b2','b3','b4','b5'], 'c':['c2','c3','c4','c5'], 'd':['d2..
하나의 열이 여러가지 정보를 가지고 잇을 때 각 정보를 서로 분리해서 사용하는 경우가 있는데요. 그중에서 대표적인 것이 날짜 정보겠죠. 예를 들어 날짜라는 컬럼 안에 "2022-08-20" 이라는 정보가 담겨 있다면 날짜라는 컬럼에 연도, 월, 일 총 3가지의 정보가 담겨 있는 것입니다. 이름 같은 경우도 성과 이름을 모두 담고 있기 때문에 좀 더 데이터를 세분화해 다루기 위해서는 이를 분리해 구분하는 것이 좋습니다. 이번 시간에는 주가데이터 예제를 통해서 코딩을 진행해보겠습니다. import pandas as pd #데이터셋 가져오기 df = pd.read_excel('./주가데이터.xlsx') print(df.head(),'\n') print(df.dtypes,'\n') #연,월,일 데이터 분리하기 ..
데이터프레임의 열에 isin()매소드를 적용하면 특정 값을 가진 행들을 따로 추출할 수 있습니다. 이때 isin() 매소드 안에는 데이터프레임에서 추출하려는 값들을 리스트로 해서 입력하면 됩니다. 그렇다면 바로 예제를 통해 풀어보도록 하겠습니다. 먼저 비교를 위해 boolean indexing을 먼저 적어보도록 하겠습니다. import seaborn as sns titanic = sns.load_dataset('titanic') #함께 탑승한 형제 또는 배우자의 수가 3, 4, 5인 승객만 추출 - 불린 인덱싱 mask3 = titanic['sibsp'] == 3 mask4 = titanic['sibsp'] == 4 mask5 = titanic['sibsp'] == 5 df_boolean = titani..
파이썬을 통해서도 엑셀과 같이 필터링이 가능한대요. 오늘 다뤄볼 것은 특정 조건식을 작성해 이를 만족하는 값들만 뽑아낼 수 있는 불린 인덱싱(boolean indexing)에 대해 알아보겠습니다. 불린(boolean)은 시리즈 객체에 어떤 조건식을 적용하면 참(True), 거짓(False)인지를 판별하는 것인데요. 이를 토대로 참인 값들만 필터링 하는 것이 불린 인덱싱입니다. 오늘도 seaborn의 'titanic'예제를 활용해 불린 인덱싱을 하는 과정을 살펴보겠습니다. import seaborn as sns titanic = sns.load_dataset('titanic') # 10대 승객 찾기 mask1 = (titanic['age'] >= 10) & (titanic['age'] = 60 ) df_u..
안녕하세요, 이번에는 판다스에서 열의 순서를 변경하는 것에 대해 알아보도록하겠습니다. 이번 시간 예제는 seaborn에서 제공하는 타이타닉 데이터를 가지고 진행하겠습니다. 우선적으로 컬럼을 순서를 변경하는 데 있어 필요한 것은 컬럼의 리스트를 만드는 것입니다.그렇다면 컬럼 리스트를 만드는 것까지 코딩을 진행해보겠습니다. import seaborn as sns titanic = sns.load_dataset('titanic') df = titanic.loc[0:4,'survived':'age'] print(df,'\n') #컬럼 리스트 만들기 columns = list(df.columns) print(columns,'\n') survived pclass sex age 0 0 3 male 22.0 1 1 1..
이번 시간엔는 timestamp와 period를 가지고 인덱스로 활용하는 방법에 대해서 알아보겠습니다. 두가지를 인덱스로 활용하게 되면 기간별로 데이터를 분석하는 데 있어 굉장히 용이하겠죠? 기간별로 데이터를 분류하고 분석하는 것은 어찌보면 데이터분석에 있어 가장 많이 활용되고 기본적인 것이니 알아둔다면 도움이 많이 될 것으로 보입니다. 그렇다면 바로 코딩을 살펴보겠습니다. 인덱스로 지정하는 것은 그동안 많이 사용된 df.set_index()함수를 활용하면 됩니다. import pandas as pd df = pd.read_csv('stock-data.csv') #Date 타입 변경 df['new_date'] = pd.to_datetime(df['Date']) df.set_index('new_date',..
앞서 소개해드린 timestamp와 poried배열을 소개해드렸는데요. 이를 토대로 날짜 데이터를 분리해보도록하겠습니다. 예제는 주식 거래 데이터를 활용해보겠습니다. import pandas as pd df = pd.read_csv('stock-data.csv') print(df.head(),'\n') print(df.info(),'\n') Date Close Start High Low Volume 0 2018-07-02 10100 10850 10900 10000 137977 1 2018-06-29 10700 10550 10900 9990 170253 2 2018-06-28 10400 10900 10950 10150 155769 3 2018-06-27 10900 10800 11050 10500 13354..
판다스에서는 date_range()함수를 사용하면 여러 개의 날짜가 들어 있는 시계열 데이터를 만들 수 있다고 합니다. 이를 Timestamp 배열이라고 하는데요. 이밖에도 기간을 설정하는 Period 배열이 있습니다. 예제들을 통해 한번 어떻게 활용할 수 있는지 알아보도록 하겠습니다. 1.월 시작일 timestamp 배열 import pandas as pd ts_ms = pd.date_range(start='2022-01-01', #날짜 범위 시작 end= None, #날짜 범위 끝 periods= 6, #생성할 Timestamp 개수 freq = 'MS', #시간 간격(MS: 월의 시작일) tz='Asia/Seoul') #시간대(timezone) print(ts_ms,'\n') DatetimeInde..

지난 편에서는 21/22시즌 그라운드와 공중볼 경합 탑10을 확인해봤는데요. 이어서 지난 시즌 가장 많은 경기당 크로스 성공 개수와 그 선수들의 크로스 성공%를 한번 확인해보도록하겠습니다. #총 크로스 횟수가 50회 이상인 선수만 추리기 df2 = df1[df1['totalCross'] > 50].sort_values(by=['totalCross'], ascending=False) print(df2) #경기당 크로스 성공 개수 계산 df2['per_game_cross'] = round(df2['accurateCross'] / df2['game'],2) # 크로스 성공% 계산 df2['cross%'] = round((df2['accurateCross'] /df2['totalCross'])*100,2) #2..
오늘은 책 한권을 소개해볼까 합니다. 데이터 분석을 하는 데 있어서 파이썬도 중요하지만 데이터를 저장하고 관리하는 것도 매우 중요한대요. 그러기 위해서는 DBMS라고 하는 데이터베이스를 관리하고 운영하는 시스템 공부도 중요합니다. 그래서 소개해 드릴 책은 그중에서 가장 기본서라고 할 수 있는 "이것이 MySQL이다"라는 책입니다. 저는 올해 들어서 파이썬과 판다스 공부를 열심히 하고 있는데요. SQL에 대해서 아주 모르는 것은 아니지만 좀 더 역량을 쌓기 위해서 하반기부터는 이것이 MySQL이다를 통해 SQL 공부도 열심히 해서 포스팅을 남겨보려 합니다. https://book.naver.com/bookdb/book_detail.nhn?bid=16345347 이것이 MySQL이다 - 『이것이 MySQL이..