Python/Pandas & numpy
판다스 : 기초통계
Mr.DonyStark
2024. 1. 31. 23:23
□ 형식
#단일그룹
변수명.groupby('필드명')['필드명'].집계함수()
#다중그룹
변수명.groupby(['필드명1','필드명2'])[['필드명3','필드명4']].집계함수()
□ 예제
#라이브러리 호출
import pandas as pd #라이브러리 약어지정
# csv 파일 불러오기
# ┗ pandas.read_csv(경로, sept='\t')
ex_df = pd.read_csv('경로', sep='\t') #data폴더에서 tsv파일 호출
#연도별 평균 기대수명
ex_df.groupby('year')['lifeExp'].mean()
#연도와 대륙별 평균 기대수명과 gdp
ex_df.groupby(['year','continent'])[['lifeExp','gdpPercap']].mean()
#대륙별 국가의 빈도수
ex_df.groupby('continent')['country'].nunique()
#대륙별 국가의 행개수
ex_df.groupby('continent')['country'].value_counts()
#평균기대수명 시각화 .plot()
yearly_life =ex_df.groupby('year')['lifeExp'].mean()
yearly_life.plot()