본문 바로가기
Python/Pandas & numpy

판다스 : 기초통계

by Mr.DonyStark 2024. 1. 31.

□ 형식

#단일그룹
변수명.groupby('필드명')['필드명'].집계함수()
#다중그룹
변수명.groupby(['필드명1','필드명2'])[['필드명3','필드명4']].집계함수()

□ 예제

#라이브러리 호출
import pandas as pd  #라이브러리 약어지정

# csv 파일 불러오기
# ┗ pandas.read_csv(경로, sept='\t')
ex_df = pd.read_csv('경로', sep='\t') #data폴더에서 tsv파일 호출

#연도별 평균 기대수명
ex_df.groupby('year')['lifeExp'].mean()
#연도와 대륙별 평균 기대수명과 gdp
ex_df.groupby(['year','continent'])[['lifeExp','gdpPercap']].mean()
#대륙별 국가의 빈도수
ex_df.groupby('continent')['country'].nunique()
#대륙별 국가의 행개수
ex_df.groupby('continent')['country'].value_counts()

#평균기대수명 시각화 .plot()
yearly_life =ex_df.groupby('year')['lifeExp'].mean()
yearly_life.plot()

ex_df.groupby('continent')['country'].nunique() 결과(대륙별 빈도수) / ex_df.groupby('continent')['country'].value_counts()(대륙별 국가행수)
yearly_life =ex_df.groupby('year')['lifeExp'].mean() yearly_life.plot()