본문 바로가기
Python/Pandas & numpy

csv 파일 불러오기 및 정보확인

by Mr.DonyStark 2024. 1. 31.

□ 라이브러리 호출 및 파일 불러오기

#라이브러리 호출
import pandas as pd  #라이브러리 약어지정

불러온 파일 / TSV형식

□ 데이터 프레임 기본정보 확인 : 변수명.info()

  ○ 컬럼(필드)의 종류 및 개수, 컬럼 타입 조회 가능

#라이브러리 호출
import pandas as pd  #라이브러리 약어지정

# csv 파일 불러오기
# ┗ pandas.read_csv(경로, sept='\t')
ex_df = pd.read_csv('경로', sep='\t') #data폴더에서 tsv파일 호출

###데이터프레임 기본정보 확인
#(1)불러온 데이터 타입 확인 : 데이터 기준 pandas.core.frame.DataFrame 출력
type(ex_df)
#(2)요약정보 확인
ex_df.info()
#(3)행/열 개수 확인 : 튜플형식으로 출력되며, 인덱스를 활용하여 행 또는 열만 조회 가능
ex_df.shape
ex_df.shape[0] #행 개수
ex_df.shape[1] #열 개수

 

  ○ 컬럼(필드)명/속성 확인 : ※파이썬은 문자열(텍스트) 타입은 str이지만, 판다스는 object로 표시함

#라이브러리 호출
import pandas as pd  #라이브러리 약어지정

# csv 파일 불러오기
# ┗ pandas.read_csv(경로, sept='\t')
ex_df = pd.read_csv('경로', sep='\t') #data폴더에서 tsv파일 호출

###데이터프레임 기본정보 확인
#(1)불러온 데이터 타입 확인 : 데이터 기준 pandas.core.frame.DataFrame 출력
type(ex_df)
#(2)요약정보 확인
ex_df.info()
#(3)행/열 개수 확인 : 튜플형식으로 출력되며, 인덱스를 활용하여 행 또는 열만 조회 가능
ex_df.shape
ex_df.shape[0] #행 개수
ex_df.shape[1] #열 개수
#(4)컬럼명/속성확인
ex_df.columns #컬럼명 확인
ex_df.dtypes #컬럼속성 확인

 

  ○ 데이터 최상/하위 5개씩 조회 또는 특정개수만큼 조회

#라이브러리 호출
import pandas as pd  #라이브러리 약어지정

# csv 파일 불러오기
# ┗ pandas.read_csv(경로, sept='\t')
ex_df = pd.read_csv('경로', sep='\t') #data폴더에서 tsv파일 호출

###데이터프레임 기본정보 확인
#(1)불러온 데이터 타입 확인 : 데이터 기준 pandas.core.frame.DataFrame 출력
type(ex_df)
#(2)요약정보 확인
ex_df.info()
#(3)행/열 개수 확인 : 튜플형식으로 출력되며, 인덱스를 활용하여 행 또는 열만 조회 가능
ex_df.shape
ex_df.shape[0] #행 개수
ex_df.shape[1] #열 개수
#(4)컬럼명/속성확인
ex_df.columns #컬럼명 확인
ex_df.dtypes #컬럼속성 확인
#(5)최상/하위 5개 조회 및 N개조회
ex_df.head() #위 5개
ex_df.tail() #아래 5개
ex_df.head(N) #위 N개
ex_df.tail(N) #아래 N개
ex_df.tail(n=N) #N번째 행의 데이터 조회

 

  ○ 특정컬럼 또는 복수컬럼지정 후 조회

위 로우데이터에서 특정 필드 또는 복수개의 필드로만 조회 진행

#라이브러리 호출
import pandas as pd  #라이브러리 약어지정

# csv 파일 불러오기
# ┗ pandas.read_csv(경로, sept='\t')
ex_df = pd.read_csv('경로', sep='\t') #data폴더에서 tsv파일 호출

ex_df['country'] #단일컬럼 조회
ex_df[['country','continent','year']] #복수컬럼 조회 : 복수개 입력시 리스트화하여 [] 로 감쌈

 

'Python > Pandas & numpy' 카테고리의 다른 글

판다스 : 시리즈, 데이터프레임 생성  (0) 2024.01.31
판다스 : 기초통계  (0) 2024.01.31
판다스 : loc와 iloc  (0) 2024.01.31
판다스(Pandas)/데이터프레임/시리즈  (0) 2024.01.31
파일 유형별 컨트롤  (0) 2024.01.31