본문 바로가기

python pandas12

Datetime & pd.to_datetime □ Dataetime ○ 호출 라이브러리 from datetime import datetime ○ KST kst_time = datetime.now() ○ UTC utc_time = datetime.now() ○ 시간별도지정 sample = datetime(1990,1,1) ○ 시간연산 kst_time = datetime.now() # kst시간 sample = datetime(1990,1,1) # 시간지정 result = kst_time - sample print(result) ○ 시간 표시형식 #YYYY-mm-dd 추출 nowDate1 = kst_time.strftime('%Y-%m-%d') #YY-mm-dd 추출 nowDate2 = kst_time.strftime('%y-%m-%d') #YYYY-m.. 2024. 2. 16.
판다스 : groupby, 멀티인덱스 활용 조회 □ 라이브러리 및 데이터 불러오기 #라이브러리 불러오기 import numpy as np import seaborn as sns #데이터 불러오기 titanic = sns.load_dataset('titanic') □ 지정한 필드로 데이터셋 생성 #1. 지정한 필드로 데이터셋 생성 new_titanic = titanic[['age','sex','class','fare','survived']] □ 특정열 복수 지정 후 그룹바이 → 아래 코드와 같이 groupby만 진행한다면 데이터는 데이터프레임 또는 시리즈가 아닌 단순한 객체로써만 존재함 #2. class와 sex필드로 그룹바이 group_titanic = new_titanic.groupby(['class','sex']) print(type(group_t.. 2024. 2. 8.
판다스 : .filter() 함수 □ filter 함수 ○ 데이터프레임 또는 시리즈에 대해 특정 조건을 적용하여 조건을 만족하는 요소만을 선택하는데 사용 ○ filter 함수는 주어진 함수 또는 조건을 각 그룹에 적용하고, 각 그룹에서 조건을 만족하는 데이터를 반환 ○ filter 함수는 그룹화된 객체에 대해 특정 조건을 적용하여 그 조건을 만족하는 그룹만을 선택하는 기능을 수행. 기본적으로, 조건을 만족하는 그룹은 그대로 유지되고, 만족하지 않는 그룹은 제외됨 □ 예제 ○ 데이터불러오기 #라이브러리 불러오기 import numpy as np import seaborn as sns #데이터 불러오기 tips = sns.load_dataset('tips') ○ size 필드의 데이터 분포현황 조회 tips['size'].value_coun.. 2024. 2. 8.
판다스 : .transform() □ 함수는 그룹별로 계산된 결과를 원본 데이터프레임에 다시 병합하는 역할수행 □ 주로 그룹별로 계산한 평균, 합 등의 값을 각 행에 적용하고자 할 때 사용 □ 예제 ○ 라이브러리 호출 및 데이터 불러오기 #라이브러리 호출 import pandas as pd import numpy as np #데이터 불러오기 df = pd.read_csv('C:/python/DataScience/Data/data/python_data/gapminder.tsv', delimiter='\t') ○ 함수정의 및 구룹화된 데이터 프레임에 transfom을 적용하여 값 조회 #함수정의 : 표준편차 def my_zscore(x): return ((x - x.mean()) / x.std()) #시리즈반환 : year필드로 그룹화 후 .. 2024. 2. 8.
판다스 : .melt() 함수2 (한 필드의 고정 값이 2개 이상시) □ 라이브러리 호출 및 데이터 불러오기 #라이브러리 호출 import pandas as pd #파일불러오기 weather = pd.read_csv('C:/python/DataScience/Data/data/python_data/weather.csv') □ 멜트 1차 시도 : 특정 열 기준으로 멜트작업 진행 ○ element 고정값이 2개(tmax, tmin)인 것을 확인 weather_melt = weather.melt(id_vars=['id','year','month','element'], var_name = 'day', value_name = 'temp' ) □ 멜트 2차 시도 : 특정 열 기준으로 멜트 재작업 진행 ○ .reset_index() : 인덱스 정리 + reset_index()를 활용하여.. 2024. 2. 7.
판다스 : 시리즈 □ 시리즈는 1차원 데이터, 데이터프레임은 2차원 데이터 형태로 구성됨 □ 시리즈 생성 ○ 인덱스란 행의 레이블을 의미함. 별도 지정안하면 인덱스는 0부터 자동생성됨 #시리즈 생성 : 인덱스 무 seriesdt = pd.Series([10,20,30,40,50]) #시리즈 생성 : 인덱스 유 #인덱스는 행의 레이블을 의미함. 별도 지정안하면 인덱스는 0부터 자동생성됨 seriesdt_index = pd.Series([10,20,30,40,50], index = ['국어','영어','수학','국사','세계사']) □ 인덱스 조회 #인덱스 확인 seriesdt_index.index print(seriesdt_index.index) □ 인덱스 수정 seriesdt_index.index = ['영어','한문',.. 2024. 2. 4.
판다스 : Merge □ 기본설명 및 함수기능 □ 예제 1 ○ 라이브러리 호출 및 파일 불러오기를 통한 데이터 프레임 생성 #라이브러리호출 import pandas as pd #csv불러오기 및 데이터프레임 생성 person = pd.read_csv('C:/python/DataScience/Data/data/python_data/survey_person.csv') site = pd.read_csv('C:/python/DataScience/Data/data/python_data/survey_site.csv') survey = pd.read_csv('C:/python/DataScience/Data/data/python_data/survey_survey.csv') visited = pd.read_csv('C:/python/Data.. 2024. 2. 2.
판다스 : 예제(concat, 정규표현) □ 예제 ○ 데이터 프레임 병합 ○ 필드 두개 생성 및 기존필드 값을 가공하여 신규 필드에 저장 - 정규표현 활용 - split 및 리스트 인데스 활용 □ 코드 import re #정규표현를 위한 라이브러리 호출 import pandas #판다스 라이브러리 호출 #데이터프레임 호출 및 병합 paper_2011 = pd.read_csv('C:/Users/romangrism/Desktop/Datasicence/Data/data/python_data/paper_information_2011.csv') paper_2012 = pd.read_csv('C:/Users/romangrism/Desktop/Datasicence/Data/data/python_data/paper_information_2012.csv') p.. 2024. 2. 2.
판다스 : 필드집계, 정렬(오름/내림차순), 컬럼추가 □ 필드간 연산 ○ 변수명[필드명].sum() ○ 변수명[필드명].mean() 등 □ 정렬 ○ 오름차순 : 변수명 = pd.sort_values(by = 필드명, absendng = True) ○ 내림차순 : 변수명 = pd.sort_values(by = 필드명, absendng = False) □ 컬럼추가 ○ 변수명[신규필드명] = 시리즈 데이터 □ 예제 : 평균 구하기, 평균보다 큰데이터, 정렬 ○ 데이터프레임생성 #데이터프레임 생성 scientists = pd.read_csv('C:/Users/romangrism/Desktop/Datasicence/Data\data/python_data/scientists.csv') scientists.head() ○ 평균 & 평균보다 큰 데이터 - 변수명[필드명].. 2024. 2. 2.