판다스 : 데이터 핸들링 예제

□ 타이타닉 데이터 핸들링

○ 데이터불러오기

import numpy as np
import seaborn as sns
import pandas as pd
titanic = sns.load_dataset('titanic')

○ 특정필드 선정 및 셋지정

new_titanic = titanic[['age','sex','class','fare','survived']]

○ 특정필드 그룹바이 *그룹바이만 한다면 해당 데이터는 객체로써 존재함

grouped = new_titanic.groupby('class')

○ age 평균보다 아래인 데이터

new_titanic[new_titanic['age'] < new_titanic['age'].mean()]

○ age의 표준편차를 구하고 해당 값으로 구성된 신규필드 생성

def z_score(x):
    return (x - x.mean())/x.std()

new_titanic['z_score_new'] = grouped['age'].transform(z_score)
new_titanic

□ 기타 데이터 핸들링

○ 데이터 불러오기 및 첫행 필드명으로 적용되는 현상 방지하기 위해 header=None 사용

import numpy as np
import seaborn as sns
import pandas as pd
mpg = pd.read_csv('C:/python/DataScience/Data/data/python_data/mpg.csv', header = None)

○ 컬럼명 변경

mpg.rename(columns={
    0:'mpg',
    1:'cyl',
    2:'disp',
    3:'power',
    4:'weight',
    5:'acce',
    6:'year',
    7:'origin',
    8:'name'}, inplace=True)

○ 컬럼별 속성파악

mpg.dtypes

○ power 필드의 고유값 확인

a = mpg['power'].unique() #배열로 반환

○ origin 값 중 1 > USA , 2 > EU, 3 > JAPAN 으로 변경 후 신규필드를 생성하여 채우기

def change_value(x):
    if x == 1:
        return 'USA'
    elif x == 2:
        return 'EU'
    elif x == 3:
        return 'JAPAN'
#셋함수적용
mpg['origin'] = mpg['origin'].apply(change_value)

○ 특정 필드 타입을 범주형(category) 타입으로 변환

mpg['origin'] = mpg['origin'].astype('category')

저작자표시

'Python > Pandas & numpy' 카테고리의 다른 글

Datetime & pd.to_datetime (1)	2024.02.16
판다스 : 전처리 기본 함수 요약모음 (1)	2024.02.11
판다스 : groupby, 멀티인덱스 활용 조회 (0)	2024.02.08
판다스 : 데이터 필드 형변환 (0)	2024.02.08
판다스 : .numeric_only, groupby/get_group (0)	2024.02.08

Dandora.Blog.Ninety

판다스 : 데이터 핸들링 예제

'Python > Pandas & numpy' 카테고리의 다른 글

티스토리툴바

판다스 : 데이터 핸들링 예제

'Python > Pandas & numpy' 카테고리의 다른 글

관련글

티스토리툴바