본문 바로가기

Python/머신러닝+딥러닝 Ⅱ5

피처 스케일링(스탠다드 스케일러, 민맥스 스케일러) □ 피처 스케일링 ○ 표준화는 데이터의 피처 각각이 평균이 0이고 분산이 1인 가우시안 정규분포를 가진 값으로 변환하는 것 ○ 정규화는 서로다른 피처의 크기를 통일하기위해 크기를 변환해주는 것 - standardScaler : 평균이 0이고, 분산이 1인 정규 분포형태로 변환 (z score 변환) - MinMaxScaler : 데이터의 값을 0과 1사이의 범위 값으로 변환(음수값이 있으면 -1 ~ 1값으로 변환) *선형회귀, SVM 등은 스캐일링 기법등에 민감함 □ 코드 ○ 데이터 불러오기 및 평균, 분산 값 구하기 from sklearn.datasets import load_iris import pandas as pd iris = load_iris() iris_data = iris.data iris_.. 2024. 4. 6.
데이터 인코딩(레이블 인코딩, 원-핫 인코딩) □ 데이터 전처리 ○ 데이터클린징 ○ 결손값 처리(NULL/NaN처리) ○ 데이터인코딩(레이블,원핫인코딩) *머신러닝은 문자열을 취급하지않기 때문에 숫자열로 치환해야함 ○ 데이터스케일링 ○ 범위 척도를 맞추는것 ○ 이상치 제거 ○ Feature 선택, 추출 및 가공 □ 데이터 인코딩 : 머신러닝 알고리즘은 문자열 데이터 속성을 입력 받지 않으며 모든 데이터는 숫자형으로 표현되야함 ○ 레이블(Lable) 인코딩 - LabelEncoder 클래스 - fit(), transform() 이용 #데이터 인코딩 : 레이블 인코딩 from sklearn.preprocessing import LabelEncoder items = ["TV","냉장고","전자랜지","컴퓨터","선풍기","선풍기","믹서","믹서"] # .. 2024. 4. 6.
교차검증 Ⅱ □ Cross_val_score() ○ 폴드세트설정 + For문활용 트레이닝/검증 데이터 학습 + 에측평균 성능산출작업을 한번에 작업함 ○ 파라미터 - estimator : 모델 - x : feature 데이터 - y : 타겟(라벨) 데이터 - scoring : 평가함수 ex)accuracy, recall 등 - cv : 폴드시행 세트 수 #cross_val_score() from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import cross_val_score from sklearn.datasets import load_iris import numpy as np iris_data = load_iris() #데이터 저.. 2024. 3. 26.
교차검증 Ⅰ □ 학습 데이터를 다시 분할하여 학습 데이터와 학습된 모델의 성능을 일차 평가하는 검데이터로 나눔. □ 수능을 보기전 수많은 모의고사를 치룬다고 생각하면됨. □ K-Fold 교차검중과 Stratified K-Fold가 있는데 Stratified K-Fold를 많이 사용하는 편임. ○ 일반 K-Fold ○ Stratified K-Fold - 불균형한 분포도를 가진 레이블(결정 클래스) 데이터 집합을 위한 K-Fold 방식 - 학습데이터와 검증 데이터 세트가 가지는 레이블 분포도가 유사하도록 검증 데이터 추출 □ 예제 ○ 일반 K-Fold #라이브러리 from sklearn.tree import DecisionTreeClassifier from sklearn.metrics import accuracy_sco.. 2024. 3. 26.
사이킷런(scikit-learn)과 지도학습 모델, 데이터셋 구축 □ 사이킷런(scikit-learn) ○ 파이썬 기반의 다른 머신러닝 패키지도 사이킷런 스타일의 API를 지향할 정도로 쉽소 파이썬 스러운(단순) API를 제공 ○ 머신러닝을 위한 다양한 알고리즘과 개발을 위한 편리한 프레임워크와 API 제공 ○ 오랜 기간 실전환경에서 검증되어있으며 매우 많은 환경에서 사용되는 라이브러리 ○ 주로 NUMPY와 SCIPY 기반위에 구축된라이브러리임 ○ 사이킷런 버전확인 #사이킷런 버전확인 import sklearn print(sklearn.__version__) □ 지도학습 모델 분류 : Classifier 회귀/예측 : Regressor DecisionTreeCassifier LinearRegression RandomForestClassifier Ridge Gradien.. 2024. 3. 26.