Portfolio & Toy-Project10 타이타닉 생존자 예측 Machine Learning 구현 □ 개요 ○ 데이터전처리 - Null 처리 - 불필요한 속성 제거 - 인코딩 수행 ○ 모델학습 및 검증/예측/평가 - 결정트리, 랜덤포레스트, 로지스틱 획습 비교 - K 폴드 교차 검증 - Cross_val_score()와 GridSearchCV() 수행 □ 코드 ○ 데이터 불러오기 #라이브러리 import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib inline #matplolib이 그래프를 노트북 셀 아래에 인라인으로 바로 표시됨 import seaborn as sns #데이터 호출 titanic_df = pd.read_csv("./juData/train.csv") titanic_df.head() * 데이터 필.. 2024. 4. 6. 프로젝트 : 부산항만공사 서비스 제안관련 데이터분석-4 ㅁ 프로젝트 산출물 : https://busanportservice.streamlit.app/ Abstract Busan Port busanportservice.streamlit.app ㅁ선용품 관련 품목선정 중 주류 카테고리관련 데이터 크롤링에 대한 워드 크라우드 ○ 셀레니움 → 크롤링 활용 ○ 뷰티풀숲 → 크롤링 활용 ○ re → 전처리 활용 ○ wordcloud → 워드크라우드 활용 ○ stropwords → 불용어 사전 활용 ○ pandas → 전처리 활용 from selenium import webdriver #Selenium의 웹 드라이버를 사용하기 위한 모듈을 임포트 from selenium.webdriver.common.by import By #Selenium에서 사용하는 By 클래스를 임.. 2024. 3. 11. 프로젝트 : 부산항만공사 서비스 제안관련 데이터분석-3 ㅁ 프로젝트 산출물 : https://busanportservice.streamlit.app/ Abstract Busan Port busanportservice.streamlit.app ㅁ선용품 관련 품목선정 중 식품카테고리에 대한 워드 크라우드 활용 데이터 크롤링 ○ 셀레니움 → 크롤링 활용 ○ 뷰티풀숲 → 크롤링 활용 ○ re → 전처리 활용 ○ pandas → 전처리 활용 from selenium import webdriver #Selenium의 웹 드라이버를 사용하기 위한 모듈을 임포트 from selenium.webdriver.common.by import By #Selenium에서 사용하는 By 클래스를 임포트합. 웹 요소를 검색하는데 사용. from selenium.webdriver.comm.. 2024. 3. 11. 프로젝트 : 부산항만공사 서비스 제안관련 데이터분석-2 ㅁ 프로젝트 산출물 : https://busanportservice.streamlit.app/ Abstract Busan Port busanportservice.streamlit.app ㅁ부산항 주변 부동산 공실 데이터 크롤링 ○ 셀레니움 → 크롤링 활용 ○ 뷰티풀숲 → 크롤링 활용 ○ re → 전처리 활용 ○ pandas → 전처리 활용 from selenium import webdriver #Selenium의 웹 드라이버를 사용하기 위한 모듈을 임포트 from selenium.webdriver.common.by import By #Selenium에서 사용하는 By 클래스를 임포트합. 웹 요소를 검색하는데 사용. from selenium.webdriver.common.keys import Keys #키.. 2024. 3. 11. 프로젝트 : 부산항만공사 서비스 제안관련 데이터분석-1 ㅁ 프로젝트 산출물 : https://busanportservice.streamlit.app/ Abstract Busan Port busanportservice.streamlit.app ㅁ항구별 체류시간관련 분석을 위한 데이터 크롤링 ○ 셀레니움 → 크롤링 활용 ○ 뷰티풀숲 → 크롤링 활용 ○ re → 전처리 활용 ○ pandas → 전처리 활용 from selenium import webdriver #Selenium의 웹 드라이버를 사용하기 위한 모듈을 임포트 from selenium.webdriver.common.by import By #Selenium에서 사용하는 By 클래스를 임포트합. 웹 요소를 검색하는데 사용. from selenium.webdriver.common.keys import Key.. 2024. 3. 11. 판다스 : .melt() 함수1 □ melt 함수 ○ 데이터 재구조화 ○ 전처리 과정에서 사용. 쉽게생각하여 필드(컬럼)들을 행으로 녹여 배치시키는 것으로 생각하면됨. ○ 데이터프레임의 열이 옆으로(행방향으로)길게 늘어진 데이터에서 보통 사용 □ melt 함수 매개변수 □ melt 함수 매개변수1 ○ 데이터 불러오기 #라이브러리 호출 import pandas as pd #데이터 불러오기 pew = pd.read_csv('C:/python/DataScience/Data/data/python_data/pew.csv') ○ .melt() 함수를 사용하여 특정열 고정 및 기준으로 재구조화 진행 #특정열 고정(religion 필드를 기준으로 melt 적용) pew_long = pew.melt(id_vars='religion') ○ .melt().. 2024. 2. 7. 청소년 우울증(18년도, 22년도) : 연속 시각화(파이형그래프) 차트 생성 및 배치 □ 같은 내용의 데이터지만 년도가 각자 다른 파일에 대하여 시각화 차트를 구현해보자 □ 작업진행 : 데이터별 전처리 → 필요 데이터 추출 → 시각화 틀(판)생성 및 추출된 데이터기반으로 시각화 그래프 생성 □ 세부내용 ○ 라이브러리 호출 #라이브러리 호출 import pandas as pd import matplotlib.pyplot as plt from matplotlib import font_manager, rc plt.rcParams['axes.unicode_minus'] = False # 한글 깨짐 방지를 위해 호출 #한글표시 및 사용을 위해 f_path = 'C:/Windows/Fonts/malgun.ttf' font_name = font_manager.FontProperties(fname = .. 2024. 2. 7. 타이타닉 데이터 전처리 및 시각화 □ 타이타닉 데이터를 전처리 후 시각화 ○ 승객 나이대별 히스토그램 시각화 ○ 남녀 승객수를 막대그래프 시각화 ○ 객실별 사망자수 시각화 ○ 사망자와 생존자 비율 pie 그래프 시각화 □ 데이터 불러오기 및 조회 #라이브러리 호출 import matplotlib.pyplot as plt import seaborn as sns import pandas as pd from matplotlib import font_manager, rc #폰트지정 및 불러오기 plt.rcParams['axes.unicode_minus'] = False f_path = 'C:/Windows/Fonts/malgun.ttf' font_name = font_manager.FontProperties(fname=f_path).get_na.. 2024. 2. 6. 임의 페이지 텍스트 크롤링 및 엑셀저장 □ 목적 : 게시판 타이틀과 각 타이틀별 댓글까지 크롤링, 전처리하여 엑셀로 깔끔하게 자동 저장 □ 활용 라이브러리 및 사용이유 import requests #크롤링 요청을 보낼 라이브러리 import openpyxl #엑셀 저장을 위해 사용 from bs4 import BeautifulSoup #크롤링 기능사용을 위해 호출한 라이브러리 from openpyxl.styles import Alignment, Font, colors, Border, Side #엑셀 데이터 디자인 효과를 위해 호출 □ 세부내용 ○ 특정 페이지 및 페이지의 게시글별 상세 페이지 데이터 크롤링 ○ 임의 사이트(개인수강하는 곳에서 지원하는 웹)에서 추출하고자하는 데이터를 +1개씩 증가하며 코딩 ○ 한개의 데이터 및 기능추가 시 함수.. 2024. 1. 30. 이전 1 2 다음