본문 바로가기

분류 전체보기349

판다스(Pandas)/데이터프레임/시리즈 □ 판다스(Pandas) ○ 데이터프레임과 시리즈라는 자료형과 데이터 분석을 위한 다양한 기능을 제공하는 파이썬 라이브러리임 ○ 데이터의 수정/가공 및 분석이용이 ○ numpy 기반으로 데이터 처리가 빠름 ○ 수학적으로 변경, 계산시 엑셀보다 빠름 □ 데이터프레임 ○ 가로축과 세로축이 있는 엑셀과 유사한 데이터 구조 ○ 가로축은 로우(행), 세로축은 컬럼(열)이라고 함 ○ 데이터 프레임은 시리즈의 결합체임 □ 시리즈 ○ 데이터프레임의 컬럼이 모두 시리즈임 ○ 시리즈는 단순한 파이썬 리스트를 간직한 오브젝트임 ○ 리스트는 파라미터로 주면 바로 시리즈가 생성됨 ○ 시리즈는 데이터 가공 및 분석이 파이썬 리스트 보다 쉬움 2024. 1. 31.
파일 유형별 컨트롤 □ .tix파일 : 메모장 작성, 수정, 삭제 ○ r (읽기모드) : 파일을 읽을때 사용 #파일 조회 with open('경로','r', encoding = 'utf-8-sig') as 파일변수명: #파일내용 출력 for i in 파일변수명: print(i) ○ w(쓰기모드) : 파일에 데이터를 쓸 때 사용함. 단, 기존 파일 데이터는 삭제됨 파일변수명 = open('경로','w', encoding = 'utf-8-sig') 파일변수명.write('안녕하세요\n') 파일변수명.write('홍길동이에요\n') 파일변수명.close() ※ with구문을 사용하면 자동으로 열고, 닫기처리가 되지만, 사용하지 않을때는 꼭 close()닫기 처리를 해야함 ○ a (추가모드) : 파일의 기존 데이터 끝에서부터 데이.. 2024. 1. 31.
네이버 뷰 크롤링 : 제목, 작성자, 링크 + 예외처리 □ 목적 ○ 네이버 뷰에 게시글별 제목, 작성자, 해당글의 링크 데이터를 추출해보자 □ 고려사항 ○ 입력한 키워드에 따른, 관련 키워드 뷰 페이지에서 크롤링하도록 구현 ○ 네이버는 수시로 데이터가 포함된 태그값들이 변화됨 ○ 이 부분을 고려하여 적절한 예외처리를 진행하여 오류가 발생되도 멈추지 않고 코드가 실행되도록 코딩 □ 참고사항 ○ .get_text() 와 .text 차이 - .get_text() 메서드는 BeautifulSoup에서 제공하는 메서드로, HTML 요소의 모든 텍스트를 추출. 이 메서드는 해당 요소의 모든 자식 요소의 텍스트를 합쳐서 반환. 예를 들어, [ 이것은 굵은 텍스트입니다. ]에서 .get_text()를 호출하면 "이것은 굵은 텍스트입니다."를 반환. - .text 속성은 B.. 2024. 1. 30.
오류예외 처리 □ try - except 문 ○ try 구문에서 지정한 코드실행중 오류가 발생되면 ○ except 구문에서 지정한 코드가 실행됨 #기본형식 try: --- except [발생_오류 [as 오류_변수]] --- #예제1 a= 4/0 #오류출력ZeroDivisionError: division by zero try: 4/0 except ZeroDivisionError as e: print(e) #출력 : division by zero #예제2 try: a=[1.2] print(a[3]) #해당코드를 실행하면 오류로 except구문에서의 list index out of range 출력 4/0 #해당코드를 실행하면 오류로 except구문에서의 division by zero 출력 except (ZeroDivisi.. 2024. 1. 30.
임의 페이지 텍스트 크롤링 및 엑셀저장 □ 목적 : 게시판 타이틀과 각 타이틀별 댓글까지 크롤링, 전처리하여 엑셀로 깔끔하게 자동 저장 □ 활용 라이브러리 및 사용이유 import requests #크롤링 요청을 보낼 라이브러리 import openpyxl #엑셀 저장을 위해 사용 from bs4 import BeautifulSoup #크롤링 기능사용을 위해 호출한 라이브러리 from openpyxl.styles import Alignment, Font, colors, Border, Side #엑셀 데이터 디자인 효과를 위해 호출 □ 세부내용 ○ 특정 페이지 및 페이지의 게시글별 상세 페이지 데이터 크롤링 ○ 임의 사이트(개인수강하는 곳에서 지원하는 웹)에서 추출하고자하는 데이터를 +1개씩 증가하며 코딩 ○ 한개의 데이터 및 기능추가 시 함수.. 2024. 1. 30.
클랙스/객체 □ 용어정리 ○ 클래스 : 객체를 만들기 위한 사용자 정의 자료형 틀 ○ 인스턴스 : 클래스를 기반으로 만들어진 구체적인 객체 ○ 메서드 : 클래스 내부에 선언된 함수 ○ 상속 : 어떤 클래스의 특성을 다른 클래스에 전달하는 기법 ○ 메서드 오버라이딩 : 같은 함수에 여러기능을 부여하는 구현기법으로 부모/자식 클래스에서 사용되는 함수이름이 같음 □ 예제 1) 기본형태 #기본형식 #클래스 지정 class Calculator: def __init__(self): self.result = 0 def add(self, num): self.result += num return self.result #객체 지정 → 위에서 지정한 클래스로 a, b 객체 생성. a, b 객체는 Calualator에서 지정한 메서드 사.. 2024. 1. 29.
(경기도 고양시) 순두부 맛집 : 원당골순두부 마을 ○ 원당골순두부마을(1) 맛 :  ☆☆☆☆☆(강추 및 생각날것 같음)(2) 친절도 및 서비스(사장 및 종업원 포함) : ☆☆☆(음...그럭저럭.) 추운날씨 최고의 가성비로 속도 마음도 든든히 할 수 있는 식사를 할 수 있는 곳이라고 생각함 2024. 1. 28.
(경기도 고양시) 햄버거 맛집 : 레이지버거 ○ 레이지버거 (1) 맛 : ☆☆☆☆☆(강추 및 생각날것 같음) (2) 친절도 및 서비스(사장 및 종업원 포함) : ☆☆☆☆☆[가족같아. 너가 웃으니 나도 웃음이나요.] ※ 작성자 기준 인생 햄버거 절대적인 탑이라고 생각함 ※ 사이드메뉴로 어니언링부터 피넛버터/누텔라/오레오 쉐이크 모두 존맛탱 ※ 고양 스타필드 데이트하고나서 또는 하기전에 먹기에 아주 좋음. 강추함! 2024. 1. 28.
특정 영역의 하위태그별 데이터 크롤링 □ 아래 그림 참고요망 □ 코스피 텝에서 표시되는 모든 회사명, 회사별 코스피가격, 증감률 데이터 추출 □ 코스피 텝, 즉, 상위 태그안에서의 데이터들 중 회사명, 코스피가격, 증감률에 해당하는 클래스 네임과 For문을 활용해 추출 및 출력 #라이브러리 호출 import requests import re from bs4 import BeautifulSoup #크롤링대상사이트 및 request/get 요청 req_site = requests.get('크롤링사이트') soup_parser = BeautifulSoup(req_site.content, 'html.parser') get_data = soup_parser.select('.row_sty') #클래스네임이 row_sty 영역의 데이터 요청 #회사명과 .. 2024. 1. 28.