○ 빅데이터
- 디지털 환경에서 생성되는 데이터
- 과거 아날로그 환경에서 생산되던 데이터에 비해 규모가 방대하고 생성 주기가 짧음
- 데이터뿐만 아니라 문자, 영상 데이터를 포함한 대규모 데이터
- 사람이 생성한 데이터 + 기계가 생성한 데이터 = 빅데이터
- 일상화된 정보 서비스
- 사회적 소통, 자기표현
- 생성주체 : 개인/시스템
- 보유주체 : 인터넷 서비스 기업, 포털, 이동 통신사, 장비생산 회사
- 유형 : 비정형 데이터, 조직 외부 데이터, 공개 데이터, 정형 데이터, 조직 내부 데이터, 비공개 데이터
- 특성 : 디양성, 크기, 속도, 가치
(1) 다양성 : 데이터는 다양한 모습을 잦고있음
(2) 크기 : 현재 데이터양은 MB, GB, TB 단위를 넘어 ZB에 들어섬(비트: 데이터의 가장 작은 단위 / 8bit =1Byte)
(3) 속도 : 누적되는 속도 빠름
○ 출현과 가치
- 2020년대 진입할 때까지 만들어진 데이터 양이 제타 바이트를 넘어섬
- 사물통신, 사물 인터넷 같은 기술이 발전함에 따라 기하급수적으로 증가
- 정형 데이터보다는 비정형 데이터가 많아짐
- 데이터가 현실성과 실시간 성을 갖게됨 by 사물, CCTV, 웨어러블 기기
- 컴퓨팅에서 만들어진 인지정보들이 무수히 증가
○ 빅데이터 사회적 가치
- 이코노미스트 : 데이터가 자본이나 노동력과 거의 동등한 레벨로 경제적 투입
○ 빅데이터 활용분야
- 쌓인 빅데이터를 잘분석/판단하면 이변이나 이상현상을 감지하거나 가까운 미래를 예측할 수 있고 현재 상황을 면밀히 분석가능함
- 업무 로그를 분석해 정상, 비정상 패턴을 도출하고 비정상 패턴을 이상현상으로 감지
○ 빅데이터 핵심요소
- 기술, 자원, 인력 3가지 핵심요소
- 대표적인 분석 기술 오픈소시
- SQL, 하둡, R 등
- 인력, 자원, 기술 활용
- 비정형 데이터를 분석하는 사람 역시 중요한 핵심 요소
- 비판적 시각과 탐구력, 비즈니스 화녁ㅇ에 대한 이해와 이에 기반한 커뮤니케이션 능력, 개인의 만족도, 수학적 능력, 공학적 자질도 중요
○ 빅데이터 기술
- 처리기술 : 데이터를 생성, 수집, 저장, 처리하는 일련의 과정
- 분석기술 : 정리된 데이터를 분석/시각화
* 데이터를 분석해 어떻게 활용하는지가 중요함
- 기술통계 분석, 추론통계 분석, 데이터마이닝 분석(텍스트 마이닝, 소셜마이닝, 클러스터 탐지 등)
- 하둡 : 분산시스템에서 대용량 데이터 처리 분석을 지원하는 오픈 소프트웨어, 데이터 유실시 데이터 복구가능, 데이터처리관련 분산처리 방식
- R : 사회통계 분야에서 많이 활용하고 있는 소프트웨어, 통계 계산, 시각화를 위한 언어와 개발환경으로 다양한 OS를 지원, 비관계형 DB인 SQL 인덱스나 데이터를 분리해 일관성과 유효성까지 추출해내는 공개 소프트웨어
- Spark : Big Data Handling 을 위한 새로운 분산형 데이터 처리 플랫폼. MapReduce FrameWork 개선을 위해 시작(Disk I/O 극복)
- Data Engineering과 Big Data 사용자에게 가장 인기 있는 Platform으로 성장
- ETL(Extract, Transform, Load) : 다양한 소스 시스템에서 필요한 데이터 추출, 변환, 전송, 로딩하는 과정
○ 빅데이터처리 기술 : 수집 - 저장 - 실시간 처리 - 분산 처리 - 분석 - 표현
- 데이터 수집, 저장, 처리, 분석, 시각화 하기 위한 새로운 기술(방법) 필요
- 빅데이터는 기존의 데이터와 속성이 다름
'기 타 > 빅데이터_인공지능AI' 카테고리의 다른 글
인공지능 ② (0) | 2024.01.15 |
---|---|
인공지능 ① (0) | 2024.01.15 |