본문 바로가기
Python/NLP&LLM

자연어 처리(Natural Language Processing) 및 발전단계

by Mr.DonyStark 2024. 4. 30.
 

1. 자연어 : 일반 사회에서 자연히 발생한 언어(한국어, 일본어 등)
2. 인공언어 : 프로그래밍 언어, 에스페란토어
3. 자연어처리 : 자연어를 컴퓨터가 해독하고 그 의미를 이해하는 기술
4. NLP 응용분야 : 웹 스크래핑, 요약, 감성분석, 번역, 교정 등. 자연어 이해와 자연어 생성으로 분류됨.

5. 발전단계

  (1) 스팸분류/품사결정/개체명 인식
  (2) 감성분석/구문분석/기계번역/정보추출
  (3) 질의응답/의역/요약/대화
  ※ (1)으로 갈수록 전통적기법(규칙기반, 통계기반)이며 (1)~(3) 모두 딥러닝기법에 기반함. 대부분의 자연어 처리 문제는 분류 문제임.
6. 기존방식
  (1) 규칙기반 : 언어학을 기반한 rule-based program
  (2) 통계기반 : 말뭉치를 기반으로 통계 모델 및 전통적 적용
7. 최근방식
  (1) Deep Learning 이용
  (2) Word Embedding(단어의 Vector화)을 기반으로 전체입력 문장단위로 처리
  (3) 어순, 단어의 의미, 문맥 파악 등을 스스로 학습
  (4) Word Embedding, RNN(Recurent Neural Network), Encoder-decoder(seq2seq) model, Attention model, Transformer model, Bert/Gpt-3(transformer에서 파생) 등

8. 주요용어

  (1) Corpus(말뭉치) : 자연어 분석 작업을 위해 만든 샘플 문서 집합. 단순히 소설, 신문 등의 문서를 모아둔것. 혹은 품사, 형태소 등의 보조적 의미를 추가하여 구조적인 형태로 정리해놓은 것 포함.
  (2) 토큰(token) : 자연어 문서를 분석하기 위해 긴 문자열을 작은단위로 나눈것. Toenize 즉, 문자열을 여러개의 조각, 여러개의 Token(토큰, 단어)들로 쪼개는 것.[특수 token = START, EOS, UNK, PAD 등]
  (3) Text/sentence(문장), Words(단어, 한글의 경우 형태소), Stop-words(불용어 : 은,는,이,가 등)

'Python > NLP&LLM' 카테고리의 다른 글

Word Embedding과 Word2Vec  (0) 2024.05.02
문장 Vector 작업  (0) 2024.05.01
요약 : LLM관련 용어  (0) 2024.04.30
LLM 주요용어 : Temprature 온도  (1) 2024.04.28
LLM 주요용어 : 창발능력(Emergent Abilities)  (0) 2024.04.28