ID_DI
DI's study notes
ID_DI
전체 방문자
오늘
어제
  • 분류 전체보기 (85)
    • Deep-Learning (3)
      • CNN (2)
      • NLP (1)
    • Data_Python (6)
      • Numpy (0)
      • Matplotlib (4)
    • Python (8)
      • Python Algorithm (6)
    • Java (36)
      • Java(base) (33)
      • Java practice(base) (2)
    • Git (12)
    • Algorithm (7)
    • etc (7)
    • linux (1)
    • DeskSetup (0)
    • TIL_모각코 (4)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • git
  • 합병정렬
  • README.md
  • 파이썬
  • Github
  • string to int
  • 자바
  • java.lang
  • Python
  • 정렬
  • matplotlib
  • java base
  • java
  • 알고리즘
  • java 기초
  • git add.
  • 커밋
  • java.net
  • staged
  • binarySearch

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
ID_DI

DI's study notes

TIL_모각코

N-gram

2022. 7. 25. 21:55

N-gram

**Count-based representation**(횟수 기반의 벡터 표현방식을 사용한 언어 모델)

  • sequence 를 N 개의 단어로 구성하여 토큰화
    • 한개의 단어를 count 하여, 단어의 순서를 무시하게 되어 문맥이 무시되는 BoW(Bag of Word) 의 단점 보완
    • ex) N = 2
      • I love you : [I love] [love you]

한계점

  • Long-term dependency(장기 의존성)
    • 일부 단어의 sequence와 count 만을 가지고 판단하기 때문에 앞쪽 토큰은 무시 될 수 있음
    • 해결방안으로 N = 1~5 까지 여러 N-gram 을 다양하게 혼합하여 사용하지만 역시 완전하게 해소되지 못함
  • N 을 너무 크게 하면, BoW 의 Sparsity (희소성) 의 문제가 부활하게 됨.

N-gram 의 Sparsity 를 해결하는 기법

Smoothing

  • frequency 값이 0이 되지 않도록 보정하는 기법
    • 아주 작은 값을 모든 단어의 frequency 에 더함

Backoff

  • 확률이 0 일 때, N 을 더 작게 하여 분할하는 기법

<br>

<br>

참고) https://yngie-c.github.io/nlp/2020/05/22/nlp_ngram/

'TIL_모각코' 카테고리의 다른 글

Transfer learning  (0) 2022.08.04
GRU  (0) 2022.07.27
BoW  (0) 2022.07.23
    'TIL_모각코' 카테고리의 다른 글
    • Transfer learning
    • GRU
    • BoW
    ID_DI
    ID_DI
    Computer Vision

    티스토리툴바