ID_DI
DI's study notes
ID_DI
전체 방문자
오늘
어제
  • 분류 전체보기 (85)
    • Deep-Learning (3)
      • CNN (2)
      • NLP (1)
    • Data_Python (6)
      • Numpy (0)
      • Matplotlib (4)
    • Python (8)
      • Python Algorithm (6)
    • Java (36)
      • Java(base) (33)
      • Java practice(base) (2)
    • Git (12)
    • Algorithm (7)
    • etc (7)
    • linux (1)
    • DeskSetup (0)
    • TIL_모각코 (4)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • matplotlib
  • README.md
  • java
  • java 기초
  • string to int
  • java.net
  • java.lang
  • git
  • Python
  • 정렬
  • binarySearch
  • git add.
  • java base
  • 파이썬
  • 커밋
  • 알고리즘
  • staged
  • 합병정렬
  • Github
  • 자바

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
ID_DI

DI's study notes

TIL_모각코

BoW

2022. 7. 23. 11:00

Bag of words(BoW)

  • 입력받은 단어들을 frequency(출현빈도) 에 맞게 숫자로 나타내는 기법

ex) love, sexy, like, girl, man 이 입력 단어로 들어왔을 경우 아래와 같이 BoW 로 표현 가능하다.

input) love sexy love

love sexy like girl man
2 1 0 0 0

input) sexy girl like man
| love | sexy | like | girl | man |
| ---- | ---- | ---- | ---- | ---- |
| 0 | 1 | 1 | 1 | 1 |

장점

  • 문장과 문장 사이의 유사도를 분석하기에 용이하다.
  • 머신러닝 모델의 입력값으로 사용하기에 용이하다(숫자 input)

단점

  • Sparsity(희박)
    • 단어 리스트에 비해 입력단어가 적을 경우 curse of dimension(차원의 저주) 에 빠질 수 있음
      • [1 0 1 0 0 ... 0 0 0 0 0]
  • Frequent words' power
    • 유사도를 검사할 때, frequency 가 많은 단어의 영향력이 극단적으로 강해짐
  • Absense of word orders
    • 순서가 없어서, 문맥이 무시됨
      • home run, run home 모두 같은 벡터로 표현이 됨
  • Out of vocabulary
    • 신조어나 줄임말이 사전에 존재하지 않을 확률이 높기 때문에

'TIL_모각코' 카테고리의 다른 글

Transfer learning  (0) 2022.08.04
GRU  (0) 2022.07.27
N-gram  (0) 2022.07.25
    'TIL_모각코' 카테고리의 다른 글
    • Transfer learning
    • GRU
    • N-gram
    ID_DI
    ID_DI
    Computer Vision

    티스토리툴바