Bag of words(BoW)
- 입력받은 단어들을 frequency(출현빈도) 에 맞게 숫자로 나타내는 기법
ex) love, sexy, like, girl, man 이 입력 단어로 들어왔을 경우 아래와 같이 BoW 로 표현 가능하다.
input) love sexy love
love | sexy | like | girl | man |
---|---|---|---|---|
2 | 1 | 0 | 0 | 0 |
input) sexy girl like man
| love | sexy | like | girl | man |
| ---- | ---- | ---- | ---- | ---- |
| 0 | 1 | 1 | 1 | 1 |
장점
- 문장과 문장 사이의 유사도를 분석하기에 용이하다.
- 머신러닝 모델의 입력값으로 사용하기에 용이하다(숫자 input)
단점
- Sparsity(희박)
- 단어 리스트에 비해 입력단어가 적을 경우 curse of dimension(차원의 저주) 에 빠질 수 있음
- [1 0 1 0 0 ... 0 0 0 0 0]
- 단어 리스트에 비해 입력단어가 적을 경우 curse of dimension(차원의 저주) 에 빠질 수 있음
- Frequent words' power
- 유사도를 검사할 때, frequency 가 많은 단어의 영향력이 극단적으로 강해짐
- Absense of word orders
- 순서가 없어서, 문맥이 무시됨
home run
,run home
모두 같은 벡터로 표현이 됨
- 순서가 없어서, 문맥이 무시됨
- Out of vocabulary
- 신조어나 줄임말이 사전에 존재하지 않을 확률이 높기 때문에
'TIL_모각코' 카테고리의 다른 글
Transfer learning (0) | 2022.08.04 |
---|---|
GRU (0) | 2022.07.27 |
N-gram (0) | 2022.07.25 |