BOW (Bag of Words)전공 이론 공부/자연어처리2024. 6. 30. 09:55
Table of Contents
빈도수를 토대로 단어의 특성값을 뽑아냄
ex) feature_vector = {'text':2, 'mining':1, ...}
대상이 되는 말뭉치에 대해 하나의 단어 집합을 구성하고 이 단어 집합을 대상으로 각 문서에 대해 빈도 표시
하나의 문서에서 사용한 단어에 비해 사용하지 않은 단어가 훨씬 많기 때문에, 대부분의 특성으 0이 됨.
이를 희소 벡터 (sparse vector)라고 하는데, 이는 저장공간과 연산 측면에서 비효율적이므로 효율적인 처리방법이 필요함.
BOW 기반 특성 벡터 추출과정
말뭉치
|
토큰화, 불용어 제거, 정규화, 품사태깅
|
특성집합 생성 -> 특성 집합-> 특성벡터 생성 -> 특성 벡터
반응형
'전공 이론 공부 > 자연어처리' 카테고리의 다른 글
임베딩(Embedding)이란? (0) | 2024.07.09 |
---|---|
Transformer v.s. RNN (0) | 2024.07.09 |
텐서 조작 방법 (Tensor Operations) (0) | 2024.07.03 |
단어 빈도 그래프 (0) | 2024.06.25 |
텍스트 전처리 (Text Preprocessing) (0) | 2024.06.25 |
@쿠몬e :: ˚˛˚ * December☃ 。* 。˛˚
전공 공부 기록 📘
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!