전공 이론 공부/자연어처리
BOW (Bag of Words)
쿠몬e
2024. 6. 30. 09:55
빈도수를 토대로 단어의 특성값을 뽑아냄
ex) feature_vector = {'text':2, 'mining':1, ...}
대상이 되는 말뭉치에 대해 하나의 단어 집합을 구성하고 이 단어 집합을 대상으로 각 문서에 대해 빈도 표시
하나의 문서에서 사용한 단어에 비해 사용하지 않은 단어가 훨씬 많기 때문에, 대부분의 특성으 0이 됨.
이를 희소 벡터 (sparse vector)라고 하는데, 이는 저장공간과 연산 측면에서 비효율적이므로 효율적인 처리방법이 필요함.
BOW 기반 특성 벡터 추출과정
말뭉치
|
토큰화, 불용어 제거, 정규화, 품사태깅
|
특성집합 생성 -> 특성 집합-> 특성벡터 생성 -> 특성 벡터
반응형