전공 이론 공부/자연어처리2024. 6. 25. 16:33텍스트 전처리 (Text Preprocessing)

텍스트 전처리 (Text Preprocessing): 주어진 텍스트에서 노이즈와 같이 불필요한 부분을 제거하고, 문장을 표준 단어들로 분리, 각 단어의 품사를 파악하는 것까지 포함되는 사전 작업들 텍스트 전처리 단계1. 정제 (cleaning): 불필요한 노이즈 제거, 불용어 (stopword) 제거2. 토큰화 (Tokenization): 주어진 텍스트를 원하는 단위(토큰)으로 나누는 작업 (i.e., sentence tokenization, work tokenization)3. 정규화: 같은 의미를 가진 동일한 단어임에도 불구하고 다른 형태로 쓰여진 단어들을 통일시켜 표준 단어로 만드는 작업 (i.e., go = goes), 방법에 따라 어간 추출과 표제어 추출로 나뉨.4. 품사 태깅: 단어를 문법적인..

image