텍스트 전처리 (Text Preprocessing)

전공 이론 공부/자연어처리

쿠몬e 2024. 6. 25. 16:33

텍스트 전처리 (Text Preprocessing): 주어진 텍스트에서 노이즈와 같이 불필요한 부분을 제거하고, 문장을 표준 단어들로 분리, 각 단어의 품사를 파악하는 것까지 포함되는 사전 작업들

텍스트 전처리 단계

1. 정제 (cleaning): 불필요한 노이즈 제거, 불용어 (stopword) 제거

2. 토큰화 (Tokenization): 주어진 텍스트를 원하는 단위(토큰)으로 나누는 작업 (i.e., sentence tokenization, work tokenization)

3. 정규화: 같은 의미를 가진 동일한 단어임에도 불구하고 다른 형태로 쓰여진 단어들을 통일시켜 표준 단어로 만드는 작업 (i.e., go = goes), 방법에 따라 어간 추출과 표제어 추출로 나뉨.

4. 품사 태깅: 단어를 문법적인 기능 (명사, 대명사, 동사, 형용사 ..) 에 따라 분류하는 것

각각에 대해 자세히 알아보자

*nltk: 교육용으로 개발된 자연어 처리 및 문서 분석 용 파이썬 패키지

1. 정제 (Cleaning)

2. 토큰화 (Tokenization)

3. 정규화

1) 어간 추출

어형이 변형된 단어로부터 접사 드을 제거하고 그 단어의 어간을 분리해내는 작업
어간: '간다', '갔다' 등의 단어에서 '가' / '작다', '작고', '작으니' 등의 단어에서 '작'
어간 추출 알고리즘
- Porter Stemmer: 단어가 변형되는 규칙을 사용해 원형을 찾으므로, 그 결과가 항상 사전에 있는 올바른 단어가 되지는 않음. 그러나 모든 단어가 같은 규칙에 따라 변환되기 때문에 분석시 문제는 없음.
- Lancaster Stemmer

2) 표제어 추출 (Lemmatization)

4. 품사 태깅