인공지능

[자연어처리 입문] - 언어 전처리 과정 (2) 정제 및 추출

y_lime 2024. 11. 19. 14:58

정제 (Cleaning)

 : 데이터 사용 목적에 맞추어 노이즈를 제거 ⇨ 인간의 주관적인 생각이 아직까지 필요하긴 함

 

1) 대문자 vs 소문자 

똑같은 단어여도, 대소문자를 구별하여 다른 언어로 처리되기 때문에, 

Language에서 L을 소문자 l로 바꾸면 같은 언어로 처리된다.

BUT!!! US(United States)같은 경우, 소문자로 바꾸면 us(우리)로 되게 때문에 Cleaning할 때는 주의를 해야한다.

즉, Cleaning을 하지 않도록 예외 처리를 걸어줘야한다.

 

 

 

2) 출현 횟수가 적은 단어의 제거

키워드, 킬링워드가 아니면 차라리 지워버리는게 더 효율적이다.

3) 길이가 짧은 단어, 지시()명사, 관사의 제거

 


추출 (Stemming)

: Stemming이란 어형이 변형된 단어로부터 접사 등을 제거하고 그 단어의 어간을 분리해내는 것을 의미

어간(Stem): 단어의 의미를 담은 핵심

접사(Affix): 단어에 추가 용법을 부여

어근 (Root) : 단어의 가장 기본적인 형태로, 의미를 전달하는 중심 부분. 접사(예: 접두사, 접미사)가 붙기 전의 형태.

 

어간 추출 (Stemming)

Porter Algorithm: 대표적인 Stemming 방법

단어의 접사(affix)를 제거하여 기본 형태를 남기는 과정

 

표제어 추출 (Lemmatization)

Porter Algorithm: 대표적인 Stemming 방법