본문 바로가기

2019년 혁신성장 청년인재 집중양성(빅데이터)/STACKOVERFLOW 1일 1질문

네 번째 질문. what is the true difference between lemmatization vs stemming?

https://stackoverflow.com/questions/1787110/what-is-the-true-difference-between-lemmatization-vs-stemming

 

what is the true difference between lemmatization vs stemming?

When do I use each ? Also...is the NLTK lemmatization dependent upon Parts of Speech? Wouldn't it be more accurate if it was?

stackoverflow.com

질문

...더보기

Q. what is the true difference between lemmatization vs stemming?

When do I use each ?

Also...is the NLTK lemmatization dependent upon Parts of Speech? Wouldn't it be more accurate if it was?

 

lemmatization과 stemming차이가 뭔가요

언제 사용해야 해요?

또, NLTK lemmatization 이 POS에 의존적인가요? 그렇다면 더 정확한가요?

답.

 

...더보기

Short and dense: http://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html

The goal of both stemming and lemmatization is to reduce inflectional forms and sometimes derivationally related forms of a word to a common base form.

However, the two words differ in their flavor. Stemming usually refers to a crude heuristic process that chops off the ends of words in the hope of achieving this goal correctly most of the time, and often includes the removal of derivational affixes. Lemmatization usually refers to doing things properly with the use of a vocabulary and morphological analysis of words, normally aiming to remove inflectional endings only and to return the base or dictionary form of a word, which is known as the lemma .

From the NLTK docs:

Lemmatization and stemming are special cases of normalization. They identify a canonical representative for a set of related word forms

 

stemming, lemmatization 모두 inflectional forms(굴절형, 문법적의미 형성을 위해 변형되는 것)을 줄이기 위해 사용되며, 파생적으로 생성된 단어들을 기본적인 형식으로 줄여나가기 위해 사용됩니다.

 

하지만, 두 용어는 약간 다릅니다.

stemming의 경우 목표 달성을 위해, 단어의 끝과 접사를 잘라내는 경험적인 과정을 말합니다.

Lemmatization 단어의 형태적 분석과 어휘의 올바른 사용과 관련하여 굴절을 나타내는 마지막 단어의 부분을 제거하고, lemma라고 알려진 사전형식의 결과물을 반환합니다.

 

Lemmatization and stemming 은 정규화의 특수한 경우이며, 관련 단어 집합에 대한 대표를 식별하는 것입니다.