질문
Q. what is the true difference between lemmatization vs stemming?
When do I use each ?
Also...is the NLTK lemmatization dependent upon Parts of Speech? Wouldn't it be more accurate if it was?
lemmatization과 stemming차이가 뭔가요
언제 사용해야 해요?
또, NLTK lemmatization 이 POS에 의존적인가요? 그렇다면 더 정확한가요?
답.
Short and dense: http://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html
The goal of both stemming and lemmatization is to reduce inflectional forms and sometimes derivationally related forms of a word to a common base form.
However, the two words differ in their flavor. Stemming usually refers to a crude heuristic process that chops off the ends of words in the hope of achieving this goal correctly most of the time, and often includes the removal of derivational affixes. Lemmatization usually refers to doing things properly with the use of a vocabulary and morphological analysis of words, normally aiming to remove inflectional endings only and to return the base or dictionary form of a word, which is known as the lemma .
From the NLTK docs:
Lemmatization and stemming are special cases of normalization. They identify a canonical representative for a set of related word forms
stemming, lemmatization 모두 inflectional forms(굴절형, 문법적의미 형성을 위해 변형되는 것)을 줄이기 위해 사용되며, 파생적으로 생성된 단어들을 기본적인 형식으로 줄여나가기 위해 사용됩니다.
하지만, 두 용어는 약간 다릅니다.
stemming의 경우 목표 달성을 위해, 단어의 끝과 접사를 잘라내는 경험적인 과정을 말합니다.
Lemmatization 단어의 형태적 분석과 어휘의 올바른 사용과 관련하여 굴절을 나타내는 마지막 단어의 부분을 제거하고, lemma라고 알려진 사전형식의 결과물을 반환합니다.
Lemmatization and stemming 은 정규화의 특수한 경우이며, 관련 단어 집합에 대한 대표를 식별하는 것입니다.
'2019년 혁신성장 청년인재 집중양성(빅데이터) > STACKOVERFLOW 1일 1질문' 카테고리의 다른 글
normalization, standardization의 차이는 무엇일까? (0) | 2019.07.15 |
---|---|
다섯 번째 질문. Difference Between One-to-Many, Many-to-One and Many-to-Many? (0) | 2019.07.14 |
세번째 질문. [TRACEBACK] TypeError list indices must be integers not str (0) | 2019.07.11 |
두 번째 질문. parameter(매개변수)와 argument(인자)의 차이가 뭔가요? (0) | 2019.07.10 |
첫 번째 질문. VOID FUNCTION과 FRUITFUL FUNCTION의 차이가 뭐에요? (0) | 2019.07.06 |