출처 :
https://ratsgo.github.io/natural%20language%20processing/2017/03/22/lexicon/
자연언어처리란?
1. 자연언어처리는 우선 언어학을 근간으로 한다.
2. 언어학은 말소리를 연구하는 음운론
3. 단어와 형태소를 연구하는 형태론
4. 문법과 맥락/담화를 각각 논의하는 통사론, 의미론 등 세부분야가 있다.
5. 자연언어처리의 절차와 단계도 이와 비슷하다.
6. 즉, 음성 인식, 형태소 분석, 문장의 문법적 구조 분석등이
7. 각, 언어학, 음운, 형태, 통사론에 대응된다.
어휘분석(Lexical Analysis)
1. 포스태깅은 단어의 품사 정보를 결정하는 절차다.
2. 개채명 인식은 인명,지명, 등 고유명사를 분류하는 방법론이다.
3. 상호참조는 선행 단어/구를 현재 단어/구와 비교해 같은 개체인지를 결정하는 문제다.
4. 의존관계분석은 성분에 따라 문장구조를 정의하는 문법과는 달리
5. 단어와 다른 단어가 가지는 의존 관계를 중시해 문장을 구조하는 분석 방법이다.
어휘분석 절차
1. 어휘 분석 절차는 크게 문장분리, 토크나이즈, 형태 분석, 포스 태깅 네 단계로 나뉜다.
2. 문장 분리(Sentence splititng)
3. 컴퓨터 입장에서 말뭉치(Corpus)는 의미없는 글자들의 나열이다.
4. 우선 이를 문장 단위로 끊어서 입력해야 한다.
5. 일반적으로 마침표, 느낌표, 물음표 등을 기준으로 문장을 분리할 수 있다.
6. 하지만 토픽모델링, 같은 특정 알고리즘이나 방법론의 경우 문장분리를 반드시 수행하지 않아도 된다.
토크나이즈[Tokenize]
1. 토큰이란 의미를 가지는 문자열을 뜻한다. 토큰은 형태소나 그보다 상위 개념인 단어까지 포함한다.
2. 토크나이징이란 문서나 문장을 분석하기 좋도록 토큰으로 나누는 작업이다.
3. 영어의 경우 공백만으로 충분히 토큰으로 나눌 수 있다고 한다.
Morphological Anlaysis
1. Text Normarization이라고 불리기도 한다.
2. 토큰들을 좀 더 일반적인 형태로 분석해 단어수를 줄여 분석의 효율성을 높이는 작업이다.
3. 예를 들어 'cars'와 'car', 'stopped'와 'stop'을 하나의 단어로 보는 것과 같다.
4. 영어에서는 대문자를 소문자로 바꿔주는 folding도 중요하다고 한다.
5. stemming과 lemmatization이라는 작업도 있다.
6. stemming이란 단어를 축약형으로 바꿔주는 것을 뜻하고
7. lemmatization은 품사정보가 보존된 형태의 기본형으로 변환하는 걸 말한다.
*https://jhnoru.tistory.com/manage/posts/
part-of-speech Tagging
1. 포스태깅이란 토큰의 품사정보를 할당하는 작업이다. 많은 방법들이 개발되었는데,
2. 디시전트리, 은닉 마코프 모델, 서포트백터머신 등이 여기에 해당한다.
3. Konlypy 같은 한국어 기반의 포스태거들은 문장분리, 토크나이즈, lemmatization, 포스태깅에 이르기까지 전 과정을 한꺼번에 수행해 준다
4. 하지만 조사, 어미가 발달한 한국어의 경우 정확한 분석이 어렵다.
5. 한국어는 교착어 성질을 지니는 언어이기 때문이다.
6. 즉 어근에 파생접사나 어미가 붙어서 단어를 이룬다. 바꿔 말하면
7. 한국어를 분석할 때, 어근과 접사, 어미를 적절하게 나눠야 하는데 이것이 쉽지가 않다.
'2019년 혁신성장 청년인재 집중양성(빅데이터) > 자연어 처리' 카테고리의 다른 글
자연어처리, NLTK, KONLPY 개념 정리 (0) | 2019.07.12 |
---|