rueki
언어 모델 - 한국어 본문
728x90
반응형
한국어는 다른 언어보다 다음 언어를 예측하기가 힘들다.
언어 모델에서는 토큰화가 필수적인데, 한국어는 토큰화부터 까다로운 사항이 많기때문이다.
영어는 문장의 구조가 확실해서 어순이 중요하지만, 한국어는 어순이 중요하지가 않다.
① 나는 운동을 합니다 체육관에서.
② 나는 체육관에서 운동을 합니다.
③ 체육관에서 운동을 합니다.
④ 나는 운동을 체육관에서 합니다.
위의 예시를 보면 주어를 생략하든, 문장 순서를 바꾸든 ,의미가 전부 통한다.
그래서 확률에 기반한 언어모델이 제대로 예측하기는 힘들 것이다.
그리고 한국어는 교착어이다.
띄어쓰기 단위로 토큰화를 할 경우에, 발생가능한 단어의 수가 몇 배로 늘어나게 되는데
조사때문이다.
그 -> 그는, 그를, 그가, 그의...
'그'라는 하나의 단어가 다양한 단어로 파생되게 된다.
그래서 한국어에서는 접사나 조사를 분리하는 것은 중요한 작업이다.
그리고 한국어는 띄어쓰기가 제대로 지켜지지 않는 경우가 많아서 토큰화가 어렵기 때문에
언어모델도 제대로 동작하기 힘들다.
728x90
반응형
'DL > NLP' 카테고리의 다른 글
단어의 표현 (0) | 2019.07.02 |
---|---|
언어 모델 - 조건부 확률 (0) | 2019.07.02 |
언어 모델 - N-gram Language Model (0) | 2019.07.02 |
언어 모델 - 통계적 언어 모델(Statistical Language Model, SLM) (0) | 2019.07.02 |
언어 모델(Language Model) (0) | 2019.07.02 |
Comments