목록DL (41)
rueki
텍스트 전처리 - 토큰화(Tokenization)
본문은 https://wikidocs.net/22592 를 참고해서 작성한 글입니다. 기계가 Text를 이해하도록 하기위해서는 텍스트 정제를 해주어야하는데 이에 앞어 텍스트 전처리를 말해보도록 하겠다. 1. 토큰화 2. 정규화 3. 어근화 / 어근 추출 및 표제어 추출 4. 불용어 5. 정규표현식 현재로서는 5가지로 나누어봤지만 그 외의 방법도 엄청 많다는 것을 찾아보면서 발견했다. 그래서 이번 게시글에서는 토큰화만 다루어보겠다. 토큰화(Tokenization) 위의 예시는 띄어쓰기를 기준으로 토근화 했지만 한국어 문장의 경우에 위와 같이 토큰화를 진행했을 때 단어 토큰을 구분하기 힘들 것이다. 한국어에는 '어절'이라는 띄어쓰기 단위가 있는데 어절 토큰화와 단어 토큰화가 같지가 않다. 영어와 다르게 한국..
DL/NLP
2019. 7. 1. 10:59