'DL' 카테고리의 글 목록 (11 Page)

Notice

Recent Posts

Recent Comments

Link

« 2024/05 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록DL (41)

rueki

텍스트 전처리 - 토큰화(Tokenization)

본문은 https://wikidocs.net/22592 를 참고해서 작성한 글입니다. 기계가 Text를 이해하도록 하기위해서는 텍스트 정제를 해주어야하는데 이에 앞어 텍스트 전처리를 말해보도록 하겠다. 1. 토큰화 2. 정규화 3. 어근화 / 어근 추출 및 표제어 추출 4. 불용어 5. 정규표현식 현재로서는 5가지로 나누어봤지만 그 외의 방법도 엄청 많다는 것을 찾아보면서 발견했다. 그래서 이번 게시글에서는 토큰화만 다루어보겠다. 토큰화(Tokenization) 위의 예시는 띄어쓰기를 기준으로 토근화 했지만 한국어 문장의 경우에 위와 같이 토큰화를 진행했을 때 단어 토큰을 구분하기 힘들 것이다. 한국어에는 '어절'이라는 띄어쓰기 단위가 있는데 어절 토큰화와 단어 토큰화가 같지가 않다. 영어와 다르게 한국..

DL/NLP 2019. 7. 1. 10:59

Prev 1 ··· 8 9 10 11 Next

목록DL (41)

rueki

티스토리툴바