rueki
카운트 기반 단어 표현 - 문서 단어 행렬(Document-Term Matrix, DTM) 본문
728x90
반응형
문서 단어 행렬(DTM)은 서로 다른 문서들의 Bow들을 결합한 표현 방법이다.
행과 열을 바꾸면 TDM이라고도 일컫으며, 서로 다른 문서들을 비교할 수 있게 된다.
Bow(Box of words)를 하나의 행렬로 만든 것으로 볼 수 있으며, 각 단어들의 빈도를 행렬로 표현한다.
문서1 : 먹고 싶은 사과
문서2 : 먹고 싶은 바나나
문서3 : 길고 노란 바나나 바나나
문서4 : 저는 과일이 좋아요
이를 문서 단어 행렬로 표현하면
각 문서에 등장한 단어의 빈도를 행렬값으로 나타냈으며, 서로 비교가능한 것이 장점이다.
그러나 DTM은 원-핫 인코딩의 단점과 마찬가지로, 단어 집합의 크기가 벡터의 차원이 되고
대부분의 값이 0이 된다는 점이 있다.
가지고 있는 코퍼스가 방대하다면, 문서 벡터의 차원은 수백만의 차원을 가질 수 있다.
즉, 문서 벡터가 대부분의 값이 0을 가질 수도 있다는 것이다.
이를 희소 벡터(sparse vector), 희소 행렬(sparse matrix)이라고 부르는데,
희소벡터는 방대한 양의 메모리와 계산을 위한 리소스를 필요로 한다.
그래서 Bow를 사용하기 위해서는 전처리를 통해 구두점, 빈도수 낮은 단어, 불용어 제거하고
어간이나 표제어 추출을 통해 단어를 정규화해서 단어 집합의 크기를 줄일 수 있다.
728x90
반응형
'DL > NLP' 카테고리의 다른 글
문서 유사도 - 코사인 유사도(Cosine Similarity) (0) | 2019.07.03 |
---|---|
카운트 기반 단어 표현 - TF-IDF (0) | 2019.07.02 |
카운트 기반 단어 표현 - Bag of Words(Bow) (0) | 2019.07.02 |
단어의 표현 (0) | 2019.07.02 |
언어 모델 - 조건부 확률 (0) | 2019.07.02 |
Comments