[NLP/자연어처리] 자연어 처리 전처리(3) - 단어집합(Vocabulary), 패딩
·
AI Study/NLP
※ 해당 내용은 Pytorch로 시작하는 딥러닝 입문을 참고했습니다. 이전 토크나이징에 대한 내용은 아래 참조 2021.05.11 - [Study/NLP] - [NLP/자연어처리 ]자연어 처리 전처리(2) - 분절(토큰화) 라이브러리 소개 자연어 처리 분석을 하기 위해서는 단어 집합, 즉 단어 사전이 필요하다. 오늘은 하나의 데이터로 단어의 집합을 만들고, 고유정수를 부여(indexing) 하고 문장의 길이만큼 패딩(padding)하는 방법에 대해 적어보려 한다. 1. 단어집합(vocabulary) 단어 집합(vocabulary)이란 중복을 제거한 텍스트의 총 단어의 집합(set)을 의미한다. 여러개의 코퍼스를 분절하고, unique한 단어들만 모아서 집합의 형태로 만드는 것이다. 아래 예제를 통해 실습..