전체 글

전체 글

    [NLP/자연어처리] 자연어 처리 전처리(3) - 단어집합(Vocabulary), 패딩

    ※ 해당 내용은 Pytorch로 시작하는 딥러닝 입문을 참고했습니다. 이전 토크나이징에 대한 내용은 아래 참조 2021.05.11 - [Study/NLP] - [NLP/자연어처리 ]자연어 처리 전처리(2) - 분절(토큰화) 라이브러리 소개 자연어 처리 분석을 하기 위해서는 단어 집합, 즉 단어 사전이 필요하다. 오늘은 하나의 데이터로 단어의 집합을 만들고, 고유정수를 부여(indexing) 하고 문장의 길이만큼 패딩(padding)하는 방법에 대해 적어보려 한다. 1. 단어집합(vocabulary) 단어 집합(vocabulary)이란 중복을 제거한 텍스트의 총 단어의 집합(set)을 의미한다. 여러개의 코퍼스를 분절하고, unique한 단어들만 모아서 집합의 형태로 만드는 것이다. 아래 예제를 통해 실습..

    [NLP/자연어처리 ]자연어 처리 전처리(2) - 분절(토큰화) 라이브러리 소개

    해당 내용은 김기현의 자연어 처리 딥러닝 캠프 파이토치편을 읽으며 발췌 및 정리한 내용입니다. 2021.05.10 - [Study/NLP] - [NLP/자연어처리] 자연어 처리 전처리(1) - 코퍼스와 텍스트 정제 [NLP/자연어처리] 자연어 처리 전처리(1) - 코퍼스와 텍스트 정제 해당 내용은 김기현의 자연어 처리 딥러닝 캠프 파이토치편을 읽으며 발췌 및 정리한 내용입니다. 이전 개요에 대해서는 아래 링크 참조 2021.05.10 - [Study/NLP] - [NLP/자연어처리] 자연어처리와 딥 everywhere-data.tistory.com 자연어 처리를 하려면 기본적으로 문장에 대한 분절이 이루어져야 한다. 책에서는 분절 이라고 하는데 우리가 많이 들어온 "토큰화(Tokenization)"라고도..

    [NLP/자연어처리] 자연어 처리 전처리(1) - 코퍼스와 텍스트 정제

    해당 내용은 김기현의 자연어 처리 딥러닝 캠프 파이토치편을 읽으며 발췌 및 정리한 내용입니다. 이전 개요에 대해서는 아래 링크 참조 2021.05.10 - [Study/NLP] - [NLP/자연어처리] 자연어처리와 딥러닝의 역사, 발전과정 [NLP/자연어처리] 자연어처리와 딥러닝의 역사, 발전과정 [NLP/자연어처리] 해당 내용은 김기현의 자연어 처리 딥러닝 캠프 파이토치편을 읽으며 발췌 및 정리한 내용입니다. 1. 개요 1.1 자연어처리와 딥러닝의 역사 자연어처리(natural language processing, NLP) everywhere-data.tistory.com 오늘은 자연어 처리의 전처리 과정에 대해서 용어랑 개요를 정리할 예정이다. 0. 코퍼스(copus)란? 코퍼스(copus)는 여러 ..

    [NLP/자연어처리] 자연어처리와 딥러닝의 역사, 발전과정

    [NLP/자연어처리] 해당 내용은 김기현의 자연어 처리 딥러닝 캠프 파이토치편을 읽으며 발췌 및 정리한 내용입니다. 1. 개요 1.1 자연어처리와 딥러닝의 역사 자연어처리(natural language processing, NLP)는 인공지능의 한 분야로, 사람의 언어를 컴퓨터가 알아듣도록 처리하는 인터페이스의 역할을 한다. 자연어 처리 기술을 사용하는 대표적인 응용분야는 아래와 같다. 감성분석과 같은 대량의 텍스트를 이해하고 정형화 하는 작업(clustering, classification 등) 애플의 시리(Siri) 와 같이, 사용자의 의도를 파악하고 대화를 하거나 도움을 주는 작업(질의응답) 요약(summarization), 기계번역(machine translation)과 같은 작업 사용자로부터 입..

    [NLP/자연어처리] 자연어처리 관련 자료 모음

    [NLP - 자연어처리] 0. Opening 회사에서 근무하며 모두를 위한 딥러닝 시즌 2통해 딥러닝에 대한 기초와 파이토치 기본기를 다졌다. 자연어처리와 BERT, 추천시스템에 대해서 조금 더 깊게 연구하고 싶은 마음이 있어서, 자연어처리 기반 입문할만한 책들을 찾아보고 공부하려 한다. 내가 자료를 찾는 기준은 이러했다. 단순 코드로 실습만 하는 것이 아니라 이론적인 설명(수식 등)이 함께 잘 구비되어 있는가 실습할 수 있는 코드의 패키지가 Pytorch로 되어있는가 자연어의 기초부터 끝까지(BERT) 폭넓게 적혀 있는가 한국어로 되어있는가(영어를 정말 못하는데, 이론이라도 한국어로 쉽게...) 위 기준을 충족하는 자료들을 찾아본 결과, 아래와 같은 자료들이 있었다. 도서(사이트) 파이토치로 시작하는 ..