Study

    [NLP/자연어처리] LSTM(Long Short-Term Memory), GRU(Gated Recurrent Unit)

    2021.05.20 - [Study/NLP] - [NLP/자연어처리] 순환신경망 (Recurrent Neural Network, RNN) [NLP/자연어처리] 순환신경망 (Recurrent Neural Network, RNN) 해당 포스팅은 김기현의 자연어처리 딥러닝 캠프의 내용과 파이토치로 시작하는 딥러닝 입문 의 내용을 정리한 것입니다. 우리는 시공간의 차원에 살고 있다. 그렇기 때문에 시공간에 정의된 everywhere-data.tistory.com 이전 글에서 이야기한 순환신경망 RNN은 가장 단순한 형태의 RNN이라고 하여 바닐라 RNN이라고도 한다. 이번 글에서는 바닐라 RNN의 한계에 대해서 설명하고 이를 극복하기 위한 LSTM과 GRU에 대해서 설명해보고자 한다. 1. RNN의 한계 RNN..

    [NLP/자연어처리] 순환신경망 (Recurrent Neural Network, RNN)

    해당 포스팅은 김기현의 자연어처리 딥러닝 캠프의 내용과 파이토치로 시작하는 딥러닝 입문 의 내용을 정리한 것입니다. 우리는 시공간의 차원에 살고 있다. 그렇기 때문에 시공간에 정의된 수많은 문제를 해결하는 과정에서 시간의 개념을 넣어야하는 문제들도 많이 발생하고 있다. 텍스트 뿐 아니라 주식시장의 주가 예측이나 일기예보 등 많은 시간 관련 정보에 대한 문제들이 나오고 있다. 그 중 하나인 텍스트 분야의 경우, 단어들이 모여 문장이 되고, 문장이 모여 문서가 된다. 문장의 단어들은 앞뒤 위치에 따라 서로 영향을 주고받기 때문에 문서 내 문장들도 순서없이 입력을 넣으면 출력이 나오는 함수의 형태가 아니라 순차적으로 입력하면 그에 따라 hidden layer와 출력 결과가 순차적으로 반환되는 함수가 필요하다...

    [NLP/자연어처리] 단어의 표현(2) - 카운트 기반의 단어 표현

    해당 포스팅은 김기현의 자연어처리 딥러닝캠프 파이토치편 과 딥러닝을 이용한 자연어 처리 입문 과정을 참고하여 정리한 것입니다. 필요한 부분은 추가로 찾아보았습니다. 지난 시간에는 단어의 표현 중 OnehotEncoding과 Word2Vec에 대해서 정리했었다. 이번에는 카운트 기반의 단어표현에 대해서 정리해보고자 한다. 카운트 기반이 먼저 나오고, 딥러닝 기반인 Word2Vec이 나와야 하는데 정리하다보니 카운트 기반을 잊은 것 같아 적는다. 0. 단어의 표현 방법 단어의 표현 방법은 크게 국소 표현(Local Representation)과 분산 표현( Distributed Representation)으로 나뉜다. 국소 표현은 해당 단어 그 자체만 보고 특정 값을 매핑하여 단어를 표현하는 방법이고, 분산..

    [NLP/자연어처리] 단어의 표현(1) - 원핫인코딩과 워드투벡터(Word2Vec)

    해당 내용은 김기현의 자연어 처리 딥러닝 캠프 파이토치편 및 Pytorch로 시작하는 딥러닝 입문읽으며 발췌 및 정리하였으며, 필요에 따라 추가로 검색하여 내용을 보충했습니다. 이전 글 참고 2021.05.12 - [Study/NLP] - [NLP/자연어처리] 자연어 처리 전처리(3) - 단어집합(Vocabulary), 패딩 [NLP/자연어처리] 자연어 처리 전처리(3) - 단어집합(Vocabulary), 패딩 ※ 해당 내용은 Pytorch로 시작하는 딥러닝 입문을 참고했습니다. 이전 토크나이징에 대한 내용은 아래 참조 2021.05.11 - [Study/NLP] - [NLP/자연어처리 ]자연어 처리 전처리(2) - 분절(토큰화) 라이브러 everywhere-data.tistory.com 자연어 처리 분..

    [NLP/자연어처리] 자연어처리 전처리(4) - 토치텍스트(TorchText)

    해당 내용은 김기현의 자연어 처리 딥러닝 캠프 파이토치편 및 Pytorch로 시작하는 딥러닝 입문읽으며 발췌 및 정리한 내용입니다. 2021.05.11 - [Study/NLP] - [NLP/자연어처리 ]자연어 처리 전처리(2) - 분절(토큰화) 라이브러리 소개 [NLP/자연어처리 ]자연어 처리 전처리(2) - 분절(토큰화) 라이브러리 소개 해당 내용은 김기현의 자연어 처리 딥러닝 캠프 파이토치편을 읽으며 발췌 및 정리한 내용입니다. 2021.05.10 - [Study/NLP] - [NLP/자연어처리] 자연어 처리 전처리(1) - 코퍼스와 텍스트 정제 [NLP/자연 everywhere-data.tistory.com 2021.05.12 - [Study/NLP] - [NLP/자연어처리] 자연어 처리 전처리(3..

    [NLP/자연어처리] 자연어 처리 전처리(3) - 단어집합(Vocabulary), 패딩

    ※ 해당 내용은 Pytorch로 시작하는 딥러닝 입문을 참고했습니다. 이전 토크나이징에 대한 내용은 아래 참조 2021.05.11 - [Study/NLP] - [NLP/자연어처리 ]자연어 처리 전처리(2) - 분절(토큰화) 라이브러리 소개 자연어 처리 분석을 하기 위해서는 단어 집합, 즉 단어 사전이 필요하다. 오늘은 하나의 데이터로 단어의 집합을 만들고, 고유정수를 부여(indexing) 하고 문장의 길이만큼 패딩(padding)하는 방법에 대해 적어보려 한다. 1. 단어집합(vocabulary) 단어 집합(vocabulary)이란 중복을 제거한 텍스트의 총 단어의 집합(set)을 의미한다. 여러개의 코퍼스를 분절하고, unique한 단어들만 모아서 집합의 형태로 만드는 것이다. 아래 예제를 통해 실습..

    [NLP/자연어처리 ]자연어 처리 전처리(2) - 분절(토큰화) 라이브러리 소개

    해당 내용은 김기현의 자연어 처리 딥러닝 캠프 파이토치편을 읽으며 발췌 및 정리한 내용입니다. 2021.05.10 - [Study/NLP] - [NLP/자연어처리] 자연어 처리 전처리(1) - 코퍼스와 텍스트 정제 [NLP/자연어처리] 자연어 처리 전처리(1) - 코퍼스와 텍스트 정제 해당 내용은 김기현의 자연어 처리 딥러닝 캠프 파이토치편을 읽으며 발췌 및 정리한 내용입니다. 이전 개요에 대해서는 아래 링크 참조 2021.05.10 - [Study/NLP] - [NLP/자연어처리] 자연어처리와 딥 everywhere-data.tistory.com 자연어 처리를 하려면 기본적으로 문장에 대한 분절이 이루어져야 한다. 책에서는 분절 이라고 하는데 우리가 많이 들어온 "토큰화(Tokenization)"라고도..

    [NLP/자연어처리] 자연어 처리 전처리(1) - 코퍼스와 텍스트 정제

    해당 내용은 김기현의 자연어 처리 딥러닝 캠프 파이토치편을 읽으며 발췌 및 정리한 내용입니다. 이전 개요에 대해서는 아래 링크 참조 2021.05.10 - [Study/NLP] - [NLP/자연어처리] 자연어처리와 딥러닝의 역사, 발전과정 [NLP/자연어처리] 자연어처리와 딥러닝의 역사, 발전과정 [NLP/자연어처리] 해당 내용은 김기현의 자연어 처리 딥러닝 캠프 파이토치편을 읽으며 발췌 및 정리한 내용입니다. 1. 개요 1.1 자연어처리와 딥러닝의 역사 자연어처리(natural language processing, NLP) everywhere-data.tistory.com 오늘은 자연어 처리의 전처리 과정에 대해서 용어랑 개요를 정리할 예정이다. 0. 코퍼스(copus)란? 코퍼스(copus)는 여러 ..