목록논문 (23)
AI 전문가가 되고싶은 사람

https://www.youtube.com/watch?v=C9XLed6n6T4&t=1s논문 리뷰 후 따로 실습을 하지 않았기에 구현 실습을 해보았다. 사용 라이브러리, 하이퍼 파라미터import torchimport torch.nn as nnimport torch.optim as optimimport torch.nn.functional as Fimport randomimport reimport pickleimport pandas as pd딥러닝 모델 구축과 학습을 위해 pytorch를 사용하였고, 데이터 샘플링 및 텍스트 전처리를 위한 random과 re를 사용하였다. 또한, 모델과 데이터셋 저장을 위한 pickle을 사용하였다.#하이퍼 파라미터hidden_size = 256PAD_token = 0SOS..

Introduction최근 자연어 처리(NLP) 분야는 언어 모델의 사전 훈련(pre-training)을 통해 크게 발전하고 있다. 특히 BERT(Bidirectional Encoder Representations from Transformers)는 기존 모델의 한계를 극복하며 다양한 작업에서 뛰어난 성능을 보여주어 NLP의 새로운 패러다임을 제시했다.최근 연구들은 사전 훈련된 언어 모델이 NLP 작업의 성능을 획기적으로 향상시킬 수 있음을 입증했다. 예를 들어, Dai와 Le(2015)는 RNN을 활용한 사전 훈련 모델을 제안했고, Peters et al.(2018)은 ELMo를 통해 문맥 기반 임베딩을 구현했다. 또한 Radford et al.(2018)의 GPT와 Howard와 Ruder(2018)..

https://www.youtube.com/watch?v=nvJz9maIIRE&t=121s훈민정음 문장을 학습시켜 한 구절을 입력했을 때 이후 구절을 출력하도록 LSTM 모델을 실습해 보았다. 이전에 다뤘던 RNN에 비해 구조가 더 복잡하여 이해하는 데 시간이 더 걸렸지만, 정확히 기록해 두어 잊지 않도록 해야겠다. LSTM 구현 순서1. 데이터 전처리2. 활성화 함수 구현3. LSTM 클래스 정의 ( 초기화, 상태 초기화, 순전파, 역전파, 학습, 테스트 )4. 학습 및 평가데이터 전처리이전 글인 RNN과 같이 사용 문장은 다음과 같다.사용 문장나라의 말이 중국과 달라 문자와 서로 통하지 아니하니, 이런 까닭으로 어리석은 백성이 이르고자 할 바가 있어도 마침내 제 뜻을 능히 펴지 못할 사람이 많다. ..

Transformer의 마지막 공부는 논문을 리뷰하는 것이라고 해서 논문 리뷰하며 공부해보겠습니다. 논문 링크 : https://arxiv.org/pdf/1706.03762작동 과정에 대한 상세 설명 : https://seungwoo0407.tistory.com/68 Transformerhttps://www.youtube.com/watch?v=p216tTVxues Transformer란?2017년 구글 브레인 팀이 발표한 논문으로, 단순히 딥러닝 기술을 넘어 인공지능의 발전에 있어 중요한 이정표로 자리 잡았다. Transformer는 NLP는 물seungwoo0407.tistory.comhttps://www.youtube.com/watch?v=p216tTVxues&t=1163s서론 1. 배경 및 기존 ..

https://www.youtube.com/watch?v=cdGBloT9vDk훈민정음 문장을 학습시키고 한 구절을 입력했을 때, 이후의 출력을 뽑아내는 바닐라 RNN을 실습해보았다.RNN 구현 순서1. 데이터 전처리2. 가중치 초기화3. 순전파4. 역전파5. 예측6. 학습 루프데이터 전처리 사용 문장나라의 말이 중국과 달라 문자와 서로 통하지 아니하니, 이런 까닭으로 어리석은 백성이 이르고자 할 바가 있어도 마침내 제 뜻을 능히 펴지 못할 사람이 많다. 내가 이를 위하여 가엾이 여겨 새로 스물여덟 자를 만드노니 사람마다 하여금 쉬이 익혀 날마다 쓰는 데 편하게 하고자 할 따름이다.def data_preprocessing(data): data = re.sub('[^가-힣]', ' ', data) #..

https://www.youtube.com/watch?v=p216tTVxues Transformer란?2017년 구글 브레인 팀이 발표한 논문으로, 단순히 딥러닝 기술을 넘어 인공지능의 발전에 있어 중요한 이정표로 자리 잡았다. Transformer는 NLP는 물론, 컴퓨터 비전, 음성 인식, 다중 모달 학습, 강화 학습 등 딥러닝의 다양한 영역에 걸쳐 영향을 미쳤다. 그렇기에, 딥러닝 공부를 하는데 필수적인 모델이라고 할 수 있다. Transformer 아키텍처Transformer 모델은 크게 Encoder와 Decoder로 나뉘며, 각 부분은 여러 층의 블록으로 구성되어 있다. 각 블록들은 다음과 같은 핵심 컴포넌트를 포함한다.1. 입력 임베딩2. 위치 인코딩(Position Encoding)3. ..

https://www.youtube.com/watch?v=cu8ysaaNAh0 Attention 매커니즘Seq2Seq 모델은 인코더와 디코더로 구성되어 입력 시퀀스를 압축된 벡터로 변환한 후, 이를 바탕으로 출력 시퀀스를 생성하는 구조이다. 하지만 입력 시퀀스가 길어질 경우, 컨텍스트 벡터에 모든 정보를 담기 어려운 한계가 있다. 이를 해결하기 위해 Attention 매커니즘이 도입되었다.Attention 매커니즘은 디코더가 출력 시퀀스의 각 단어를 생성할 때 입력 시퀀스의 중요한 부분을 강조하도록 설계되었다. 이를 통해 모델은 더 긴 시퀀스를 처리할 수 있고, 번역 품질 향상과 복잡한 문장 구조 처리에 강점을 보인다.Attention 작동 방식Attention 매커니즘의 작동 방식은 다음과 같다.먼저 ..

김장 도와드리고 오느라 공부를 쉬게 되었네요! 다시 시작해보겠습니다.Word2vec을 공부하였으니 Word2vec 부분이 이해가 가기에 공부해보겠습니다.https://www.youtube.com/watch?v=qwfLTwesx6k&list=LL&index=1&t=176shttps://www.geeksforgeeks.org/seq2seq-model-in-machine-learning/ seq2seq Model in Machine Learning - GeeksforGeeksA Computer Science portal for geeks. It contains well written, well thought and well explained computer science and programming artic..