목록분류 전체보기 (68)
AI 전문가가 되고싶은 사람
https://www.youtube.com/watch?v=nvJz9maIIRE&t=121s훈민정음 문장을 학습시켜 한 구절을 입력했을 때 이후 구절을 출력하도록 LSTM 모델을 실습해 보았다. 이전에 다뤘던 RNN에 비해 구조가 더 복잡하여 이해하는 데 시간이 더 걸렸지만, 정확히 기록해 두어 잊지 않도록 해야겠다. LSTM 구현 순서1. 데이터 전처리2. 활성화 함수 구현3. LSTM 클래스 정의 ( 초기화, 상태 초기화, 순전파, 역전파, 학습, 테스트 )4. 학습 및 평가데이터 전처리이전 글인 RNN과 같이 사용 문장은 다음과 같다.사용 문장나라의 말이 중국과 달라 문자와 서로 통하지 아니하니, 이런 까닭으로 어리석은 백성이 이르고자 할 바가 있어도 마침내 제 뜻을 능히 펴지 못할 사람이 많다. ..
Pretraining과 Fine-Tuning의 이해Transformer 기반 모델이 어떻게 Pretraining과 Fine-Tuning을 활용하는지 이해합니다.BERT (Bidirectional Encoder Representations from Transformers)논문: BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingMasked Language Model(MLM)과 Next Sentence Prediction(NSP) 방식 학습Bidirectional 학습 방식의 강점과 활용 사례 이해GPT (Generative Pre-trained Transformer)논문: Improving Language Unde..
Transformer의 마지막 공부는 논문을 리뷰하는 것이라고 해서 논문 리뷰하며 공부해보겠습니다. 논문 링크 : https://arxiv.org/pdf/1706.03762작동 과정에 대한 상세 설명 : https://seungwoo0407.tistory.com/68 Transformerhttps://www.youtube.com/watch?v=p216tTVxues Transformer란?2017년 구글 브레인 팀이 발표한 논문으로, 단순히 딥러닝 기술을 넘어 인공지능의 발전에 있어 중요한 이정표로 자리 잡았다. Transformer는 NLP는 물seungwoo0407.tistory.comhttps://www.youtube.com/watch?v=p216tTVxues&t=1163s서론 1. 배경 및 기존 ..
https://www.youtube.com/watch?v=cdGBloT9vDk훈민정음 문장을 학습시키고 한 구절을 입력했을 때, 이후의 출력을 뽑아내는 바닐라 RNN을 실습해보았다.RNN 구현 순서1. 데이터 전처리2. 가중치 초기화3. 순전파4. 역전파5. 예측6. 학습 루프데이터 전처리 사용 문장나라의 말이 중국과 달라 문자와 서로 통하지 아니하니, 이런 까닭으로 어리석은 백성이 이르고자 할 바가 있어도 마침내 제 뜻을 능히 펴지 못할 사람이 많다. 내가 이를 위하여 가엾이 여겨 새로 스물여덟 자를 만드노니 사람마다 하여금 쉬이 익혀 날마다 쓰는 데 편하게 하고자 할 따름이다.def data_preprocessing(data): data = re.sub('[^가-힣]', ' ', data) #..
https://www.youtube.com/watch?v=p216tTVxues Transformer란?2017년 구글 브레인 팀이 발표한 논문으로, 단순히 딥러닝 기술을 넘어 인공지능의 발전에 있어 중요한 이정표로 자리 잡았다. Transformer는 NLP는 물론, 컴퓨터 비전, 음성 인식, 다중 모달 학습, 강화 학습 등 딥러닝의 다양한 영역에 걸쳐 영향을 미쳤다. 그렇기에, 딥러닝 공부를 하는데 필수적인 모델이라고 할 수 있다. Transformer 아키텍처Transformer 모델은 크게 Encoder와 Decoder로 나뉘며, 각 부분은 여러 층의 블록으로 구성되어 있다. 각 블록들은 다음과 같은 핵심 컴포넌트를 포함한다.1. 입력 임베딩2. 위치 인코딩(Position Encoding)3. ..
https://www.youtube.com/watch?v=cu8ysaaNAh0 Attention 매커니즘Seq2Seq 모델은 인코더와 디코더로 구성되어 입력 시퀀스를 압축된 벡터로 변환한 후, 이를 바탕으로 출력 시퀀스를 생성하는 구조이다. 하지만 입력 시퀀스가 길어질 경우, 컨텍스트 벡터에 모든 정보를 담기 어려운 한계가 있다. 이를 해결하기 위해 Attention 매커니즘이 도입되었다.Attention 매커니즘은 디코더가 출력 시퀀스의 각 단어를 생성할 때 입력 시퀀스의 중요한 부분을 강조하도록 설계되었다. 이를 통해 모델은 더 긴 시퀀스를 처리할 수 있고, 번역 품질 향상과 복잡한 문장 구조 처리에 강점을 보인다.Attention 작동 방식Attention 매커니즘의 작동 방식은 다음과 같다.먼저 ..
김장 도와드리고 오느라 공부를 쉬게 되었네요! 다시 시작해보겠습니다.Word2vec을 공부하였으니 Word2vec 부분이 이해가 가기에 공부해보겠습니다.https://www.youtube.com/watch?v=qwfLTwesx6k&list=LL&index=1&t=176shttps://www.geeksforgeeks.org/seq2seq-model-in-machine-learning/ seq2seq Model in Machine Learning - GeeksforGeeksA Computer Science portal for geeks. It contains well written, well thought and well explained computer science and programming artic..
https://seungwoo0407.tistory.com/62 Transformer 리뷰를 위한 공부신경망과 시퀀스 모델 학습Transformer의 등장 배경인 RNN 계열 모델과 Attention 메커니즘을 이해합니다.필수 학습 주제RNN (Recurrent Neural Networks): 순차 데이터 처리 기초https://seungwoo0407.tistory.com/63 RNN(Rseungwoo0407.tistory.comSeq2Seq (Sequence-to-Sequence) 모델을 공부하기 전 Word2vec 개념을 알아야한다고 해서 먼저 공부하도록 하겠습니다. https://www.youtube.com/watch?v=pC6P-rBrwms신박 Ai님 설명을 너무 잘해주셔서 마찬가지로 해당 영상으..