Transformer에서 LLM 초기까지의 학습 단계

Notice

Recent Posts

Recent Comments

Link

04-10 18:16

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

AI 전문가가 되고싶은 사람

Transformer에서 LLM 초기까지의 학습 단계 본문

개인 공부

Transformer에서 LLM 초기까지의 학습 단계

Kimseungwoo0407 2024. 12. 10. 18:40

Pretraining과 Fine-Tuning의 이해

Transformer 기반 모델이 어떻게 Pretraining과 Fine-Tuning을 활용하는지 이해합니다.

~~BERT (Bidirectional Encoder Representations from Transformers)~~
~~논문: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding~~

https://seungwoo0407.tistory.com/73

BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding

Introduction최근 자연어 처리(NLP) 분야는 언어 모델의 사전 훈련(pre-training)을 통해 크게 발전하고 있다. 특히 BERT(Bidirectional Encoder Representations from Transformers)는 기존 모델의 한계를 극복하며 다양한

seungwoo0407.tistory.com

GPT (Generative Pre-trained Transformer)
논문: Improving Language Understanding by Generative Pre-training
- Autoregressive(Unidirectional) 학습의 특징
- GPT Pretraining과 Fine-Tuning의 접근법

LLM 초기 모델 탐구

LLM의 초기 모델이 어떻게 발전했는지 살펴봅니다.

GPT-2
논문: Language Models are Unsupervised Multitask Learners
- "Zero-shot" 학습 가능성과 스케일업 전략 분석
- Unsupervised Multitask Learning의 구현 방식
GPT-3
논문: Language Models are Few-Shot Learners
- Few-shot, One-shot, Zero-shot Learning 개념 이해
- 모델 크기와 성능 향상의 관계

Fine-Tuning의 확장: T5와 BART

Encoder-Decoder 구조를 활용한 모델에 대해 학습합니다.

T5 (Text-to-Text Transfer Transformer)
논문: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
- 모든 NLP 태스크를 텍스트 입력과 출력으로 통합
- Span masking 기법 학습
BART (Bidirectional and Auto-Regressive Transformers)
논문: BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension
- Denoising pretraining 기법 이해
- Encoder-Decoder 구조의 활용 사례

Scaling Laws와 LLM 설계 원칙

LLM의 성능이 모델 크기, 데이터, 컴퓨팅 자원에 어떻게 의존하는지 분석합니다.

Scaling Laws for Neural Language Models
논문: Scaling Laws for Neural Language Models
- "Pretrain Bigger, Fine-Tune Less" 철학 이해
- 모델 크기와 성능의 상관관계

효율적 모델 학습 전략

모델의 크기를 줄이고 효율성을 높이는 방법에 대해 학습합니다.

RoBERTa (Robustly Optimized BERT Pretraining Approach)
논문: RoBERTa: A Robustly Optimized BERT Pretraining Approach
- Pretraining 기법 최적화
- Dropout 제거 및 긴 Pretraining 효과
ALBERT (A Lite BERT)
논문: ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
- 파라미터 공유와 분해를 통한 경량화

Reinforcement Learning과 Human Feedback

사용자 피드백을 활용한 LLM의 Fine-Tuning 기법을 학습합니다.

InstructGPT
논문: Training language models to follow instructions with human feedback
- Reinforcement Learning with Human Feedback(RLHF) 개념
- Pretrained 모델이 사용자 지시를 따르게 하는 방법

AI 전문가가 되고싶은 사람

Transformer에서 LLM 초기까지의 학습 단계 본문

Transformer에서 LLM 초기까지의 학습 단계

Pretraining과 Fine-Tuning의 이해

LLM 초기 모델 탐구

Fine-Tuning의 확장: T5와 BART

Scaling Laws와 LLM 설계 원칙

효율적 모델 학습 전략

Reinforcement Learning과 Human Feedback

티스토리툴바