← পাঠ্যসূচি
100%
অধ্যায় 19.4
ট্রান্সফরমার ব্লকের গণিত
Transformer Block Math
সম্পূর্ণ পাইপলাইন
≈ ১০ মিনিট
GPT-4, Claude, Gemini — সব একই building block-এর পুনরাবৃত্তি। চলো এক layer-এর সম্পূর্ণ গণিত খুলে দেখি।
একটি Transformer block
Feed-Forward
- W_1: d → 4d (expand)।
- W_2: 4d → d (project back)।
- σ: GELU/ReLU/SwiGLU।
- Position-wise — প্রতি token-এ আলাদা।
LayerNorm
প্রতি token-এর feature বরাবর normalize। Batch-independent।
Residual connection
X + Sublayer(X) — gradient সহজে back-propagate, 100+ layer-এও stable।
Positional Encoding
- Sinusoidal (original)।
- Learned (BERT)।
- RoPE (LLaMA)।
- ALiBi — extrapolation-friendly।
পুরো model
- Tokens → Embedding + PE।
- N-টি block stack (GPT-3: 96, LLaMA-70B: 80)।
- Final LN → Linear → Softmax → next token।
- Parameter মূলত FFN ও attention projection-এ।
কেন শক্তিশালী
- Parallel — GPU-friendly।
- Long-range — যেকোনো দুই token সরাসরি যোগ।
- Scalable — scaling laws।
- Generalist — NLP, vision (ViT), audio, multimodal।
মূল ভাবনা
- 1.Block = MultiHead + FFN + residual + LN।
- 2.FFN d → 4d → d।
- 3.PE ছাড়া order হারিয়ে যায়।
- 4.একই block N বার stack = LLM।
নিজেকে যাচাই করো
প্রশ্নে ক্লিক করে উত্তর দেখো — তবে আগে নিজে চেষ্টা করো।
প্রশ্ন 1।FFN 4d কেন?
উত্তর:Representation capacity — empirically ভালো।
প্রশ্ন 2।Residual ছাড়া?
উত্তর:Gradient vanish/explode।
প্রশ্ন 3।PE কেন?
উত্তর:Attention permutation-invariant।
ইন্টারেক্টিভ কুইজ
মূল ভাবনার উপর দ্রুত যাচাই — সঠিক বিকল্পটি বাছাই করো।
প্রশ্ন 1।“ট্রান্সফরমার ব্লকের গণিত” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
প্রশ্ন 2।“ট্রান্সফরমার ব্লকের গণিত” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
প্রশ্ন 3।“ট্রান্সফরমার ব্লকের গণিত” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
প্রশ্ন 4।“ট্রান্সফরমার ব্লকের গণিত” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
উত্তর দেওয়া হয়েছে: 0/4