অধ্যায় 19.4

ট্রান্সফরমার ব্লকের গণিত

Transformer Block Math

সম্পূর্ণ পাইপলাইন

≈ ১০ মিনিট

GPT-4, Claude, Gemini — সব একই building block-এর পুনরাবৃত্তি। চলো এক layer-এর সম্পূর্ণ গণিত খুলে দেখি।

একটি Transformer block

Feed-Forward

  • W_1: d → 4d (expand)।
  • W_2: 4d → d (project back)।
  • σ: GELU/ReLU/SwiGLU।
  • Position-wise — প্রতি token-এ আলাদা।

LayerNorm

প্রতি token-এর feature বরাবর normalize। Batch-independent।

Residual connection

X + Sublayer(X) — gradient সহজে back-propagate, 100+ layer-এও stable।

Positional Encoding

  • Sinusoidal (original)।
  • Learned (BERT)।
  • RoPE (LLaMA)।
  • ALiBi — extrapolation-friendly।

পুরো model

  • Tokens → Embedding + PE।
  • N-টি block stack (GPT-3: 96, LLaMA-70B: 80)।
  • Final LN → Linear → Softmax → next token।
  • Parameter মূলত FFN ও attention projection-এ।

কেন শক্তিশালী

  • Parallel — GPU-friendly।
  • Long-range — যেকোনো দুই token সরাসরি যোগ।
  • Scalable — scaling laws।
  • Generalist — NLP, vision (ViT), audio, multimodal।

মূল ভাবনা

  • 1.Block = MultiHead + FFN + residual + LN।
  • 2.FFN d → 4d → d।
  • 3.PE ছাড়া order হারিয়ে যায়।
  • 4.একই block N বার stack = LLM।

নিজেকে যাচাই করো

প্রশ্নে ক্লিক করে উত্তর দেখো — তবে আগে নিজে চেষ্টা করো।

প্রশ্ন 1FFN 4d কেন?
উত্তর:Representation capacity — empirically ভালো।
প্রশ্ন 2Residual ছাড়া?
উত্তর:Gradient vanish/explode।
প্রশ্ন 3PE কেন?
উত্তর:Attention permutation-invariant।

ইন্টারেক্টিভ কুইজ

মূল ভাবনার উপর দ্রুত যাচাই — সঠিক বিকল্পটি বাছাই করো।

প্রশ্ন 1“ট্রান্সফরমার ব্লকের গণিত” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
প্রশ্ন 2“ট্রান্সফরমার ব্লকের গণিত” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
প্রশ্ন 3“ট্রান্সফরমার ব্লকের গণিত” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
প্রশ্ন 4“ট্রান্সফরমার ব্লকের গণিত” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
উত্তর দেওয়া হয়েছে: 0/4