ট্রান্সফরমার ব্লকের গণিত

Transformer Block Math

সম্পূর্ণ পাইপলাইন

≈ ১০ মিনিট

GPT-4, Claude, Gemini — সব একই building block-এর পুনরাবৃত্তি। চলো এক layer-এর সম্পূর্ণ গণিত খুলে দেখি।

একটি Transformer block

X^{'} = LayerNorm (X + MultiHead (X))

Y = LayerNorm (X^{'} + FFN (X^{'}))

FFN (x) = σ (x W_{1} + b_{1}) W_{2} + b_{2}

LN (x) = γ \cdot \frac{x - μ}{σ} + β

প্রতি token-এর feature বরাবর normalize। Batch-independent।

X + Sublayer(X) — gradient সহজে back-propagate, 100+ layer-এও stable।

P E_{(p os, 2 i)} = sin (p os /1000 0^{2 i / d})

প্রশ্নে ক্লিক করে উত্তর দেখো — তবে আগে নিজে চেষ্টা করো।

প্রশ্ন 1।FFN 4d কেন?

উত্তর:Representation capacity — empirically ভালো।

প্রশ্ন 2।Residual ছাড়া?

উত্তর:Gradient vanish/explode।

প্রশ্ন 3।PE কেন?

উত্তর:Attention permutation-invariant।

মূল ভাবনার উপর দ্রুত যাচাই — সঠিক বিকল্পটি বাছাই করো।

প্রশ্ন 1।“ট্রান্সফরমার ব্লকের গণিত” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?

প্রশ্ন 2।“ট্রান্সফরমার ব্লকের গণিত” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?

প্রশ্ন 3।“ট্রান্সফরমার ব্লকের গণিত” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?

প্রশ্ন 4।“ট্রান্সফরমার ব্লকের গণিত” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?

উত্তর দেওয়া হয়েছে: 0/4