ব্যাচ নর্ম গণিত

Batch Normalization Math

প্রতিটি layer-এ পরিসংখ্যান ঠিক রাখা

≈ ৯ মিনিট

Deep network-এ training-এর সময় প্রতিটি layer-এর input-এর distribution বদলায় — "internal covariate shift"। BatchNorm এই সমস্যা সমাধান করে: প্রতিটি mini-batch-এ activation-কে normalize করো।

অ্যালগরিদম

একটি mini-batch B = {x₁, …, x_m}। প্রতিটি feature dimension-এ:

μ_{B} = \frac{1}{m} i \sum x_{i}, σ_{B}^{2} = \frac{1}{m} i \sum (x_{i} - μ_{B})^{2}

\overset{x}{^}_{i} = \frac{x _{i} - μ _{B}}{σ _{B}^{2} + ϵ}, y_{i} = γ \overset{x}{^}_{i} + β

γ, β হলো learnable scale ও shift — network নিজে শিখে নেয় কতটুকু normalize রাখতে চায়।

কেন কাজ করে

Activation distribution stable → বড় learning rate চলে।
Gradient flow ভালো → vanishing কম।
হালকা regularization (batch noise)।
Initialization-এর প্রতি কম সংবেদনশীল।

Train vs inference

Training: প্রতিটি batch-এর own μ, σ।
Inference: running average ব্যবহার (training জুড়ে জমানো)।
এই পার্থক্যই BN-এর সবচেয়ে সাধারণ bug-এর উৎস।

BN-এর আত্মীয়রা

LayerNorm: feature dimension জুড়ে normalize — Transformer-এ standard।
GroupNorm: feature-এর group জুড়ে — ছোট batch-এ ভালো।
InstanceNorm: প্রতি sample, প্রতি channel — style transfer-এ।
RMSNorm: শুধু RMS দিয়ে — LLaMA-তে ব্যবহৃত।

উদাহরণ

BatchNorm সংখ্যাসহ

Mini-batch x = [2, 4, 6, 8]। μ = 5, σ² = 5।

x̂ = (x−5)/√5 ≈ [−1.34, −0.45, 0.45, 1.34]।

γ = 2, β = 1 ⇒ y = 2 x̂ + 1 ≈ [−1.68, 0.11, 1.89, 3.68]।

মূল ভাবনা

1.BN = normalize (mean 0, var 1) তারপর learn করে rescale।
2.γ, β দুটি learnable parameter।
3.Train ও inference-এ statistics আলাদা।
4.LayerNorm Transformer-এর জন্য পছন্দের।

নিজেকে যাচাই করো

প্রশ্নে ক্লিক করে উত্তর দেখো — তবে আগে নিজে চেষ্টা করো।

প্রশ্ন 1।BN-এর normalize step?

উত্তর:(x − μ)/√(σ² + ε)।

প্রশ্ন 2।γ, β কেন দরকার?

উত্তর:Network নিজে normalization-এর পরিমাণ ঠিক করতে।

প্রশ্ন 3।Transformer-এ কোন norm?

উত্তর:LayerNorm (বা RMSNorm)।

প্রশ্ন 4।BatchNorm কেন training স্থিতিশীল করে?

উত্তর:Activation distribution stable।

প্রশ্ন 5।Inference সময় μ, σ?

উত্তর:Running average।

ইন্টারেক্টিভ কুইজ

মূল ভাবনার উপর দ্রুত যাচাই — সঠিক বিকল্পটি বাছাই করো।

প্রশ্ন 1।“ব্যাচ নর্ম গণিত” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?

প্রশ্ন 2।“ব্যাচ নর্ম গণিত” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?

প্রশ্ন 3।“ব্যাচ নর্ম গণিত” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?

প্রশ্ন 4।“ব্যাচ নর্ম গণিত” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?

উত্তর দেওয়া হয়েছে: 0/4