অধ্যায় 17.3

ব্যাচ নর্ম গণিত

Batch Normalization Math

প্রতিটি layer-এ পরিসংখ্যান ঠিক রাখা

≈ ৯ মিনিট

Deep network-এ training-এর সময় প্রতিটি layer-এর input-এর distribution বদলায় — "internal covariate shift"। BatchNorm এই সমস্যা সমাধান করে: প্রতিটি mini-batch-এ activation-কে normalize করো।

অ্যালগরিদম

একটি mini-batch B = {x₁, …, x_m}। প্রতিটি feature dimension-এ:

γ, β হলো learnable scale ও shift — network নিজে শিখে নেয় কতটুকু normalize রাখতে চায়।

কেন কাজ করে

  • Activation distribution stable → বড় learning rate চলে।
  • Gradient flow ভালো → vanishing কম।
  • হালকা regularization (batch noise)।
  • Initialization-এর প্রতি কম সংবেদনশীল।

Train vs inference

  • Training: প্রতিটি batch-এর own μ, σ।
  • Inference: running average ব্যবহার (training জুড়ে জমানো)।
  • এই পার্থক্যই BN-এর সবচেয়ে সাধারণ bug-এর উৎস।

BN-এর আত্মীয়রা

  • LayerNorm: feature dimension জুড়ে normalize — Transformer-এ standard।
  • GroupNorm: feature-এর group জুড়ে — ছোট batch-এ ভালো।
  • InstanceNorm: প্রতি sample, প্রতি channel — style transfer-এ।
  • RMSNorm: শুধু RMS দিয়ে — LLaMA-তে ব্যবহৃত।
উদাহরণ
BatchNorm সংখ্যাসহ

Mini-batch x = [2, 4, 6, 8]। μ = 5, σ² = 5।

x̂ = (x−5)/√5 ≈ [−1.34, −0.45, 0.45, 1.34]।

γ = 2, β = 1 ⇒ y = 2 x̂ + 1 ≈ [−1.68, 0.11, 1.89, 3.68]।

মূল ভাবনা

  • 1.BN = normalize (mean 0, var 1) তারপর learn করে rescale।
  • 2.γ, β দুটি learnable parameter।
  • 3.Train ও inference-এ statistics আলাদা।
  • 4.LayerNorm Transformer-এর জন্য পছন্দের।

নিজেকে যাচাই করো

প্রশ্নে ক্লিক করে উত্তর দেখো — তবে আগে নিজে চেষ্টা করো।

প্রশ্ন 1BN-এর normalize step?
উত্তর:(x − μ)/√(σ² + ε)।
প্রশ্ন 2γ, β কেন দরকার?
উত্তর:Network নিজে normalization-এর পরিমাণ ঠিক করতে।
প্রশ্ন 3Transformer-এ কোন norm?
উত্তর:LayerNorm (বা RMSNorm)।
প্রশ্ন 4BatchNorm কেন training স্থিতিশীল করে?
উত্তর:Activation distribution stable।
প্রশ্ন 5Inference সময় μ, σ?
উত্তর:Running average।

ইন্টারেক্টিভ কুইজ

মূল ভাবনার উপর দ্রুত যাচাই — সঠিক বিকল্পটি বাছাই করো।

প্রশ্ন 1“ব্যাচ নর্ম গণিত” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
প্রশ্ন 2“ব্যাচ নর্ম গণিত” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
প্রশ্ন 3“ব্যাচ নর্ম গণিত” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
প্রশ্ন 4“ব্যাচ নর্ম গণিত” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
উত্তর দেওয়া হয়েছে: 0/4