অধ্যায় 17.4

ইনিশিয়ালাইজেশন তত্ত্ব

Initialization Theory

ওজন কীভাবে শুরু করব — Xavier, He

≈ ৯ মিনিট

Deep network-এর সব ওজন ০ দিলে কী হবে? সব neuron একই কাজ করবে — কোনো learning হবে না। সব ১ দিলে? Activation বিস্ফোরণ। সঠিক initialization deep learning-এর নীরব নায়ক।

মূল লক্ষ্য

  • Forward-এ activation variance স্থির রাখা।
  • Backward-এ gradient variance স্থির রাখা।
  • অর্থাৎ signal না বিস্ফোরিত, না বিলুপ্ত।

Variance বিশ্লেষণ

Layer: y = Wx, যেখানে x-এর n_in টা component, প্রতিটি independent, variance σ_x²। তাহলে:

Var(y) = Var(x) চাইলে Var(W) = 1/n_in দরকার।

Xavier / Glorot (tanh, sigmoid-এর জন্য)

Forward ও backward উভয়ের variance ভারসাম্যে রাখে।

He / Kaiming (ReLU-এর জন্য)

ReLU অর্ধেক activation ০ করে — তাই variance দ্বিগুণ লাগে compensate করতে।

ভুল initialization-এর লক্ষণ

  • Activation সব ০ → dead network।
  • Activation NaN/Inf → বিস্ফোরণ।
  • Loss curve flat → vanishing gradient।
  • প্রথম কয়েক step-এ loss জাম্প → বড় init।

মূল ভাবনা

  • 1.Goal: forward ও backward variance ১ রাখা।
  • 2.Xavier: tanh/sigmoid → 2/(n_in + n_out)।
  • 3.He: ReLU → 2/n_in।
  • 4.ভুল init = NaN বা flat loss।

নিজেকে যাচাই করো

প্রশ্নে ক্লিক করে উত্তর দেখো — তবে আগে নিজে চেষ্টা করো।

প্রশ্ন 1ReLU-এ কোন init?
উত্তর:He / Kaiming, var = 2/n_in।
প্রশ্ন 2Xavier কেন ReLU-তে কম কার্যকর?
উত্তর:ReLU অর্ধেক signal কাটে, তাই 2× compensation দরকার।
প্রশ্ন 3সব ওজন ০ দিলে?
উত্তর:Symmetry — সব neuron একই; learning হয় না।

ইন্টারেক্টিভ কুইজ

মূল ভাবনার উপর দ্রুত যাচাই — সঠিক বিকল্পটি বাছাই করো।

প্রশ্ন 1“ইনিশিয়ালাইজেশন তত্ত্ব” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
প্রশ্ন 2“ইনিশিয়ালাইজেশন তত্ত্ব” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
প্রশ্ন 3“ইনিশিয়ালাইজেশন তত্ত্ব” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
প্রশ্ন 4“ইনিশিয়ালাইজেশন তত্ত্ব” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
উত্তর দেওয়া হয়েছে: 0/4