ইনিশিয়ালাইজেশন তত্ত্ব

Initialization Theory

ওজন কীভাবে শুরু করব — Xavier, He

≈ ৯ মিনিট

Deep network-এর সব ওজন ০ দিলে কী হবে? সব neuron একই কাজ করবে — কোনো learning হবে না। সব ১ দিলে? Activation বিস্ফোরণ। সঠিক initialization deep learning-এর নীরব নায়ক।

মূল লক্ষ্য

Forward-এ activation variance স্থির রাখা।
Backward-এ gradient variance স্থির রাখা।
অর্থাৎ signal না বিস্ফোরিত, না বিলুপ্ত।

Variance বিশ্লেষণ

Layer: y = Wx, যেখানে x-এর n_in টা component, প্রতিটি independent, variance σ_x²। তাহলে:

Var (y_{i}) = n_{in} \cdot Var (W_{ij}) \cdot σ_{x}^{2}

Var(y) = Var(x) চাইলে Var(W) = 1/n_in দরকার।

Xavier / Glorot (tanh, sigmoid-এর জন্য)

W_{ij} \sim N (0, \frac{2}{n _{in} + n _{o u t}})

Forward ও backward উভয়ের variance ভারসাম্যে রাখে।

He / Kaiming (ReLU-এর জন্য)

W_{ij} \sim N (0, \frac{2}{n _{in}})

ReLU অর্ধেক activation ০ করে — তাই variance দ্বিগুণ লাগে compensate করতে।

ভুল initialization-এর লক্ষণ

Activation সব ০ → dead network।
Activation NaN/Inf → বিস্ফোরণ।
Loss curve flat → vanishing gradient।
প্রথম কয়েক step-এ loss জাম্প → বড় init।

মূল ভাবনা

1.Goal: forward ও backward variance ১ রাখা।
2.Xavier: tanh/sigmoid → 2/(n_in + n_out)।
3.He: ReLU → 2/n_in।
4.ভুল init = NaN বা flat loss।

নিজেকে যাচাই করো

প্রশ্নে ক্লিক করে উত্তর দেখো — তবে আগে নিজে চেষ্টা করো।

প্রশ্ন 1।ReLU-এ কোন init?

উত্তর:He / Kaiming, var = 2/n_in।

প্রশ্ন 2।Xavier কেন ReLU-তে কম কার্যকর?

উত্তর:ReLU অর্ধেক signal কাটে, তাই 2× compensation দরকার।

প্রশ্ন 3।সব ওজন ০ দিলে?

উত্তর:Symmetry — সব neuron একই; learning হয় না।

ইন্টারেক্টিভ কুইজ

মূল ভাবনার উপর দ্রুত যাচাই — সঠিক বিকল্পটি বাছাই করো।

প্রশ্ন 1।“ইনিশিয়ালাইজেশন তত্ত্ব” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?

প্রশ্ন 2।“ইনিশিয়ালাইজেশন তত্ত্ব” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?

প্রশ্ন 3।“ইনিশিয়ালাইজেশন তত্ত্ব” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?

প্রশ্ন 4।“ইনিশিয়ালাইজেশন তত্ত্ব” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?

উত্তর দেওয়া হয়েছে: 0/4