গ্রেডিয়েন্ট ডিসেন্ট

Gradient Descent

পাহাড় থেকে নামার সহজতম অ্যালগরিদম

≈ ১০ মিনিট

Loss ফাংশন একটি পাহাড়। আমরা চাই সবচেয়ে নিচু জায়গায় পৌঁছাতে। চোখ বন্ধ অবস্থায় শুধু পায়ের নিচের ঢাল অনুভব করে নামতে হয় — এই কৌশলই gradient descent, যা সমস্ত আধুনিক ML-এর হৃদয়।

Update নিয়ম

θ_{t + 1} = θ_{t} - η \nabla f (θ_{t})

θ — parameters (ওজন)।
η — learning rate (পদক্ষেপের আকার)।
∇f — বর্তমান বিন্দুতে gradient।

Learning rate-এর ভূমিকা

η খুব ছোট → অসম্ভব ধীর।
η ঠিকঠাক → মসৃণ অবরোহণ।
η খুব বড় → oscillation বা diverge।

Variants

**Batch GD** — পুরো ডেটাসেটে gradient। সঠিক, কিন্তু ধীর।
**SGD** — একটি নমুনায় gradient। দ্রুত, কিন্তু noisy।
**Mini-batch SGD** — সমঝোতা; বাস্তবে সবচেয়ে ব্যবহৃত।
**Momentum** — বেগ সংরক্ষণ করে saddle ও ravine পার করা।
**Adam** — adaptive η + momentum; default optimizer।

কোথায় থামবে

‖∇f‖ ≈ 0 → critical point।
Local minimum, saddle, বা (বিরল) global minimum।
Convex হলে: যেকোনো local = global।

AI-প্রসঙ্গ

প্রতিটি neural net training = mini-batch SGD-এর variant।
LR scheduling, warmup, cosine decay — চলমান গবেষণা।
AdamW — LLM training-এর standard।

মূল ভাবনা

1.θ ← θ − η ∇f।
2.η-এর tuning critical।
3.SGD/Adam-এর হাজারো variant একই idea-র উপর দাঁড়িয়ে।
4.Convex না হলে শুধু local minimum-এর গ্যারান্টি।

নিজেকে যাচাই করো

প্রশ্নে ক্লিক করে উত্তর দেখো — তবে আগে নিজে চেষ্টা করো।

প্রশ্ন 1।Update rule লেখো।

উত্তর:θₜ₊₁ = θₜ − η ∇f(θₜ)।

প্রশ্ন 2।η বড় হলে কী হয়?

উত্তর:Oscillation বা divergence।

প্রশ্ন 3।Momentum কেন?

উত্তর:Saddle ও ravine পার করতে; দ্রুত convergence।

ইন্টারেক্টিভ কুইজ

মূল ভাবনার উপর দ্রুত যাচাই — সঠিক বিকল্পটি বাছাই করো।

প্রশ্ন 1।“গ্রেডিয়েন্ট ডিসেন্ট” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?

প্রশ্ন 2।“গ্রেডিয়েন্ট ডিসেন্ট” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?

প্রশ্ন 3।“গ্রেডিয়েন্ট ডিসেন্ট” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?

প্রশ্ন 4।“গ্রেডিয়েন্ট ডিসেন্ট” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?

উত্তর দেওয়া হয়েছে: 0/4