লস ল্যান্ডস্কেপ
Loss Landscapes
উচ্চমাত্রিক পাহাড়ে SGD কেন কাজ করে
≈ ১০ মিনিট
একটি GPT-3-এর loss surface ১৭৫ বিলিয়ন মাত্রায় বাস। আমরা সেই surface কল্পনাও করতে পারি না। তবু SGD সেখানে দিব্যি minimum খুঁজে নেয়। কেন? — উচ্চ মাত্রার জ্যামিতি আমাদের 3D-র অন্তর্দৃষ্টি থেকে অনেক ভিন্ন।
Loss surface কী
প্রতিটি প্যারামিটার সেট θ-এর জন্য একটি loss L(θ)। সব θ-এর উপর L একটি function — অসংখ্য মাত্রার পাহাড়।
Critical point-এর প্রকার
- Local minimum: সব দিকে উপরে।
- Local maximum: সব দিকে নিচে।
- Saddle: কিছু দিকে উপরে, কিছু দিকে নিচে।
- Plateau: gradient প্রায় শূন্য, কিন্তু min নয়।
Hessian দিয়ে শ্রেণীবিন্যাস
- সব λ > 0 → local minimum।
- সব λ < 0 → local maximum।
- মিশ্র চিহ্ন → saddle।
- কিছু λ = 0 → degenerate (flat দিক)।
উচ্চ মাত্রার আশ্চর্য
- উচ্চ মাত্রায় বেশিরভাগ critical point আসলে saddle, local min নয়।
- Local min-গুলোর loss মান প্রায় কাছাকাছি — "good enough" সর্বত্র।
- Flat minimum সাধারণত ভালো generalize করে (sharp minimum-এর চেয়ে)।
- তাই SGD-এর noise উপকারী — sharp basin থেকে বেরিয়ে flat খুঁজে।
Mode connectivity
চমকপ্রদ আবিষ্কার: দুটি ভালো minimum প্রায়ই একটি low-loss পথ দিয়ে সংযুক্ত — অর্থাৎ "সমস্ত" ভালো solution একটি বিশাল connected অঞ্চলে বাস করতে পারে।
Generalization-এর সাথে সম্পর্ক
- Sharp min: training-এ ভালো, test-এ ভঙ্গুর।
- Flat min: noise-সহনশীল, ভালো generalize।
- SHM (Sharpness-Aware Minimization) — flat-এর সন্ধানে নতুন optimizer।
Visualization কৌশল
- Two random direction-এ 2D slice → contour plot।
- Filter normalization → তুলনাযোগ্য visualization।
- Loss landscape paper (Li et al. 2018) — ক্লাসিক।
1D loss L(w) = (w−3)² minima w = 3, একটি bowl।
2D L(w₁,w₂) = w₁² + 10w₂² — elongated bowl ⇒ GD slow on w₁ axis।
High-dim NN-এ minima কম, saddle অনেক — তবু SGD কাজ করে।
মূল ভাবনা
- 1.Loss surface = বিশাল মাত্রার পাহাড়।
- 2.উচ্চ মাত্রায় saddle prevalent, local min rare।
- 3.Flat minimum → ভালো generalization।
- 4.SGD-এর noise feature, bug নয়।
নিজেকে যাচাই করো
প্রশ্নে ক্লিক করে উত্তর দেখো — তবে আগে নিজে চেষ্টা করো।
প্রশ্ন 1।Saddle কী?
প্রশ্ন 2।Flat vs sharp minimum?
প্রশ্ন 3।উচ্চ মাত্রায় কোন critical point বেশি?
প্রশ্ন 4।Saddle point-এ Hessian eigenvalues?
প্রশ্ন 5।Curvature বেশি অক্ষে GD?
ইন্টারেক্টিভ কুইজ
মূল ভাবনার উপর দ্রুত যাচাই — সঠিক বিকল্পটি বাছাই করো।