অধ্যায় 16.4

লস ল্যান্ডস্কেপ

Loss Landscapes

উচ্চমাত্রিক পাহাড়ে SGD কেন কাজ করে

≈ ১০ মিনিট

একটি GPT-3-এর loss surface ১৭৫ বিলিয়ন মাত্রায় বাস। আমরা সেই surface কল্পনাও করতে পারি না। তবু SGD সেখানে দিব্যি minimum খুঁজে নেয়। কেন? — উচ্চ মাত্রার জ্যামিতি আমাদের 3D-র অন্তর্দৃষ্টি থেকে অনেক ভিন্ন।

Loss surface কী

প্রতিটি প্যারামিটার সেট θ-এর জন্য একটি loss L(θ)। সব θ-এর উপর L একটি function — অসংখ্য মাত্রার পাহাড়।

Critical point-এর প্রকার

  • Local minimum: সব দিকে উপরে।
  • Local maximum: সব দিকে নিচে।
  • Saddle: কিছু দিকে উপরে, কিছু দিকে নিচে।
  • Plateau: gradient প্রায় শূন্য, কিন্তু min নয়।

Hessian দিয়ে শ্রেণীবিন্যাস

  • সব λ > 0 → local minimum।
  • সব λ < 0 → local maximum।
  • মিশ্র চিহ্ন → saddle।
  • কিছু λ = 0 → degenerate (flat দিক)।

উচ্চ মাত্রার আশ্চর্য

  • উচ্চ মাত্রায় বেশিরভাগ critical point আসলে saddle, local min নয়।
  • Local min-গুলোর loss মান প্রায় কাছাকাছি — "good enough" সর্বত্র।
  • Flat minimum সাধারণত ভালো generalize করে (sharp minimum-এর চেয়ে)।
  • তাই SGD-এর noise উপকারী — sharp basin থেকে বেরিয়ে flat খুঁজে।

Mode connectivity

চমকপ্রদ আবিষ্কার: দুটি ভালো minimum প্রায়ই একটি low-loss পথ দিয়ে সংযুক্ত — অর্থাৎ "সমস্ত" ভালো solution একটি বিশাল connected অঞ্চলে বাস করতে পারে।

Generalization-এর সাথে সম্পর্ক

  • Sharp min: training-এ ভালো, test-এ ভঙ্গুর।
  • Flat min: noise-সহনশীল, ভালো generalize।
  • SHM (Sharpness-Aware Minimization) — flat-এর সন্ধানে নতুন optimizer।

Visualization কৌশল

  • Two random direction-এ 2D slice → contour plot।
  • Filter normalization → তুলনাযোগ্য visualization।
  • Loss landscape paper (Li et al. 2018) — ক্লাসিক।
উদাহরণ
Loss surface intuition

1D loss L(w) = (w−3)² minima w = 3, একটি bowl।

2D L(w₁,w₂) = w₁² + 10w₂² — elongated bowl ⇒ GD slow on w₁ axis।

High-dim NN-এ minima কম, saddle অনেক — তবু SGD কাজ করে।

মূল ভাবনা

  • 1.Loss surface = বিশাল মাত্রার পাহাড়।
  • 2.উচ্চ মাত্রায় saddle prevalent, local min rare।
  • 3.Flat minimum → ভালো generalization।
  • 4.SGD-এর noise feature, bug নয়।

নিজেকে যাচাই করো

প্রশ্নে ক্লিক করে উত্তর দেখো — তবে আগে নিজে চেষ্টা করো।

প্রশ্ন 1Saddle কী?
উত্তর:কিছু দিকে up, কিছু দিকে down — মিশ্র Hessian λ।
প্রশ্ন 2Flat vs sharp minimum?
উত্তর:Flat ভালো generalize করে।
প্রশ্ন 3উচ্চ মাত্রায় কোন critical point বেশি?
উত্তর:Saddle points।
প্রশ্ন 4Saddle point-এ Hessian eigenvalues?
উত্তর:মিশ্র (+ ও −)।
প্রশ্ন 5Curvature বেশি অক্ষে GD?
উত্তর:Oscillate; momentum সাহায্য করে।

ইন্টারেক্টিভ কুইজ

মূল ভাবনার উপর দ্রুত যাচাই — সঠিক বিকল্পটি বাছাই করো।

প্রশ্ন 1“লস ল্যান্ডস্কেপ” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
প্রশ্ন 2“লস ল্যান্ডস্কেপ” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
প্রশ্ন 3“লস ল্যান্ডস্কেপ” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
প্রশ্ন 4“লস ল্যান্ডস্কেপ” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
উত্তর দেওয়া হয়েছে: 0/4