অধ্যায় 15.1

গ্রেডিয়েন্ট

Gradients

ঢালের ভেক্টর — কোন দিকে সবচেয়ে দ্রুত বাড়ে

≈ ৮ মিনিট

এক ভেরিয়েবলের ফাংশনে derivative বলে slope। বহু ভেরিয়েবলে slope একটি সংখ্যা নয় — একটি ভেক্টর। সেই ভেক্টরই gradient, যা বলে দেয় ফাংশন কোন দিকে সবচেয়ে দ্রুত বাড়ে এবং কতটা দ্রুত।

সংজ্ঞা

f: ℝⁿ → ℝ-এর gradient হলো partial derivative-গুলোর ভেক্টর:

মূল ধর্মসমূহ

  • ∇f-এর দিক = সর্বোচ্চ বৃদ্ধির দিক।
  • ‖∇f‖ = সেই দিকে বৃদ্ধির হার।
  • −∇f = সর্বোচ্চ হ্রাসের দিক (gradient descent এখান থেকে আসে)।
  • Level curve f = c-এর সাথে ∇f সবসময় লম্ব।

উদাহরণ

f(x, y) = x² + y² → ∇f = [2x, 2y]ᵀ। (1, 1)-এ ∇f = [2, 2]ᵀ — origin থেকে দূরে বৃদ্ধির দিক।

Jacobian ও Hessian (পূর্বাভাস)

  • f: ℝⁿ → ℝᵐ হলে gradient-এর সাধারণীকরণ = Jacobian (m×n ম্যাট্রিক্স)।
  • Gradient-এর gradient = Hessian (n×n সিমেট্রিক ম্যাট্রিক্স) — দ্বিতীয় derivative।

AI-প্রসঙ্গ

  • Loss-এর gradient → প্যারামিটার update।
  • Backprop = gradient গণনার দক্ষ পদ্ধতি।
  • Autodiff (PyTorch, JAX) = automatic gradient।
উদাহরণ
Inconsistent system — least squares-এর প্রয়োজন

তিনটি সমীকরণ, দুটি অজানা: x + y = 2, x + y = 3, x − y = 1।

প্রথম দুটি বিরোধী (2 ≠ 3) — সঠিক সমাধান নেই।

Least squares: এমন (x̂, ŷ) খোঁজে যাতে ‖Ax − b‖² সর্বনিম্ন।

Normal equation AᵀAx = Aᵀb দিয়ে x̂ = (1.75, 0.75) — প্রতিটি সমীকরণে কিছু error থাকবে, কিন্তু মোট বর্গ-ত্রুটি ন্যূনতম।

ব্যবহার: regression, sensor fusion — যেখানে noisy data থেকে ‘সেরা ফিট’ চাই।

উদাহরণ
Gradient হাতে গণনা

f(x,y) = x² + 3xy + y²। ∂f/∂x = 2x + 3y; ∂f/∂y = 3x + 2y।

বিন্দু (1, 2): ∇f = [2 + 6, 3 + 4] = [8, 7]।

এই দিকেই f সবচেয়ে দ্রুত বাড়ে; বিপরীত দিকে দ্রুত কমে।

মূল ভাবনা

  • 1.∇f = partial derivative-এর ভেক্টর।
  • 2.দিক = সর্বোচ্চ বৃদ্ধি; দৈর্ঘ্য = হার।
  • 3.−∇f = descent দিক।
  • 4.Level set-এর সাথে orthogonal।

নিজেকে যাচাই করো

প্রশ্নে ক্লিক করে উত্তর দেখো — তবে আগে নিজে চেষ্টা করো।

প্রশ্ন 1f(x,y) = x² + 3y² → ∇f?
উত্তর:[2x, 6y]ᵀ।
প্রশ্ন 2Gradient কোন দিক দেখায়?
উত্তর:সর্বোচ্চ বৃদ্ধির দিক।
প্রশ্ন 3Level curve-এর সাথে gradient-এর সম্পর্ক?
উত্তর:Orthogonal।
প্রশ্ন 4কখন least squares-এর সমাধান অনন্য (unique)?
উত্তর:যখন AᵀA invertible — অর্থাৎ A-এর কলামগুলো রৈখিকভাবে স্বাধীন।
প্রশ্ন 5যদি সিস্টেম সঙ্গতিপূর্ণ (consistent) হয়, least squares কী দেয়?
উত্তর:সঠিক সমাধান — কারণ ‖Ax − b‖ = 0 সম্ভব, আর সেটাই minimum।
প্রশ্ন 6∇f-এর দিকনির্দেশনা?
উত্তর:সবচেয়ে দ্রুত বৃদ্ধি।
প্রশ্ন 7Stationary point-এ ∇f?
উত্তর:শূন্য vector।

ইন্টারেক্টিভ কুইজ

মূল ভাবনার উপর দ্রুত যাচাই — সঠিক বিকল্পটি বাছাই করো।

প্রশ্ন 1“গ্রেডিয়েন্ট” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
প্রশ্ন 2“গ্রেডিয়েন্ট” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
প্রশ্ন 3“গ্রেডিয়েন্ট” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
প্রশ্ন 4“গ্রেডিয়েন্ট” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
উত্তর দেওয়া হয়েছে: 0/4