অধ্যায় 14.2

কোভ্যারিয়েন্স ম্যাট্রিক্স

Covariance Matrix

ভেরিয়েবলদের পারস্পরিক সম্পর্কের মানচিত্র

≈ ৮ মিনিট

Variance বলে একটি ভেরিয়েবল কতটা ছড়িয়ে আছে। Covariance বলে দুটি ভেরিয়েবল একসাথে কীভাবে চলে। Covariance matrix এই সব সম্পর্ক একটি সিমেট্রিক ম্যাট্রিক্সে গুছিয়ে রাখে — PCA-এর কেন্দ্রীয় বস্তু।

সংজ্ঞা

X একটি n×d ডেটা ম্যাট্রিক্স (n নমুনা, d ফিচার), কলামভিত্তিক mean-centered হলে:

  • C হলো d×d সিমেট্রিক ম্যাট্রিক্স।
  • C_ii = ফিচার i-এর variance।
  • C_ij = ফিচার i ও j-এর covariance।

ব্যাখ্যা

  • C_ij > 0 → একসাথে বাড়ে।
  • C_ij < 0 → একটি বাড়লে অন্যটি কমে।
  • C_ij ≈ 0 → স্বাধীন (linear অর্থে)।

Mean centering কেন জরুরি

প্রতিটি কলাম থেকে তার গড় বিয়োগ না করলে variance ভুল হিসাব হবে — origin-এর দিকে কৃত্রিম pull থাকবে।

Spectral গঠন

C সিমেট্রিক ও positive semi-definite — তাই spectral theorem প্রযোজ্য। Eigenvectors orthogonal, eigenvalues ≥ 0।

উদাহরণ
২ ফিচারের জন্য covariance matrix

৫ নমুনা, ২ ফিচার: X = [[1,2],[2,4],[3,5],[4,4],[5,5]]।

Mean: (3, 4)। Centered: X̃ = [[-2,-2],[-1,0],[0,1],[1,0],[2,1]]।

C = (1/4) X̃ᵀX̃। X̃ᵀX̃ = [[10, 6], [6, 6]]।

C = [[2.5, 1.5], [1.5, 1.5]]।

ব্যাখ্যা: ফিচার 1-এর variance 2.5, ফিচার 2-এর 1.5; positive covariance 1.5 → একসাথে বাড়ার প্রবণতা।

Correlation ρ = 1.5/√(2.5·1.5) ≈ 0.77 — শক্তিশালী ধনাত্মক সম্পর্ক।

মূল ভাবনা

  • 1.C = (1/(n-1)) XᵀX, mean-centered X।
  • 2.C সিমেট্রিক ও positive semi-definite।
  • 3.Diagonal = variance, off-diagonal = covariance।
  • 4.C = QΛQᵀ → PCA-এর ভিত্তি।

নিজেকে যাচাই করো

প্রশ্নে ক্লিক করে উত্তর দেখো — তবে আগে নিজে চেষ্টা করো।

প্রশ্ন 1C-এর shape?
উত্তর:d×d (d = ফিচার সংখ্যা)।
প্রশ্ন 2C কেন সবসময় সিমেট্রিক?
উত্তর:cov(i,j) = cov(j,i)।
প্রশ্ন 3Mean centering কেন?
উত্তর:Variance সঠিকভাবে origin-নিরপেক্ষ হিসাব হয়।
প্রশ্ন 4C-এর eigenvalue ও eigenvector কেন গুরুত্বপূর্ণ?
উত্তর:সর্বোচ্চ λ-এর eigenvector PC1 — সেই দিকে ডেটার variance সর্বোচ্চ। PCA-র মূল।
প্রশ্ন 5যদি দুটি ফিচার অভিন্ন স্কেলে না থাকে, সরাসরি C ব্যবহার করলে কী হয়?
উত্তর:বড়-স্কেলের ফিচার variance dominate করবে এবং PCA তাকেই PC1 বানাবে — তথ্য হিসেবে নয়, শুধু স্কেলের কারণে। তাই standardization জরুরি।

ইন্টারেক্টিভ কুইজ

মূল ভাবনার উপর দ্রুত যাচাই — সঠিক বিকল্পটি বাছাই করো।

প্রশ্ন 1“কোভ্যারিয়েন্স ম্যাট্রিক্স” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
প্রশ্ন 2“কোভ্যারিয়েন্স ম্যাট্রিক্স” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
প্রশ্ন 3“কোভ্যারিয়েন্স ম্যাট্রিক্স” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
প্রশ্ন 4“কোভ্যারিয়েন্স ম্যাট্রিক্স” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
উত্তর দেওয়া হয়েছে: 0/4