কোভ্যারিয়েন্স ম্যাট্রিক্স
Covariance Matrix
ভেরিয়েবলদের পারস্পরিক সম্পর্কের মানচিত্র
≈ ৮ মিনিট
Variance বলে একটি ভেরিয়েবল কতটা ছড়িয়ে আছে। Covariance বলে দুটি ভেরিয়েবল একসাথে কীভাবে চলে। Covariance matrix এই সব সম্পর্ক একটি সিমেট্রিক ম্যাট্রিক্সে গুছিয়ে রাখে — PCA-এর কেন্দ্রীয় বস্তু।
সংজ্ঞা
X একটি n×d ডেটা ম্যাট্রিক্স (n নমুনা, d ফিচার), কলামভিত্তিক mean-centered হলে:
- C হলো d×d সিমেট্রিক ম্যাট্রিক্স।
- C_ii = ফিচার i-এর variance।
- C_ij = ফিচার i ও j-এর covariance।
ব্যাখ্যা
- C_ij > 0 → একসাথে বাড়ে।
- C_ij < 0 → একটি বাড়লে অন্যটি কমে।
- C_ij ≈ 0 → স্বাধীন (linear অর্থে)।
Mean centering কেন জরুরি
প্রতিটি কলাম থেকে তার গড় বিয়োগ না করলে variance ভুল হিসাব হবে — origin-এর দিকে কৃত্রিম pull থাকবে।
Spectral গঠন
C সিমেট্রিক ও positive semi-definite — তাই spectral theorem প্রযোজ্য। Eigenvectors orthogonal, eigenvalues ≥ 0।
৫ নমুনা, ২ ফিচার: X = [[1,2],[2,4],[3,5],[4,4],[5,5]]।
Mean: (3, 4)। Centered: X̃ = [[-2,-2],[-1,0],[0,1],[1,0],[2,1]]।
C = (1/4) X̃ᵀX̃। X̃ᵀX̃ = [[10, 6], [6, 6]]।
C = [[2.5, 1.5], [1.5, 1.5]]।
ব্যাখ্যা: ফিচার 1-এর variance 2.5, ফিচার 2-এর 1.5; positive covariance 1.5 → একসাথে বাড়ার প্রবণতা।
Correlation ρ = 1.5/√(2.5·1.5) ≈ 0.77 — শক্তিশালী ধনাত্মক সম্পর্ক।
মূল ভাবনা
- 1.C = (1/(n-1)) XᵀX, mean-centered X।
- 2.C সিমেট্রিক ও positive semi-definite।
- 3.Diagonal = variance, off-diagonal = covariance।
- 4.C = QΛQᵀ → PCA-এর ভিত্তি।
নিজেকে যাচাই করো
প্রশ্নে ক্লিক করে উত্তর দেখো — তবে আগে নিজে চেষ্টা করো।
প্রশ্ন 1।C-এর shape?
প্রশ্ন 2।C কেন সবসময় সিমেট্রিক?
প্রশ্ন 3।Mean centering কেন?
প্রশ্ন 4।C-এর eigenvalue ও eigenvector কেন গুরুত্বপূর্ণ?
প্রশ্ন 5।যদি দুটি ফিচার অভিন্ন স্কেলে না থাকে, সরাসরি C ব্যবহার করলে কী হয়?
ইন্টারেক্টিভ কুইজ
মূল ভাবনার উপর দ্রুত যাচাই — সঠিক বিকল্পটি বাছাই করো।