মাত্রা কমানো কেন?
Why Reduce Dimensions?
Curse of dimensionality ও তথ্যের প্রকৃত মাত্রা
≈ ৮ মিনিট
একটি ছবি ১০২৪×১০২৪ পিক্সেলের — মানে ১০ লাখ মাত্রা। কিন্তু সব মুখের ছবি কি সত্যিই ১০ লাখ মাত্রায় ছড়িয়ে আছে? না — তারা একটি অনেক ছোট "face manifold"-এ থাকে। PCA সেই প্রকৃত মাত্রা খুঁজে দেয়।
Curse of Dimensionality
- মাত্রা বাড়লে দূরত্ব অর্থহীন হতে থাকে — সব বিন্দু সমদূরত্বের মনে হয়।
- ডেটার ঘনত্ব exponentially কমে।
- Overfitting-এর ঝুঁকি বাড়ে।
- গণনা ও স্টোরেজ ব্যয় বাড়ে।
প্রকৃত মাত্রা কম
MNIST-এর digit ছবি ৭৮৪ মাত্রার, কিন্তু আসলে ২০-৩০ মাত্রায় বেশিরভাগ variance ধরা পড়ে। ডেটা একটি low-dimensional subspace-এর কাছাকাছি থাকে।
PCA-এর লক্ষ্য
- এমন অক্ষ খোঁজা যেগুলো বরাবর ডেটার variance সর্বাধিক।
- ছোট variance-এর অক্ষ বাদ দেওয়া।
- কম মাত্রায় বেশি তথ্য ধরে রাখা।
AI-প্রসঙ্গ
- Visualization: ৭৮৪D → 2D plot।
- Preprocessing: noise কমিয়ে downstream model উন্নত।
- Feature extraction: Eigenfaces, Eigendigits।
- Compression ও storage সাশ্রয়।
10D unit cube-এর কোণ ১০২৪টি, কিন্তু এর inscribed sphere-এর আয়তন কতটুকু?
10D-এ unit sphere-এর volume ≈ 0.0025 — অর্থাৎ ০.২৫%।
মানে cube-এর ৯৯.৭৫% আয়তন কোণায় কেন্দ্রীভূত।
ফল: high-D-এ ‘ঘনত্ব’ এর অর্থ পাল্টায় — যে কোনো nearest-neighbor algorithm দুর্বল হয়।
PCA-র মূল উদ্দেশ্য: সত্যিকার তথ্য যে কম-মাত্রার subspace-এ আছে সেখানে নামিয়ে আনা।
মূল ভাবনা
- 1.উচ্চ মাত্রায় ডেটা কম ঘনত্বের।
- 2.প্রকৃত মাত্রা সাধারণত অনেক কম।
- 3.PCA = সর্বাধিক variance-এর দিক।
- 4.Visualization, denoising, feature reduction।
নিজেকে যাচাই করো
প্রশ্নে ক্লিক করে উত্তর দেখো — তবে আগে নিজে চেষ্টা করো।
প্রশ্ন 1।Curse of dimensionality-এর একটি প্রভাব?
প্রশ্ন 2।PCA কী maximize করে?
প্রশ্ন 3।Intrinsic dimension কী?
প্রশ্ন 4।কেন উচ্চ মাত্রায় k-NN দুর্বল হয়?
প্রশ্ন 5।যদি ডেটা ১০০-মাত্রা কিন্তু একটি ৫D সমতলে থাকে, PCA কতগুলো component বাছবে?
ইন্টারেক্টিভ কুইজ
মূল ভাবনার উপর দ্রুত যাচাই — সঠিক বিকল্পটি বাছাই করো।