অধ্যায় 14.1

মাত্রা কমানো কেন?

Why Reduce Dimensions?

Curse of dimensionality ও তথ্যের প্রকৃত মাত্রা

≈ ৮ মিনিট

একটি ছবি ১০২৪×১০২৪ পিক্সেলের — মানে ১০ লাখ মাত্রা। কিন্তু সব মুখের ছবি কি সত্যিই ১০ লাখ মাত্রায় ছড়িয়ে আছে? না — তারা একটি অনেক ছোট "face manifold"-এ থাকে। PCA সেই প্রকৃত মাত্রা খুঁজে দেয়।

Curse of Dimensionality

  • মাত্রা বাড়লে দূরত্ব অর্থহীন হতে থাকে — সব বিন্দু সমদূরত্বের মনে হয়।
  • ডেটার ঘনত্ব exponentially কমে।
  • Overfitting-এর ঝুঁকি বাড়ে।
  • গণনা ও স্টোরেজ ব্যয় বাড়ে।

প্রকৃত মাত্রা কম

MNIST-এর digit ছবি ৭৮৪ মাত্রার, কিন্তু আসলে ২০-৩০ মাত্রায় বেশিরভাগ variance ধরা পড়ে। ডেটা একটি low-dimensional subspace-এর কাছাকাছি থাকে।

PCA-এর লক্ষ্য

  • এমন অক্ষ খোঁজা যেগুলো বরাবর ডেটার variance সর্বাধিক।
  • ছোট variance-এর অক্ষ বাদ দেওয়া।
  • কম মাত্রায় বেশি তথ্য ধরে রাখা।

AI-প্রসঙ্গ

  • Visualization: ৭৮৪D → 2D plot।
  • Preprocessing: noise কমিয়ে downstream model উন্নত।
  • Feature extraction: Eigenfaces, Eigendigits।
  • Compression ও storage সাশ্রয়।
উদাহরণ
Curse of dimensionality — সংখ্যায় অনুভব

10D unit cube-এর কোণ ১০২৪টি, কিন্তু এর inscribed sphere-এর আয়তন কতটুকু?

10D-এ unit sphere-এর volume ≈ 0.0025 — অর্থাৎ ০.২৫%।

মানে cube-এর ৯৯.৭৫% আয়তন কোণায় কেন্দ্রীভূত।

ফল: high-D-এ ‘ঘনত্ব’ এর অর্থ পাল্টায় — যে কোনো nearest-neighbor algorithm দুর্বল হয়।

PCA-র মূল উদ্দেশ্য: সত্যিকার তথ্য যে কম-মাত্রার subspace-এ আছে সেখানে নামিয়ে আনা।

মূল ভাবনা

  • 1.উচ্চ মাত্রায় ডেটা কম ঘনত্বের।
  • 2.প্রকৃত মাত্রা সাধারণত অনেক কম।
  • 3.PCA = সর্বাধিক variance-এর দিক।
  • 4.Visualization, denoising, feature reduction।

নিজেকে যাচাই করো

প্রশ্নে ক্লিক করে উত্তর দেখো — তবে আগে নিজে চেষ্টা করো।

প্রশ্ন 1Curse of dimensionality-এর একটি প্রভাব?
উত্তর:দূরত্ব অর্থহীন হয়; ডেটা ঘনত্ব কমে।
প্রশ্ন 2PCA কী maximize করে?
উত্তর:Projected ডেটার variance।
প্রশ্ন 3Intrinsic dimension কী?
উত্তর:ডেটা যে কম-মাত্রার subspace-এ প্রকৃতপক্ষে থাকে তার মাত্রা।
প্রশ্ন 4কেন উচ্চ মাত্রায় k-NN দুর্বল হয়?
উত্তর:সব বিন্দুর দূরত্ব প্রায় সমান হয়ে যায় — তাই ‘nearest’ অর্থহীন। PCA বা manifold learning দিয়ে মাত্রা কমিয়ে এই সমস্যা সামলানো যায়।
প্রশ্ন 5যদি ডেটা ১০০-মাত্রা কিন্তু একটি ৫D সমতলে থাকে, PCA কতগুলো component বাছবে?
উত্তর:৫টি — কারণ কেবল সেগুলোর λ > 0; বাকি ৯৫টি λ = 0 (numerical noise ছাড়া)।

ইন্টারেক্টিভ কুইজ

মূল ভাবনার উপর দ্রুত যাচাই — সঠিক বিকল্পটি বাছাই করো।

প্রশ্ন 1“মাত্রা কমানো কেন?” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
প্রশ্ন 2“মাত্রা কমানো কেন?” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
প্রশ্ন 3“মাত্রা কমানো কেন?” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
প্রশ্ন 4“মাত্রা কমানো কেন?” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
উত্তর দেওয়া হয়েছে: 0/4