অধ্যায় 19.3

মাল্টি-হেড অ্যাটেনশন

Multi-Head Attention

অনেক দৃষ্টিভঙ্গি একসাথে

≈ ৮ মিনিট

একটি বাক্যে শব্দরা একাধিক সম্পর্কে যুক্ত — ব্যাকরণিক, semantic, referential। একটিমাত্র attention সব ধরতে পারে না। সমাধান: অনেক head।

ধারণা

Dimension হিসাব

  • Model dimension d_model (যেমন 512)।
  • Head সংখ্যা h (যেমন 8)।
  • প্রতি head d_k = d_model / h = 64।
  • মোট parameter একই — কাজ বিভক্ত।

Head-রা কী শেখে

  • একটি ব্যাকরণিক নির্ভরতা (subject ↔ verb)।
  • অন্যটি coreference (pronoun → noun)।
  • তৃতীয়টি positional pattern।
  • BERT গবেষণা: head-রা specialise করে।

Output projection W_O

h-টি head-এর আউটপুট concat করার পর dimension হয় h · d_k = d_model। কিন্তু সরাসরি concat যথেষ্ট নয় — প্রতিটি head আলাদা subspace-এ কাজ করে, তাদের তথ্য একটি common representation-এ "মিশ্রিত" (mix) করতে হয়। সেই কাজ করে W_O ∈ ℝ^{d_model × d_model}:

W_O শেখে কোন head-এর কোন dimension কতটা গুরুত্বপূর্ণ — এবং পরবর্তী layer-এর জন্য একটি সমন্বিত উপস্থাপন তৈরি করে।

একাধিক head কেন expressivity বাড়ায়

  • প্রতিটি head W_Q^i, W_K^i, W_V^i দিয়ে input-কে একটি ভিন্ন rank-d_k subspace-এ project করে।
  • একটিমাত্র d_model × d_model attention-এর rank d_model-এ সীমাবদ্ধ; h-টি head মিলে diverse subspace-এ মনোযোগ ছড়িয়ে দেয়।
  • ফলে এক head syntactic dependency শেখে, অন্যটি coreference, তৃতীয়টি long-range pattern — সবগুলো parallel-এ।
  • একই parameter budget-এ (h · d_k = d_model) representation-এর বৈচিত্র্য বহু গুণ বাড়ে।

আধুনিক প্রবণতা

  • GQA (Grouped-Query Attention): কম K-V head, বেশি Q head — KV cache ছোট হয়, inference দ্রুত।
  • MQA (Multi-Query Attention): সব Q-এর জন্য একটি মাত্র K-V — সর্বোচ্চ compression।
  • LLaMA-2/3, Mistral, Gemma — সবাই GQA ব্যবহার করে।

মূল ভাবনা

  • 1.h-টি head, প্রতিটি আলাদা subspace।
  • 2.Concat → W_O।
  • 3.Head-রা ভিন্ন pattern শেখে।
  • 4.GQA/MQA = efficient head-sharing।

নিজেকে যাচাই করো

প্রশ্নে ক্লিক করে উত্তর দেখো — তবে আগে নিজে চেষ্টা করো।

প্রশ্ন 1d_model=512, h=8 হলে d_k?
উত্তর:64।
প্রশ্ন 2Multi-head কেন ভালো?
উত্তর:Diverse subspace-এ ভিন্ন pattern।
প্রশ্ন 3MQA সুবিধা?
উত্তর:K-V cache ছোট, inference দ্রুত।

ইন্টারেক্টিভ কুইজ

মূল ভাবনার উপর দ্রুত যাচাই — সঠিক বিকল্পটি বাছাই করো।

প্রশ্ন 1“মাল্টি-হেড অ্যাটেনশন” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
প্রশ্ন 2“মাল্টি-হেড অ্যাটেনশন” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
প্রশ্ন 3“মাল্টি-হেড অ্যাটেনশন” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
প্রশ্ন 4“মাল্টি-হেড অ্যাটেনশন” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
উত্তর দেওয়া হয়েছে: 0/4