মাল্টি-হেড অ্যাটেনশন

Multi-Head Attention

অনেক দৃষ্টিভঙ্গি একসাথে

≈ ৮ মিনিট

একটি বাক্যে শব্দরা একাধিক সম্পর্কে যুক্ত — ব্যাকরণিক, semantic, referential। একটিমাত্র attention সব ধরতে পারে না। সমাধান: অনেক head।

ধারণা

head_{i} = Attention (X W_{Q}^{i}, X W_{K}^{i}, X W_{V}^{i})

MultiHead (X) = Concat (head_{1}, \dots, head_{h}) W_{O}

Dimension হিসাব

Model dimension d_model (যেমন 512)।
Head সংখ্যা h (যেমন 8)।
প্রতি head d_k = d_model / h = 64।
মোট parameter একই — কাজ বিভক্ত।

Head-রা কী শেখে

একটি ব্যাকরণিক নির্ভরতা (subject ↔ verb)।
অন্যটি coreference (pronoun → noun)।
তৃতীয়টি positional pattern।
BERT গবেষণা: head-রা specialise করে।

Output projection W_O

h-টি head-এর আউটপুট concat করার পর dimension হয় h · d_k = d_model। কিন্তু সরাসরি concat যথেষ্ট নয় — প্রতিটি head আলাদা subspace-এ কাজ করে, তাদের তথ্য একটি common representation-এ "মিশ্রিত" (mix) করতে হয়। সেই কাজ করে W_O ∈ ℝ^{d_model × d_model}:

Output = Concat (head_{1}, \dots, head_{h}) W_{O}

W_O শেখে কোন head-এর কোন dimension কতটা গুরুত্বপূর্ণ — এবং পরবর্তী layer-এর জন্য একটি সমন্বিত উপস্থাপন তৈরি করে।

একাধিক head কেন expressivity বাড়ায়

প্রতিটি head W_Q^i, W_K^i, W_V^i দিয়ে input-কে একটি ভিন্ন rank-d_k subspace-এ project করে।
একটিমাত্র d_model × d_model attention-এর rank d_model-এ সীমাবদ্ধ; h-টি head মিলে diverse subspace-এ মনোযোগ ছড়িয়ে দেয়।
ফলে এক head syntactic dependency শেখে, অন্যটি coreference, তৃতীয়টি long-range pattern — সবগুলো parallel-এ।
একই parameter budget-এ (h · d_k = d_model) representation-এর বৈচিত্র্য বহু গুণ বাড়ে।

আধুনিক প্রবণতা

GQA (Grouped-Query Attention): কম K-V head, বেশি Q head — KV cache ছোট হয়, inference দ্রুত।
MQA (Multi-Query Attention): সব Q-এর জন্য একটি মাত্র K-V — সর্বোচ্চ compression।
LLaMA-2/3, Mistral, Gemma — সবাই GQA ব্যবহার করে।

মূল ভাবনা

1.h-টি head, প্রতিটি আলাদা subspace।
2.Concat → W_O।
3.Head-রা ভিন্ন pattern শেখে।
4.GQA/MQA = efficient head-sharing।

নিজেকে যাচাই করো

প্রশ্নে ক্লিক করে উত্তর দেখো — তবে আগে নিজে চেষ্টা করো।

প্রশ্ন 1।d_model=512, h=8 হলে d_k?

উত্তর:64।

প্রশ্ন 2।Multi-head কেন ভালো?

উত্তর:Diverse subspace-এ ভিন্ন pattern।

প্রশ্ন 3।MQA সুবিধা?

উত্তর:K-V cache ছোট, inference দ্রুত।

ইন্টারেক্টিভ কুইজ

মূল ভাবনার উপর দ্রুত যাচাই — সঠিক বিকল্পটি বাছাই করো।

প্রশ্ন 1।“মাল্টি-হেড অ্যাটেনশন” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?

প্রশ্ন 2।“মাল্টি-হেড অ্যাটেনশন” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?

প্রশ্ন 3।“মাল্টি-হেড অ্যাটেনশন” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?

প্রশ্ন 4।“মাল্টি-হেড অ্যাটেনশন” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?

উত্তর দেওয়া হয়েছে: 0/4