← পাঠ্যসূচি
100%
অধ্যায় 19.3
মাল্টি-হেড অ্যাটেনশন
Multi-Head Attention
অনেক দৃষ্টিভঙ্গি একসাথে
≈ ৮ মিনিট
একটি বাক্যে শব্দরা একাধিক সম্পর্কে যুক্ত — ব্যাকরণিক, semantic, referential। একটিমাত্র attention সব ধরতে পারে না। সমাধান: অনেক head।
ধারণা
Dimension হিসাব
- Model dimension d_model (যেমন 512)।
- Head সংখ্যা h (যেমন 8)।
- প্রতি head d_k = d_model / h = 64।
- মোট parameter একই — কাজ বিভক্ত।
Head-রা কী শেখে
- একটি ব্যাকরণিক নির্ভরতা (subject ↔ verb)।
- অন্যটি coreference (pronoun → noun)।
- তৃতীয়টি positional pattern।
- BERT গবেষণা: head-রা specialise করে।
Output projection W_O
h-টি head-এর আউটপুট concat করার পর dimension হয় h · d_k = d_model। কিন্তু সরাসরি concat যথেষ্ট নয় — প্রতিটি head আলাদা subspace-এ কাজ করে, তাদের তথ্য একটি common representation-এ "মিশ্রিত" (mix) করতে হয়। সেই কাজ করে W_O ∈ ℝ^{d_model × d_model}:
W_O শেখে কোন head-এর কোন dimension কতটা গুরুত্বপূর্ণ — এবং পরবর্তী layer-এর জন্য একটি সমন্বিত উপস্থাপন তৈরি করে।
একাধিক head কেন expressivity বাড়ায়
- প্রতিটি head W_Q^i, W_K^i, W_V^i দিয়ে input-কে একটি ভিন্ন rank-d_k subspace-এ project করে।
- একটিমাত্র d_model × d_model attention-এর rank d_model-এ সীমাবদ্ধ; h-টি head মিলে diverse subspace-এ মনোযোগ ছড়িয়ে দেয়।
- ফলে এক head syntactic dependency শেখে, অন্যটি coreference, তৃতীয়টি long-range pattern — সবগুলো parallel-এ।
- একই parameter budget-এ (h · d_k = d_model) representation-এর বৈচিত্র্য বহু গুণ বাড়ে।
আধুনিক প্রবণতা
- GQA (Grouped-Query Attention): কম K-V head, বেশি Q head — KV cache ছোট হয়, inference দ্রুত।
- MQA (Multi-Query Attention): সব Q-এর জন্য একটি মাত্র K-V — সর্বোচ্চ compression।
- LLaMA-2/3, Mistral, Gemma — সবাই GQA ব্যবহার করে।
মূল ভাবনা
- 1.h-টি head, প্রতিটি আলাদা subspace।
- 2.Concat → W_O।
- 3.Head-রা ভিন্ন pattern শেখে।
- 4.GQA/MQA = efficient head-sharing।
নিজেকে যাচাই করো
প্রশ্নে ক্লিক করে উত্তর দেখো — তবে আগে নিজে চেষ্টা করো।
প্রশ্ন 1।d_model=512, h=8 হলে d_k?
উত্তর:64।
প্রশ্ন 2।Multi-head কেন ভালো?
উত্তর:Diverse subspace-এ ভিন্ন pattern।
প্রশ্ন 3।MQA সুবিধা?
উত্তর:K-V cache ছোট, inference দ্রুত।
ইন্টারেক্টিভ কুইজ
মূল ভাবনার উপর দ্রুত যাচাই — সঠিক বিকল্পটি বাছাই করো।
প্রশ্ন 1।“মাল্টি-হেড অ্যাটেনশন” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
প্রশ্ন 2।“মাল্টি-হেড অ্যাটেনশন” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
প্রশ্ন 3।“মাল্টি-হেড অ্যাটেনশন” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
প্রশ্ন 4।“মাল্টি-হেড অ্যাটেনশন” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?
উত্তর দেওয়া হয়েছে: 0/4