শব্দ এমবেডিং

Word Embeddings

শব্দ = ভেক্টর

≈ ৮ মিনিট

"রাজা" - "পুরুষ" + "নারী" ≈ "রাণী" — এই বিখ্যাত সমীকরণ শুধু কাব্যিক নয়, বাস্তব vector arithmetic। শব্দকে সংখ্যায় রূপান্তরের এই কৌশলই NLP-কে deep learning-এ এনেছে।

কেন vector?

Computer শব্দ বোঝে না — সংখ্যা বোঝে। One-hot encoding (V-dim, একটি 1) sparse ও অর্থহীন। Embedding: ঘন low-dimensional vector যা semantic অর্থ ধারণ করে।

Embedding matrix

E \in R^{V \times d}

V = vocabulary size, d = embedding dimension (100-1024)। প্রতি row একটি শব্দের vector।

Word2Vec / Skip-gram

ধারণা: একই context-এ থাকা শব্দ similar vector পায়।
Skip-gram: কেন্দ্রীয় শব্দ → আশপাশের শব্দ predict।
CBOW: আশপাশ → কেন্দ্রীয় শব্দ।
Negative sampling = efficient training।

Semantic vector arithmetic

v_{k in g} - v_{man} + v_{w o man} \approx v_{q u ee n}

cos (u, v) = \frac{u \cdot v}{∥ u ∥∥ v ∥}

Modern embeddings

GloVe: global co-occurrence factorization।
FastText: subword n-gram — rare শব্দেও কাজ করে।
BERT/GPT: contextual — context-ভেদে একই শব্দের আলাদা vector।
SBERT: পুরো বাক্যের একটি vector।

উদাহরণ

Word vector গাণিতিক সম্পর্ক

বিখ্যাত উদাহরণ: king − man + woman ≈ queen।

প্রতিটি শব্দ একটি ৩০০-মাত্রিক ভেক্টর (যেমন word2vec)।

king-এর ভেক্টর থেকে man-এর ভেক্টর বিয়োগ → ‘রাজত্ব ছাড়া কিন্তু পুরুষত্বের পার্থক্য’ অংশ।

Woman যোগ করলে → ‘রাজত্ব + নারীত্ব’ → queen-এর কাছাকাছি ভেক্টর।

এটি দেখায় যে অর্থ ভাষায় linearly স্থানান্তরযোগ্য — embedding space-এ direction-এর অর্থ আছে।

মূল ভাবনা

1.শব্দ → ঘন vector।
2.একই context = কাছাকাছি vector।
3.Cosine similarity = অর্থগত সাদৃশ্য।
4.E (V×d) মৌলিক ML building block।

নিজেকে যাচাই করো

প্রশ্নে ক্লিক করে উত্তর দেখো — তবে আগে নিজে চেষ্টা করো।

প্রশ্ন 1।Embedding কেন one-hot-এর চেয়ে ভালো?

উত্তর:Dense, low-dim, semantic অর্থ ধারণ করে।

প্রশ্ন 2।Cosine কেন dot product নয়?

উত্তর:Magnitude-independent — শুধু দিক matter করে।

প্রশ্ন 3।Contextual embedding-এর সুবিধা?

উত্তর:একই শব্দ ভিন্ন অর্থে ভিন্ন vector (river bank vs money bank)।

প্রশ্ন 4।Cosine similarity কেন word vector-এ গুরুত্বপূর্ণ?

উত্তর:এটি ভেক্টরের দিক তুলনা করে, magnitude নয় — তাই শব্দের relative প্রসঙ্গ সরাসরি মাপা যায়।

প্রশ্ন 5।একটি শব্দের embedding ভেক্টর কোথা থেকে আসে?

উত্তর:Training সময় একটি ম্যাট্রিক্স E (vocab × d) থেকে — শব্দের id দিয়ে row লুক-আপ। training-এ E-এর প্রতিটি row gradient descent দিয়ে শেখা হয়।

ইন্টারেক্টিভ কুইজ

মূল ভাবনার উপর দ্রুত যাচাই — সঠিক বিকল্পটি বাছাই করো।

প্রশ্ন 1।“শব্দ এমবেডিং” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?

প্রশ্ন 2।“শব্দ এমবেডিং” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?

প্রশ্ন 3।“শব্দ এমবেডিং” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?

প্রশ্ন 4।“শব্দ এমবেডিং” অধ্যায়ের মূল ভাবনাগুলোর মধ্যে নিচের কোনটি অন্তর্ভুক্ত?

উত্তর দেওয়া হয়েছে: 0/4