শব্দ এমবেডিং
Word Embeddings
শব্দ = ভেক্টর
≈ ৮ মিনিট
"রাজা" - "পুরুষ" + "নারী" ≈ "রাণী" — এই বিখ্যাত সমীকরণ শুধু কাব্যিক নয়, বাস্তব vector arithmetic। শব্দকে সংখ্যায় রূপান্তরের এই কৌশলই NLP-কে deep learning-এ এনেছে।
কেন vector?
Computer শব্দ বোঝে না — সংখ্যা বোঝে। One-hot encoding (V-dim, একটি 1) sparse ও অর্থহীন। Embedding: ঘন low-dimensional vector যা semantic অর্থ ধারণ করে।
Embedding matrix
V = vocabulary size, d = embedding dimension (100-1024)। প্রতি row একটি শব্দের vector।
Word2Vec / Skip-gram
- ধারণা: একই context-এ থাকা শব্দ similar vector পায়।
- Skip-gram: কেন্দ্রীয় শব্দ → আশপাশের শব্দ predict।
- CBOW: আশপাশ → কেন্দ্রীয় শব্দ।
- Negative sampling = efficient training।
Semantic vector arithmetic
Modern embeddings
- GloVe: global co-occurrence factorization।
- FastText: subword n-gram — rare শব্দেও কাজ করে।
- BERT/GPT: contextual — context-ভেদে একই শব্দের আলাদা vector।
- SBERT: পুরো বাক্যের একটি vector।
বিখ্যাত উদাহরণ: king − man + woman ≈ queen।
প্রতিটি শব্দ একটি ৩০০-মাত্রিক ভেক্টর (যেমন word2vec)।
king-এর ভেক্টর থেকে man-এর ভেক্টর বিয়োগ → ‘রাজত্ব ছাড়া কিন্তু পুরুষত্বের পার্থক্য’ অংশ।
Woman যোগ করলে → ‘রাজত্ব + নারীত্ব’ → queen-এর কাছাকাছি ভেক্টর।
এটি দেখায় যে অর্থ ভাষায় linearly স্থানান্তরযোগ্য — embedding space-এ direction-এর অর্থ আছে।
মূল ভাবনা
- 1.শব্দ → ঘন vector।
- 2.একই context = কাছাকাছি vector।
- 3.Cosine similarity = অর্থগত সাদৃশ্য।
- 4.E (V×d) মৌলিক ML building block।
নিজেকে যাচাই করো
প্রশ্নে ক্লিক করে উত্তর দেখো — তবে আগে নিজে চেষ্টা করো।
প্রশ্ন 1।Embedding কেন one-hot-এর চেয়ে ভালো?
প্রশ্ন 2।Cosine কেন dot product নয়?
প্রশ্ন 3।Contextual embedding-এর সুবিধা?
প্রশ্ন 4।Cosine similarity কেন word vector-এ গুরুত্বপূর্ণ?
প্রশ্ন 5।একটি শব্দের embedding ভেক্টর কোথা থেকে আসে?
ইন্টারেক্টিভ কুইজ
মূল ভাবনার উপর দ্রুত যাচাই — সঠিক বিকল্পটি বাছাই করো।