import numpy as np
from tqdm import tqdm
from collections import Counter, OrderedDict

import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
from torch.optim.lr_scheduler import LambdaLR
from torch.utils.data import Dataset, TensorDataset, DataLoader

from sklearn.manifold import TSNE
import matplotlib.pyplot as plt
import matplotlib.cm as cm

from src.utils.compute.gpu import *
from src.utils.data.files import *
from src.text.vectorizing.vocab import *

import spacy

nlp = spacy.load("en_core_web_sm", disable=["ner"])

movie_reviews_zip, target_folder = download_dataset("text/corpora/reviews/movie-reviews-imdb.zip")

File 'data/datasets/text/corpora/reviews/movie-reviews-imdb.zip' already exists (use 'overwrite=True' to overwrite it).

movie_reviews = decompress_file(movie_reviews_zip, target_path=target_folder)

print(movie_reviews)

['data/datasets/text/corpora/reviews/movie-reviews-imdb.txt']

# Select preferred device (GPU, if available; CPU otherwise); you can enfore the use of the CPU
device = select_device(force_cpu=False)

print("Available device: {}".format(device))

Available device: cuda:0

total_reviews = sum(1 for _ in open(movie_reviews[0]))

print(f"Total number of reviews (1 review per line): {total_reviews}")

Total number of reviews (1 review per line): 100000

num_reviews = min(total_reviews, 10_000)

print(f"Number of reviews used for training dataset: {num_reviews}")

Number of reviews used for training dataset: 10000

words = []

with open(movie_reviews[0]) as file:
    for idx, review in enumerate(tqdm(file, total=num_reviews, leave=False)):
        if idx >= num_reviews:
            break
        words.extend([ t.lemma_.lower() for t in nlp(review) if t.is_alpha == True ])

print(f"Total number of words: {len(words)}")

# Create counter (a specialized dictionary)
word_counts = Counter(words)

# Show the number of occurrences for some example words
for token in ["movie", "scene", "actor", "great", "kooky"]:
    print(f"Number of occurrences of '{token}': {word_counts[token]}")

Number of occurrences of 'movie': 23148
Number of occurrences of 'scene': 4468
Number of occurrences of 'actor': 2861
Number of occurrences of 'great': 2325
Number of occurrences of 'kooky': 12

TOP_WORDS = 10_000

# Sort words by number of occurrences
word_counts_sorted = sorted(word_counts.items(), key=lambda x: x[1], reverse=True)

# Limit sorted list of words to the most common words
word_counts_sorted_filtered = word_counts_sorted[:TOP_WORDS]

# Convert dictionary to a simple list containg the most common words
unique_words = [ tup[0] for tup in word_counts_sorted_filtered ]

print(f"Final number of unique words: {len(unique_words)}")

Final number of unique words: 10000

# Define list of special tokens
TOKEN_UNK, TOKEN_PAD = "<UNK>", "<PAD>"
SPECIAL_TOKENS = [TOKEN_UNK, TOKEN_PAD]

# Create vocabulary using auxiliary class
vocabulary = Vocabulary(
    unique_words, 
    special_tokens=SPECIAL_TOKENS,
    token_counts=word_counts
)

# Set the default index to handle unknown words
vocabulary.set_default_index(vocabulary[TOKEN_UNK])

word_indices = vocabulary.encode(words)

print(f"Number of token indices: {len(word_indices)}")

Number of token indices: 2288994

def train_epoch(loader, model, optimizer, description):
    model_device = next(model.parameters()).device
    for idx, (inputs, targets) in enumerate(tqdm(loader, desc=description, leave=False)):
        # Move current batch to GPU, if available
        inputs, targets = inputs.to(model_device), targets.to(model_device)
        # Calculate loss
        loss = model(inputs, targets)
        # Reset the gradients from previous iteration
        model.zero_grad()
        # Calculate new Gradients using backpropagation
        loss.backward()
        # Update all trainable parameters (i.e., the theta values of the model)
        optimizer.step()

def get_most_similar(word, vocabulary, model, k=5):
    # Get the index for the input word
    idx = vocabulary.encode([word])[0]
    # Get the word vector of the input word
    reference = model.U.weight[idx]
    # Calculate all pairwise similarites between the input word vector and all other word vectors
    dist = F.cosine_similarity(model.U.weight, reference)
    # Sort the distances and return the top-k word vectors that are most similar to the input word vector
    # Note that the top-k contains the input word vector itself, which is fine here for the plot
    index_sorted = torch.argsort(dist, descending=True)
    indices = index_sorted[:k]
    # Convert the top-k nearest word vectors into their corresponding words
    return vocabulary.decode(indices)

def generate_tsne_embedding_clusters(seed_words, vocabulary, model, k=5):
    embedding_clusters = []
    word_clusters = []
    # For each seed word, find the k most simialar words and form a cluster
    for word in seed_words:
        words, embeddings = [], []
        for neighbor in get_most_similar(word, vocabulary, model, k=k):
            words.append(neighbor)
            embeddings.append(model.U.weight[vocabulary.encode([neighbor])[0]].detach().cpu().numpy())
        embedding_clusters.append(embeddings)
        word_clusters.append(words)
    embedding_clusters = np.array(embedding_clusters)
    # Reducde dimensionality using t-SNE
    n, m, k = embedding_clusters.shape
    tsne_model_en_2d = TSNE(perplexity=15, n_components=2, max_iter=3000, random_state=0)
    embeddings_en_2d = np.array(tsne_model_en_2d.fit_transform(embedding_clusters.reshape(n * m, k))).reshape(n, m, 2)
    # Return clusters of 2d vectors and the respective word clusters
    return embeddings_en_2d, word_clusters

def plot_embeddings(title, labels, embedding_clusters, token_clusters, filename=None):
    plt.figure(figsize=(12, 8))
    plt.gca().axes.xaxis.set_ticklabels([])
    plt.gca().axes.yaxis.set_ticklabels([])
    colors = cm.rainbow(np.linspace(0, 1, len(labels)))
    for label, embeddings, words, color in zip(labels, embedding_clusters, token_clusters, colors):
        x = embeddings[:, 0]
        y = embeddings[:, 1]
        plt.scatter(x, y, c=[color]*len(x), label=label, s=100)
        for i, word in enumerate(words):
            plt.annotate(word, alpha=0.8, xy=(x[i], y[i]), xytext=(5, 2), textcoords='offset points', ha='right', va='bottom', size=16)
    plt.legend(loc=4, fontsize=12)
    plt.grid(True)
    plt.title(title)
    if filename is not None:
        plt.savefig(filename, format='png', dpi=150, bbox_inches='tight')
    else:
        plt.show

def generate_cbow_samples(word_indices: list[int], window_size: int=4):
    inputs, targets = [], []
    for i in range(window_size, len(word_indices) - window_size):
        pre_context =  word_indices[(i-window_size):i]
        post_context = word_indices[(i+1):(i+window_size+1)]
        context =  np.concatenate((pre_context, post_context))
        target = word_indices[i]
        inputs.append(context)
        targets.append(target)
    return torch.Tensor(np.asarray(inputs)).long(), torch.Tensor(np.asarray(targets)).long()

cbow_inputs, cbow_targets = generate_cbow_samples(word_indices)

print(f"Number of CBOW samples: {len(cbow_inputs)}")
print(f"Example sample: ({cbow_inputs[0]}, {cbow_targets[0]})")

Number of CBOW samples: 2288986
Example sample: (tensor([   8,  372,    8,    3, 4098,   41,   66,  282]), 1668)

cbow_dataset = TensorDataset(cbow_inputs, cbow_targets)

cbow_loader = DataLoader(cbow_dataset, batch_size=256, shuffle=True)

inputs, targets = next(iter(cbow_loader))

print("Input batch shape:", inputs.shape)
print("Target batch shape:", targets.shape)

Input batch shape: torch.Size([256, 8])
Target batch shape: torch.Size([256])

class CBOW(nn.Module):
    
    def __init__(self, vocab_size, embed_size):
        super(CBOW, self).__init__()
        self.embed_size = embed_size
        self.V = nn.Embedding(vocab_size, embed_size, max_norm=1)
        self.U = nn.Linear(embed_size, vocab_size)
        self.criterion = nn.CrossEntropyLoss()
        self.init_weights()
    
    def init_weights(self):
        initrange = 0.5 / self.embed_size
        self.V.weight.data.uniform_(-initrange, initrange)
        self.U.weight.data.uniform_(-initrange, initrange)        

    def forward(self, inputs, outputs):
        out = self.V(inputs)
        out = out.mean(axis=1)
        out = self.U(out)
        return self.criterion(out, outputs)

cbow_embed_dim = 100

# Create model
cbow_model = CBOW(len(vocabulary), cbow_embed_dim)
# Define optimizer
cbow_optimizer = optim.Adam(cbow_model.parameters(), lr=0.001)
# Move th model to GPU, if available (by default it "stays" on the CPU)
cbow_model.to(device)
# Print model
print(cbow_model)

CBOW(
  (V): Embedding(10002, 100, max_norm=1)
  (U): Linear(in_features=100, out_features=10002, bias=True)
  (criterion): CrossEntropyLoss()
)

print(get_most_similar("movie", vocabulary, cbow_model))
print(get_most_similar("actor", vocabulary, cbow_model))

['movie', 'predict', 'illustration', 'avengers', 'cousin']
['actor', 'townspeople', 'claw', 'knightley', 'rehash']

num_epochs = 5

for epoch in range(num_epochs):
    description = f"Epoch {epoch+1}/{num_epochs}"
    train_epoch(cbow_loader, cbow_model, cbow_optimizer, description)
    print(get_most_similar("movie", vocabulary, cbow_model))
    print(get_most_similar("actor", vocabulary, cbow_model))

print(f"Done training {num_epochs} epochs.")

['movie', 'idea', 'film', 'comedy', 'thing']
['actor', 'character', 'cast', 'music', 'scene']

['movie', 'film', 'flick', 'thing', 'mess']
['actor', 'cast', 'performance', 'character', 'director']

['movie', 'film', 'flick', 'sequel', 'case']
['actor', 'cast', 'performance', 'actress', 'director']

['movie', 'film', 'flick', 'sequel', 'picture']
['actor', 'cast', 'actress', 'performance', 'director']

['movie', 'film', 'flick', 'picture', 'sequel']
['actor', 'cast', 'actress', 'performance', 'role']
Done training 5 epochs.

# Define list of seed words
seed_tokens = ['movie', 'actor', 'scene', 'music', 'dvd', 'story', 'funny', 'laugh', 'love', 'director']

# For each seed word, find all 5 most similar word and put them into a cluster + perform t-SNE
cbow_embedding_clusters, cbow_token_clusters = generate_tsne_embedding_clusters(seed_tokens, vocabulary, cbow_model)

# Plot clusters of 2d word embedding vectors
plot_embeddings("CBOW Embeddings", seed_tokens, cbow_embedding_clusters, cbow_token_clusters)

def generate_skipgram_pairs(word_indices, window_size: int=4):
    inputs, targets = [], []
    for i in range(window_size, len(word_indices) - window_size):
        center_token = word_indices[i]
        pre_context =  word_indices[(i-window_size):i]
        post_context = word_indices[(i+1):(i+window_size+1)]
        context =  np.concatenate((pre_context, post_context))
        for context_token in context:
            inputs.append(center_token)
            targets.append(context_token)
    return torch.Tensor(np.asarray(inputs)).long(), torch.Tensor(np.asarray(targets)).long()

sg_inputs, sg_targets = generate_skipgram_pairs(word_indices)

print(f"Number of Skip-gram samples: {len(sg_inputs)}")
print(f"Example sample: ({sg_inputs[1]}, {sg_targets[1]})")

Number of Skip-gram samples: 18311888
Example sample: (1668, 372)

sg_dataset = TensorDataset(sg_inputs, sg_targets)

sg_loader = DataLoader(sg_dataset, batch_size=512, shuffle=True) 

inputs, targets = next(iter(sg_loader))
print("Contexts batch shape:", inputs.shape)
print("Targets batch shape:", targets.shape)

Contexts batch shape: torch.Size([512])
Targets batch shape: torch.Size([512])

class Skipgram(nn.Module):
    
    def __init__(self, vocab_size, embed_size):
        super(Skipgram, self).__init__()
        self.embed_size = embed_size
        self.V = nn.Embedding(vocab_size, embed_size, max_norm=1)
        self.U = nn.Linear(embed_size, vocab_size)
        self.criterion = nn.CrossEntropyLoss()
        self.init_weights()
    
    def init_weights(self):
        initrange = 0.5 / self.embed_size
        self.V.weight.data.uniform_(-initrange, initrange)
        self.U.weight.data.uniform_(-initrange, initrange)

    def forward(self, inputs, outputs):
        out = self.V(inputs)
        out = self.U(out)
        return self.criterion(out, outputs)

sg_embed_dim = 100

# Create model
sg_model = Skipgram(len(vocabulary), sg_embed_dim)
# Define optimizer
sg_optimizer = optim.Adam(sg_model.parameters(), lr=0.001)
# Move th model to GPU, if available (by default it "stays" on the CPU)
sg_model.to(device)
# Print model
print(sg_model)

Skipgram(
  (V): Embedding(10002, 100, max_norm=1)
  (U): Linear(in_features=100, out_features=10002, bias=True)
  (criterion): CrossEntropyLoss()
)

num_epochs = 5

for epoch in range(num_epochs):
    description = f"Epoch {epoch+1}/{num_epochs}"
    train_epoch(sg_loader, sg_model, sg_optimizer, description)
    print(get_most_similar("movie", vocabulary, sg_model))
    print(get_most_similar("actor", vocabulary, sg_model))

print(f"Done training {num_epochs} epochs.")

['movie', 'film', 'it', 'one', 'show']
['actor', 'cast', 'act', 'performance', 'director']

['movie', 'film', 'it', 'i', 'one']
['actor', 'cast', 'performance', 'act', 'actress']

['movie', 'film', 'flick', 'it', 'i']
['actor', 'cast', 'actress', 'performance', 'role']

['movie', 'film', 'flick', 'sequel', 'it']
['actor', 'cast', 'actress', 'performance', 'role']

['movie', 'film', 'flick', 'sequel', 'movies']
['actor', 'cast', 'actress', 'performance', 'performer']
Done training 5 epochs.

# Define list of seed words
seed_tokens = ['movie', 'actor', 'scene', 'music', 'dvd', 'story', 'funny', 'laugh', 'love', 'director']

# For each seed word, find all 5 most similar word and put them into a cluster + perform t-SNE
sg_embedding_clusters, sg_token_clusters = generate_tsne_embedding_clusters(seed_tokens, vocabulary, sg_model)

# Plot clusters of 2d word embedding vectors
plot_embeddings("Skip-gram Embeddings", seed_tokens, sg_embedding_clusters, sg_token_clusters)

class NegativeSamplingLoss(nn.Module):

    def __init__(self):
        super().__init__()

    def forward(self, v_c, u_pos, u_neg):
        # Computes positive scores and losses
        pos_score = torch.bmm(u_pos.unsqueeze(1), v_c.unsqueeze(2)).squeeze()
        pos_loss = F.logsigmoid(pos_score)

        #  Compute negative scores and losses
        neg_score = torch.bmm(u_neg, v_c.unsqueeze(2)).squeeze()
        neg_loss = F.logsigmoid(-neg_score).sum(1)

        # Return total loss (negative log-likelihood)
        return -(pos_loss + neg_loss).mean()

class SGNSDataset(Dataset):

    def __init__(self, word_indices, vocabulary, context_size: int=4, subsample_threshold: float=1e-5):
        self.context_size = context_size
        self.subsample_threshold = subsample_threshold
    
        self.word_counts = torch.FloatTensor(vocabulary.token_counts)

        total_words = sum(self.word_counts)
        freqs = self.word_counts / total_words

        # Compute the probabilties for each word index to be considered as a center word
        self.keep_probs = torch.sqrt(self.subsample_threshold / freqs) + (self.subsample_threshold / freqs)
        self.keep_probs = torch.nan_to_num(self.keep_probs, nan=0.0, posinf=0.0, neginf=0.0)
        
        # Compute negative sampling distribution (P(w)^0.75)
        self.neg_sampling_dist = (self.word_counts ** 0.75)
        self.neg_sampling_dist /= self.neg_sampling_dist.sum()

        self.word_pairs = self._generate_pairs(word_indices)
    
    def _generate_pairs(self, word_indices):
        word_pairs = []
        for i, center in enumerate(word_indices):
            # Subsampling: skip some frequent words
            if np.random.random() > self.keep_probs[center]:
                continue
            
            # Context window
            window = np.random.randint(1, high=self.context_size)
            for j in range(-window, window + 1):
                if j == 0 or i + j < 0 or i + j >= len(word_indices):
                    continue
                context = word_indices[i + j]
                word_pairs.append((center, context))
        
        return torch.Tensor(np.asarray(word_pairs)).long()

    
    def __len__(self):
        return len(self.word_pairs)
    
    def __getitem__(self, idx):
        # Retrieve one (center, context) pair
        inputs, targets = self.word_pairs[idx]

        return inputs.long(), targets.long()

sgns_dataset = SGNSDataset(word_indices, vocabulary)

sgns_loader = DataLoader(sgns_dataset, batch_size=256, shuffle=True) 

inputs, targets = next(iter(sgns_loader))
print("Contexts batch shape:", inputs.shape)
print("Targets batch shape:", targets.shape)

Contexts batch shape: torch.Size([256])
Targets batch shape: torch.Size([256])

class SkipgramNS(nn.Module):
    
    def __init__(self, vocab_size, embed_size, n_samples=10, neg_sampling_dist=None):
        super(SkipgramNS, self).__init__()
        self.embed_size = embed_size
        self.n_samples = n_samples
        self.neg_sampling_dist = neg_sampling_dist
        self.V = nn.Embedding(vocab_size, embed_size)
        self.U = nn.Embedding(vocab_size, embed_size)
        self.criterion = NegativeSamplingLoss()
        self.init_weights()
    
    def init_weights(self):
        initrange = 0.5 / self.embed_size
        self.V.weight.data.uniform_(-initrange, initrange)
        self.U.weight.data.uniform_(-initrange, initrange)

    def forward(self, centers, contexts):
        batch_size = centers.size(0)
        # Default to uniform noise if no distribution provided
        neg_sampling_dist = self.neg_sampling_dist if self.neg_sampling_dist is not None else torch.ones(self.vocab_size)

        # Sample noise word indices for negative samples
        neg_contexts = torch.multinomial(neg_sampling_dist, batch_size * self.n_samples, replacement=True)
        neg_contexts = neg_contexts.to(self.U.weight.device)

        # Compute all relevant embedding vectors
        v_c = self.V(centers)
        u_pos = self.U(contexts)
        u_neg = self.U(neg_contexts).view(batch_size, self.n_samples, self.embed_size)

        # Compute and return the loss
        return self.criterion(v_c, u_pos, u_neg)

sgns_embed_dim = 100

# Create model
sgns_model = SkipgramNS(len(vocabulary), sgns_embed_dim, n_samples=10, neg_sampling_dist=sgns_dataset.neg_sampling_dist)
# Define optimizer
sgns_optimizer = optim.Adam(sgns_model.parameters(), lr=0.001)
# Move th model to GPU, if available (by default it "stays" on the CPU)
sgns_model.to(device)
# Print model
print(sgns_model)

SkipgramNS(
  (V): Embedding(10002, 100)
  (U): Embedding(10002, 100)
  (criterion): NegativeSamplingLoss()
)

num_epochs = 5

for epoch in range(num_epochs):
    description = f"Epoch {epoch+1}/{num_epochs}"
    train_epoch(sgns_loader, sgns_model, sgns_optimizer, description)
    print(get_most_similar("movie", vocabulary, sgns_model))
    print(get_most_similar("actor", vocabulary, sgns_model))

print(f"Done training {num_epochs} epochs.")

['movie', 'film', 'thing', 'horror', 'one']
['actor', 'actress', 'effective', 'act', 'excellent']

['movie', 'film', 'flick', 'documentary', 'sequel']
['actor', 'actress', 'cast', 'role', 'performance']

['movie', 'flick', 'franchise', 'industry', 'documentary']
['actor', 'actress', 'cast', 'comedian', 'jai']

['movie', 'franchise', 'flick', 'cheaply', 'industry']
['actor', 'actress', 'comedian', 'performer', 'val']

['movie', 'haunting', 'franchise', 'cheaply', 'made']
['actor', 'actress', 'performer', 'comedian', 'val']
Done training 5 epochs.

%%time

seed_tokens = ['movie', 'actor', 'scene', 'music', 'dvd', 'story', 'funny', 'laugh', 'love', 'director']

sgns_embedding_clusters, sgns_token_clusters = generate_tsne_embedding_clusters(seed_tokens, vocabulary, sgns_model)

plot_embeddings("Skip-gram with Negative Sampling Embeddings", seed_tokens, sgns_embedding_clusters, sgns_token_clusters)

CPU times: user 1.54 s, sys: 8.86 ms, total: 1.55 s
Wall time: 324 ms

Training Word2Vec from Scratch¶

Setting up the Notebook¶

Make Required Imports¶

Download Required Data¶

Checking & Setting Computing Device¶

Preliminaries¶

Dataset Preparation¶

Load File & Preprocess Reviews¶

Create Vocabulary¶

Auxiliary Methods¶

Training a Single Epoch¶

Find Most Similar Words¶

Visualize Embedding Vectors using Dimensionality Reduction¶

Continuous Bag-of-Words (CBOW)¶

Create Training Dataset¶

Generate Training Samples¶

Create `Dataset` & `DataLoader` Instances¶

Define CBOW Model¶

Model Training¶

Skip-Gram¶

Create Training Dataset¶

Generate Training Samples¶

Create `Dataset` & `DataLoader` Instances¶

Define Skip-gram Model¶

Model Training¶

Skip-Gram with Negative Sampling (SGNS)¶

Create Training Dataset¶

Generate Training Samples¶

Create `Dataset` & `DataLoader` Instances¶

Define Skip-gram Model¶

Model Training¶

Summary¶

Training Word2Vec from Scratch¶

Setting up the Notebook¶

Make Required Imports¶

Download Required Data¶

Checking & Setting Computing Device¶

Preliminaries¶

Dataset Preparation¶

Load File & Preprocess Reviews¶

Create Vocabulary¶

Auxiliary Methods¶

Training a Single Epoch¶

Find Most Similar Words¶

Visualize Embedding Vectors using Dimensionality Reduction¶

Continuous Bag-of-Words (CBOW)¶

Create Training Dataset¶

Generate Training Samples¶

Create Dataset & DataLoader Instances¶

Define CBOW Model¶

Model Training¶

Skip-Gram¶

Create Training Dataset¶

Generate Training Samples¶

Create Dataset & DataLoader Instances¶

Define Skip-gram Model¶

Model Training¶

Skip-Gram with Negative Sampling (SGNS)¶

Create Training Dataset¶

Generate Training Samples¶

Create Dataset & DataLoader Instances¶

Define Skip-gram Model¶

Model Training¶

Summary¶

Create `Dataset` & `DataLoader` Instances¶

Create `Dataset` & `DataLoader` Instances¶

Create `Dataset` & `DataLoader` Instances¶