import os, sys
import numpy as np
from tqdm import tqdm

import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
from torch.utils.data import Dataset, DataLoader, IterableDataset

from transformers import AutoTokenizer

from src.utils.compute.gpu import *
from src.utils.data.files import *

movie_reviews_zip, target_folder = download_dataset("text/corpora/reviews/movie-reviews-imdb.zip")

File 'data/datasets/text/corpora/reviews/movie-reviews-imdb.zip' already exists (use 'overwrite=True' to overwrite it).

movie_reviews = decompress_file(movie_reviews_zip, target_path=target_folder)

print(movie_reviews)

['data/datasets/text/corpora/reviews/movie-reviews-imdb.txt']

# Select preferred device (GPU, if available; CPU otherwise); you can enfore the use of the CPU
DEVICE = select_device(force_cpu=False)

print("Available device: {}".format(DEVICE))

Available device: cuda:0

mode = "demo"
#mode = "full"

total_reviews = sum(1 for _ in open(movie_reviews[0]))

print(f"Total number of reviews (1 review per line): {total_reviews}")

Total number of reviews (1 review per line): 100000

if mode == "demo":
    num_considered_reviews = 10_000
else:
    num_considered_reviews = 100_000

num_reviews = min(total_reviews, num_considered_reviews)

print(f"Number of reviews used for training dataset: {num_reviews}")

Number of reviews used for training dataset: 10000

tokenizer = AutoTokenizer.from_pretrained("gpt2")

tokenizer.special_tokens_map

{'bos_token': '<|endoftext|>',
 'eos_token': '<|endoftext|>',
 'unk_token': '<|endoftext|>'}

EOS_TOKEN = "<|endoftext|>"
EOS_TOKEN_INDEX = tokenizer.encode(EOS_TOKEN)[0]

tokens = []

with open(movie_reviews[0]) as file:
    for idx, review in enumerate(tqdm(file, total=num_reviews, leave=False)):
        if idx >= num_reviews:
            break
        tokens.extend(tokenizer.encode(f"{review.strip().lower()} {EOS_TOKEN}", truncation=True, max_length=sys.maxsize))

print(f"Total number of tokens: {len(tokens)}")

Total number of tokens: 2922984

class StreamDataset(IterableDataset):

    def __init__(self, tokens: torch.LongTensor, batch_size: int, seq_len: int):
        super().__init__()
        self.tokens = tokens
        self.batch_size = batch_size
        self.seq_len = seq_len
        # (1) Compute number of usable tokens
        total_tokens = tokens.size(0)
        usable = (total_tokens // batch_size) * batch_size
        self.tokens = tokens[:usable].contiguous()
        self.stream_len = usable // batch_size  # length of each stream
        # (2) Create substreams: reshape into (batch_size, stream_len)
        self.streams = self.tokens.view(batch_size, self.stream_len)
        # (3) Compute total number of batches: ignore the last batch, even if it is full
        self.n_batches = (self.stream_len - 1) // self.seq_len

    def __iter__(self):
        s = self.seq_len
        # Generate next pair of inputs and targets
        for step in range(self.n_batches):
            inputs = self.streams[:,(step*s):(step*s+s)]
            targets = self.streams[:,(step*s+1):(step*s+s+1)]
            yield inputs, targets

demo_tokens = torch.arange(1, 61)

demo_dataset = StreamDataset(demo_tokens, batch_size=3, seq_len=6)

demo_loader = DataLoader(demo_dataset, batch_size=None)

for step, (inputs, targets) in enumerate(demo_loader):
    print(f"========== Batch {step+1} ==========")
    print(f"Input sequences:\n{inputs}")
    print(f"Target sequences:\n{targets}\n")

========== Batch 1 ==========
Input sequences:
tensor([[ 1,  2,  3,  4,  5,  6],
        [21, 22, 23, 24, 25, 26],
        [41, 42, 43, 44, 45, 46]])
Target sequences:
tensor([[ 2,  3,  4,  5,  6,  7],
        [22, 23, 24, 25, 26, 27],
        [42, 43, 44, 45, 46, 47]])

========== Batch 2 ==========
Input sequences:
tensor([[ 7,  8,  9, 10, 11, 12],
        [27, 28, 29, 30, 31, 32],
        [47, 48, 49, 50, 51, 52]])
Target sequences:
tensor([[ 8,  9, 10, 11, 12, 13],
        [28, 29, 30, 31, 32, 33],
        [48, 49, 50, 51, 52, 53]])

========== Batch 3 ==========
Input sequences:
tensor([[13, 14, 15, 16, 17, 18],
        [33, 34, 35, 36, 37, 38],
        [53, 54, 55, 56, 57, 58]])
Target sequences:
tensor([[14, 15, 16, 17, 18, 19],
        [34, 35, 36, 37, 38, 39],
        [54, 55, 56, 57, 58, 59]])

dataset = StreamDataset(torch.LongTensor(tokens), batch_size=256, seq_len=32)

loader = DataLoader(dataset, batch_size=None)

def train_epoch(loader, model, optimizer, description):
    model.train()
    
    epoch_loss = 0.0
    device = next(model.parameters()).device
    # Initialize the hidden state
    hidden = model.init_hidden(batch_size=dataset.batch_size, device=device)
    
    for idx, (inputs, targets) in enumerate(tqdm(loader, desc=description, leave=False, total=dataset.n_batches)):
        # Move data to the same device as the model
        inputs = inputs.to(device)
        targets = targets.to(device)
        # detach hidden state to truncate BPTT
        hidden = tuple(h.detach() for h in hidden)
        # Get the output (logits + hidden state) for current input batch
        logits, hidden = model(inputs, hidden)  # logits: (batch_size, seq_len, vocab)
        # Compute loss: flatten seq and batch dims for CrossEntropyLoss
        loss = criterion(logits.view(-1, model.vocab_size), targets.view(-1))
        # Perform PyTorch magic: backpropagation + parameter updates
        optimizer.zero_grad()
        loss.backward()
        torch.nn.utils.clip_grad_norm_(model.parameters(), 0.25)  # optional grad clipping
        optimizer.step()

def save_checkpoint(model, optimizer, epoch, loss, path="checkpoint.pt"):
    checkpoint = {
        "epoch": epoch,
        "model_state_dict": model.state_dict(),
        "optimizer_state_dict": optimizer.state_dict(),
        "loss": loss,
    }
    torch.save(checkpoint, path)
    print(f"Checkpoint saved at {path}")

def load_checkpoint(model, optimizer, path="checkpoint.pt", device="cuda"):
    checkpoint = torch.load(path, map_location=device)
    model.load_state_dict(checkpoint["model_state_dict"])
    optimizer.load_state_dict(checkpoint["optimizer_state_dict"])
    epoch = checkpoint["epoch"]
    loss = checkpoint["loss"]
    print(f"Checkpoint loaded (epoch {epoch}, loss {loss:.4f})")
    return epoch, loss

def generate_response(prompt, tokenizer, model, eos_token=None, max_new_tokens=50):
    # Identify the device where the model is location
    device = next(model.parameters()).device
    # Encode prompt using the tokenizer
    prompt_indices = torch.LongTensor(tokenizer.encode(prompt))
    # Use model to generate the next tokens
    generated_indices = model.generate(prompt_indices, eos_token, device=device)
    # Decode and return sequence of indices into human-readable tokens
    return tokenizer.decode(generated_indices)

def generate_example_responses(tokenizer, model, path="example-responses.txt"):
    prompts = ["the best part of the movie was", "my favorite scene of the in the movie", "the script and the direction"]
    with open(path, "w") as file:
        for prompt in prompts:
            response = generate_response(prompt, tokenizer, model)
            file.write(f"{response}\n\n")

folder = create_folder("data/generated/models/rnn-lm/")

print(folder)

data/generated/models/rnn-lm/

class LstmLM(nn.Module):
    def __init__(self, vocab_size, embed_size=256, hidden_size=512, num_layers=2, dropout=0.2):
        super().__init__()
        self.vocab_size = vocab_size
        self.embed = nn.Embedding(vocab_size, embed_size)
        self.lstm = nn.LSTM(embed_size, hidden_size, num_layers=num_layers, batch_first=True, dropout=dropout)
        self.out = nn.Linear(hidden_size, vocab_size)
        self.num_layers = num_layers
        self.hidden_size = hidden_size

    def forward(self, x, hidden):             # x:      (batch_size, seq_len)
        emb = self.embed(x)                   # emb:    (batch_size, seq_len, embed_size)
        out, hidden = self.lstm(emb, hidden)  # out:    (batch_size, seq_len, hidden_size)
        logits = self.out(out)                # logits: (batch_size, seq_len, vocab_size)
        return logits, hidden

    def init_hidden(self, batch_size, device):
        # return tuple (h0, c0) of shape (num_layers, batch_size, hidden_dim)
        return (torch.zeros(self.num_layers, batch_size, self.hidden_size).to(device),
                torch.zeros(self.num_layers, batch_size, self.hidden_size).to(device))

    @torch.no_grad()
    def generate(self, seed_indices, eos_token=None, max_len=50, temperature=1.0, top_k=10, device='cpu'):
        seed = seed_indices.unsqueeze(0).to(device) # seed: (1, seed_seq_len)
        # Initialize hidden state with all zeros
        hidden = self.init_hidden(1, device)
        # Initialize list of generation tokens with seed tokens
        generated = seed.squeeze(0).tolist()
        # Feed the seed sequence to the model
        logits, hidden = self.forward(seed, hidden)
        # Generate remaining tokens step by step
        for _ in range(max_len):
            # Apply temperature to logits
            logits = logits[:, -1, :] / temperature
            # Top-k filtering (if specified)
            if top_k is not None and top_k < logits.size(-1):
                topk_vals, topk_idx = torch.topk(logits, top_k)
                probs = F.softmax(topk_vals, dim=-1)
                next_token = topk_idx.gather(1, torch.multinomial(probs, num_samples=1))
            else:
                # fallback to full softmax sampling
                probs = F.softmax(logits, dim=-1)
                next_token = torch.multinomial(probs, num_samples=1)
            # Stop generating tokens if the next token is the EOS token
            if eos_token is not None:
                if next_token.item() == eos_token:
                    break
            # Add new token to the final list of tokens (i.e., token indices)
            generated.append(next_token.item())
            # Pass new token and last hidden state to model
            logits, hidden = self(next_token, hidden)
        # Return final list of all tokens (seed tokens + generation tokens)
        return generated

model = LstmLM(tokenizer.vocab_size).to(DEVICE)

optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)
criterion = nn.CrossEntropyLoss()

print(model)

LstmLM(
  (embed): Embedding(50257, 256)
  (lstm): LSTM(256, 512, num_layers=2, batch_first=True, dropout=0.2)
  (out): Linear(in_features=512, out_features=50257, bias=True)
)

prompt = "the best part of the movie was"

generate_response(prompt, tokenizer, model, EOS_TOKEN_INDEX)

'the best part of the movie was greatness Brut towedmd cracksggle flourishing Ame Pulse broker Ame goodkernel States padtry incapable respective incapable Casino TransportDX referral attracted rideaker happiest Continent relocation UV crou Lavrov readablebasic goddGUI pedestrians incapable incapable rib Bugsetz charitiesWelcome ISS akin sum Teslaaker Taxes'

num_epochs = 5

for epoch in range(num_epochs):
    description = f"Epoch {epoch+1}/{num_epochs}"
    epoch_loss = train_epoch(loader, model, optimizer, description)
    # Generate some reponses to track progress
    if mode == "demo":
        print(generate_response(prompt, tokenizer, model, eos_token=EOS_TOKEN_INDEX))
    else:
        save_checkpoint(model, optimizer, epoch+1, epoch_loss, path=f"{folder}checkpoint-{epoch+1}.pt")
        generate_example_responses(tokenizer, model, eos_token=EOS_TOKEN_INDEX, path=f"{folder}example-responses-{epoch+1}.txt")

print(f"Done training {num_epochs} epochs.")

the best part of the movie was of.. to a of. to is the and, in the and a. in,. in the to the and the and the to is the the in to it the,,.. of to to. to to the is and to

the best part of the movie was a film for the end of the first film and a movie for a time of the first of the film was not to get it, but the first movie of the end is just to do it, the characters was a few film's film.

the best part of the movie was a bit. this is no way on this film that the film was just so bad that i had a little fan of a movie and the film was so much to see it. there is a film with the movie for a great. i don't

the best part of the movie was just as an interesting movie. i have been seen in my life. if you want for watching this. i'm not sure that you would have a good story. it would not be more better than the most annoying, but it is just plain predictable

the best part of the movie was a lot of time and that the first two of it is so much i could be disappointed with the movie with this garbage. the film is the film's "i'm sure the "gob" is an excellent movie. there wasn't the film
Done training 5 epochs.

RNN-based Language Models¶

Setting up the Notebook¶

Make Required Imports¶

Download Required Data¶

Checking & Setting Computing Device¶

Preliminaries¶

Dataset Preparation¶

Load Reviews from File¶

Tokenize & Generate Token Stream¶

Create `Dataset` and `DataLoader`¶

Batching Considerations¶

Implementing Custom `DataSet` Class¶

Auxiliary Methods¶

Training a Single Epoch¶

Saving & Loading Checkpoints¶

Generate & Save Example Responses¶

Creating & Training the Model¶

Model Definition¶

Model Training¶

Summary¶

RNN-based Language Models¶

Setting up the Notebook¶

Make Required Imports¶

Download Required Data¶

Checking & Setting Computing Device¶

Preliminaries¶

Dataset Preparation¶

Load Reviews from File¶

Tokenize & Generate Token Stream¶

Create Dataset and DataLoader¶

Batching Considerations¶

Implementing Custom DataSet Class¶

Auxiliary Methods¶

Training a Single Epoch¶

Saving & Loading Checkpoints¶

Generate & Save Example Responses¶

Creating & Training the Model¶

Model Definition¶

Model Training¶

Summary¶

Create `Dataset` and `DataLoader`¶

Implementing Custom `DataSet` Class¶