import numpy as np

from src.utils.plotting.gd import *

def f(x1, x2):
    return 0.1*(x1**2) + (x2**2)

plot_multivariate_function(f)

def g(x1, x2):
    return 0.2*x1, 2*x2

def sgd(g, x0, eta, n_steps):
    # Initialize history of x values
    x, xs = x0, [x0]
    # Run basic Gradient Descent for n_steps iterations
    for _ in range(n_steps):
        # Compute the gradient for current x values using derivative
        gradient = np.asarray(g(*x))
        # Update x values based on gradient and learning rate
        x = x - eta*gradient
        # Add updated x values to history
        xs.append(x)
    # Return history of x values as a NumPy array
    return np.asarray(xs)

x0 = np.asarray([9, -3])

eta, n_steps = 0.1, 100

xs_sgd = sgd(g, x0, eta, n_steps)

plot_gradient_descent_2d(f, xs_sgd, eta=eta, title=f"Gradient Descent (η = {eta})")

plot_multivariate_function(f)

eta, n_steps = 0.8, 100

xs_sgd = sgd(g, x0, eta, n_steps)

plot_gradient_descent_2d(f, xs_sgd, eta=eta, title=f"Gradient Descent (η = {eta})")

def sgd_polyak(g, x, beta, eta, n_steps):
    # Initialize history of x values
    xs = [x]
    v = np.zeros_like(x)
    # Run basic Gradient Descent for n_steps iterations
    for _ in range(n_steps):
        # Compute the gradient for current x values using derivative
        gradient = np.asarray(g(*x))
        # Update the velocity vector v
        v = beta*v + eta*gradient
        # Update x values based on gradient and learning rate
        x = x - v
        # Add updated x values to history
        xs.append(x)
    # Return history of x values as a NumPy array
    return np.asarray(xs)

beta, eta, n_steps = 0.9, 0.1, 100

xs_polyak = sgd_polyak(g, x0, beta, eta, n_steps)

plot_gradient_descent_2d(f, xs_polyak, eta=eta, title=f"Polyak Momentum (η = {eta})")

def sgd_ewma(g, x, beta, eta, n_steps):
    # Initialize history of x values
    xs = [x]
    v = np.zeros_like(x)
    # Run basic Gradient Descent for n_steps iterations
    for t in range(n_steps):
        # Compute the gradient for current x values using derivative
        gradient = np.asarray(g(*x))
        # Update the velocity vector v
        v = beta*v + (1-beta)*gradient
        # Update x values based on gradient and learning rate
        x = x - eta*v
        # Add updated x values to history
        xs.append(x)
    # Return history of x values as a NumPy array
    return np.asarray(xs)

beta, eta, n_steps = 0.9, 0.1, 100

xs_ewma = sgd_ewma(g, x0, beta, eta, n_steps)

plot_gradient_descent_2d(f, xs_ewma, eta=eta, title=f"EWMA Momentum (η = {eta})")

def sgd_ewma_corrected(g, x, beta, eta, n_steps):
    # Initialize history of x values
    xs = [x]
    v = np.zeros_like(x)
    # Run basic Gradient Descent for n_steps iterations
    for t in range(n_steps):
        # Compute the gradient for current x values using derivative
        gradient = np.asarray(g(*x))
        # Update the velocity vector v
        v = beta*v + (1-beta)*gradient
        # Bias correction
        v_corrected = v / (1 - beta**(t+1))
        # Update x values based on gradient and learning rate
        x = x - eta*v_corrected
        # Add updated x values to history
        xs.append(x)
    # Return history of x values as a NumPy array
    return np.asarray(xs)

beta, eta, n_steps = 0.9, 0.1, 100

xs_ewma_corrected = sgd_ewma_corrected(g, x0, beta, eta, n_steps)

plot_gradient_descent_2d(f, xs_ewma_corrected, eta=eta, title=f"EWMA Momentum Corrected (η = {eta})")

def sgd_nesterov(g, x, beta, eta, n_steps):
    # Initialize history of x values
    xs = [x]
    v = np.zeros_like(x)
    # Run basic Gradient Descent for n_steps iterations
    for _ in range(n_steps):
        # Compute the gradient for current x values using derivative
        gradient = np.asarray(g(*x + beta*v))
        # Update the velocity vector v
        v = beta*v - eta*gradient
        # Update x values based on gradient and learning rate
        x = x + v
        # Add updated x values to history
        xs.append(x)
    # Return history of x values as a NumPy array
    return np.asarray(xs)

beta, eta, n_steps = 0.9, 0.1, 100

xs_nesterov = sgd_nesterov(g, x0, beta, eta, n_steps)

plot_gradient_descent_2d(f, xs_nesterov, eta=eta, title=f"Nesterov Momentum (η = {eta})")

Gradient Descent with Momentum¶

Setting up the Notebook¶

Make Required Imports¶

Preliminaries¶

Quick Recap: Basic Gradient Descent¶

Basic Definitions + Algorithm¶

Limitations & Challenges¶

Slow Convergence in Flat Regions (Plateaus)¶

Oscillations in High-Curvature Regions¶

Vulnerability to Local Minima and Saddle Points¶

Momentum Methods¶

Standard Momentum (Polyak Momentum)¶

Exponentially Weighted Moving Average (EWMA) Momentum¶

Nesterov Momentum¶

Discussion¶

Theoretical Foundations¶

Training Neural Networks¶

Beyond Basic Momentum Methods¶

Summary¶