import jax
import jax.numpy as jnp
import blackjax #Bayesian samplers
import optax #optimization library for JAX

import matplotlib.pyplot as plt
import seaborn as sns

N = 1000
key = jax.random.key(123)

X = jax.random.binomial(
    key,
    n=1,
    p=0.65,
    shape=(N,)
)

### Take a look at our data sample:
print(X[:10])

[1. 1. 1. 1. 1. 1. 1. 1. 0. 0.]

p_hat_analytical = jnp.mean(X)
SE_p_hat_analytical = jnp.sqrt((p_hat_analytical*(1-p_hat_analytical))/N)
print(f'p MLE: {p_hat_analytical}')
print(f'p SE: {SE_p_hat_analytical}')

p MLE: 0.6530000567436218
p SE: 0.01505293883383274

@jax.jit #this decorator is meant to "just-in-time" (jit-)compile the function below, which accelerates it significantly
def neg_log_likelihood(p, X):
    N = X.shape[0]
    return -(jnp.sum(X)*jnp.log(p) + (N - jnp.sum(X))*jnp.log(1-p))

neg_log_likelihood(0.65, X)

Array(645.58954, dtype=float32)

@jax.jit
def neg_log_likelihood_transform(theta, X):
    p = jax.nn.sigmoid(theta) #maps to (0, 1)
    return neg_log_likelihood(p, X)
plt.plot(jnp.linspace(-5, 5, 1000), neg_log_likelihood_transform(jnp.linspace(-5.0, 5.0, 1000), X))
plt.show()

def optimize_adam(
    f,
    init_params,
    args=(),
    kwargs=None,
    learning_rate=1e-3,
    max_steps=1_000,
    grad_tol=1e-6,
    return_history=True,
):
    """A simple Adam optimizer with gradient-norm stopping."""

    if kwargs is None:
        kwargs = {}

    optimizer = optax.adam(learning_rate)
    opt_state = optimizer.init(init_params)

    params = init_params
    history = []

    loss_and_grad = jax.value_and_grad(lambda p: f(p, *args, **kwargs))

    for step in range(max_steps):
        loss, grads = loss_and_grad(params)

        grad_norm = jnp.linalg.norm(grads)

        if return_history:
            history.append((loss, grad_norm))

        if grad_norm <= grad_tol:
            break

        updates, opt_state = optimizer.update(grads, opt_state, params)
        params = optax.apply_updates(params, updates)

    if return_history:
        return params, jnp.array(history)

    return params

init_theta = jnp.array(0.0)

theta_hat, history = optimize_adam(
    neg_log_likelihood_transform,
    init_theta,
    args=(X,),
    learning_rate=0.05,
    max_steps=100,
)
p_hat = jax.nn.sigmoid(theta_hat)
print(f'p MLE obtained by numerical optimization: {p_hat}')

p MLE obtained by numerical optimization: 0.6533495187759399

# Hessian of the negative log-likelihood with respect to theta, evaluated at theta_hat
hess_theta = jax.hessian(
    lambda theta: neg_log_likelihood_transform(theta, X)
)(theta_hat)
# Variance of theta_hat is inverse observed information
var_theta = 1.0 / hess_theta
se_theta = jnp.sqrt(var_theta)

# Delta method: p = sigmoid(theta)
se_p = p_hat*(1-p_hat)*se_theta

print(f"SE(p_hat): {se_p}")

SE(p_hat): 0.015049383044242859

@jax.jit
def log_posterior_theta(theta, X, alpha_prior, beta_prior):
    """
    Unnormalized log posterior for theta = logit(p).

    Prior is Beta(alpha_prior, beta_prior) on p.
    We sample theta, where p = sigmoid(theta).

    Therefore:
        log posterior(theta)
        =
        log likelihood(p)
        + log prior(p)
        + log Jacobian
    """

    S = jnp.sum(X)
    N = X.shape[0]

    log_p = jax.nn.log_sigmoid(theta)
    log_1mp = jax.nn.log_sigmoid(-theta)

    log_likelihood = S * log_p + (N - S) * log_1mp

    log_prior = (alpha_prior - 1) * log_p + (beta_prior - 1) * log_1mp

    log_jacobian = log_p + log_1mp

    return log_likelihood + log_prior + log_jacobian

# ----------------------------
# Random-walk Metropolis-Hastings on theta
# ----------------------------

def random_walk_mh_theta(
    log_posterior,
    initial_theta,
    key,
    num_samples,
    proposal_sd,
    args=(),
):
    """
    Random-walk Metropolis-Hastings on unconstrained theta.

    Proposal:
        theta_star = theta_current + Normal(0, proposal_sd^2)

    Since the proposal is symmetric, the MH acceptance ratio is:

        posterior(theta_star) / posterior(theta_current)
    """

    samples = []
    accepts = []

    theta_current = initial_theta
    log_post_current = log_posterior(theta_current, *args)

    for t in range(num_samples):
        key, proposal_key, accept_key = jax.random.split(key, 3)

        theta_proposal = theta_current + proposal_sd * jax.random.normal(proposal_key)

        log_post_proposal = log_posterior(theta_proposal, *args)

        log_accept_ratio = log_post_proposal - log_post_current #log(r) = log(\pi(\theta^*|X)) - log(\pi(\theta^t|X))

        accept = jnp.log(jax.random.uniform(accept_key)) < log_accept_ratio #accept status

        theta_current = jnp.where(accept, theta_proposal, theta_current)
        log_post_current = jnp.where(accept, log_post_proposal, log_post_current)

        samples.append(theta_current)
        accepts.append(accept)

    return jnp.array(samples), jnp.array(accepts)

# ----------------------------
# Run MH
# ----------------------------

key, subkey = jax.random.split(key)

#I choose a Uniform distribution on [0, 1] as my prior.
alpha_prior=1
beta_prior=1

num_samples = 10_000
burn_in = 2_000

theta_samples_mh, accepts_theta = random_walk_mh_theta(
    log_posterior_theta,
    initial_theta=jnp.array(0.0),
    key=key,
    num_samples=num_samples,
    proposal_sd=0.05,
    args=(X, alpha_prior, beta_prior),
)

theta_samples_post = theta_samples_mh[burn_in:]
p_samples_mh = jax.nn.sigmoid(theta_samples_post) #transform back to the original p

sns.histplot(
    p_samples_mh,
    bins=30,
    alpha=0.4,
    label="Random-walk MH samples",
    kde=True
)
plt.show()

def hmc_sampler(
    log_posterior,
    initial_theta,
    key,
    num_samples,
    step_size,
    num_leapfrog_steps,
    args=(),
):
    grad_log_posterior = jax.grad(lambda theta: log_posterior(theta, *args))

    @jax.jit
    def leapfrog_step(carry, _):
        theta, r = carry

        theta = theta + step_size * r
        r = r + step_size * grad_log_posterior(theta)

        return (theta, r), None
    @jax.jit
    def one_hmc_step(theta_current, key):
        key_momentum, key_accept = jax.random.split(key)

        r_current = jax.random.normal(key_momentum)

        theta = theta_current
        r = r_current

        # Half momentum step
        r = r + 0.5 * step_size * grad_log_posterior(theta)

        # Full leapfrog steps
        (theta, r), _ = jax.lax.scan(
            leapfrog_step,
            (theta, r),
            xs=None,
            length=num_leapfrog_steps - 1,
        )

        # Final position step
        theta = theta + step_size * r

        # Final half momentum step
        r = r + 0.5 * step_size * grad_log_posterior(theta)

        theta_proposal = theta
        r_proposal = r

        current_H = (
            -log_posterior(theta_current, *args)
            + 0.5 * r_current**2
        )

        proposal_H = (
            -log_posterior(theta_proposal, *args)
            + 0.5 * r_proposal**2
        )

        log_accept_ratio = current_H - proposal_H

        accept = jnp.log(jax.random.uniform(key_accept)) < log_accept_ratio

        theta_next = jnp.where(
            accept,
            theta_proposal,
            theta_current,
        )

        return theta_next, (theta_next, accept)

    keys = jax.random.split(key, num_samples)

    final_theta, (theta_samples, accepts) = jax.lax.scan(
        one_hmc_step,
        initial_theta,
        keys,
    )

    return theta_samples, accepts

# ----------------------------
# Run HMC
# ----------------------------

key, subkey = jax.random.split(key)

num_samples = 10_000
burn_in = 1000

theta_samples_hmc, accepts_hmc = hmc_sampler(
    log_posterior_theta,
    initial_theta=jnp.array(0.0),
    key=key,
    num_samples=num_samples,
    step_size=0.05,
    num_leapfrog_steps=20,
    args=(X, alpha_prior, beta_prior),
)

theta_samples_hmc_post = theta_samples_hmc[burn_in:]
p_samples_hmc = jax.nn.sigmoid(theta_samples_hmc_post)

sns.histplot(
    p_samples_hmc,
    bins=30,
    alpha=0.4,
    kde=True,
    label="HMC samples",
)

plt.show()

def run_blackjax_chain(rng_key, kernel, initial_state, num_samples):
    keys = jax.random.split(rng_key, num_samples)
    @jax.jit
    def inference_loop(state, keys):
        def one_step(state, key):
            state, info = kernel(key, state)
            return state, (state.position, info)

        return jax.lax.scan(one_step, state, keys)

    final_state, (positions, infos) = inference_loop(initial_state, keys)
    return positions, infos, final_state

@jax.jit
def logdensity_fn(theta):
    return log_posterior_theta(theta, X, alpha_prior, beta_prior)

key_bj_hmc, key_bj_nuts = jax.random.split(key)

initial_theta = jnp.array(0.0)
inverse_mass_matrix = jnp.array([1.0]) #we will have opportunities to explore this object in future notebooks. Ignore it for now

num_samples = 10_000
burn_in = 1_000

blackjax_hmc = blackjax.hmc(
    logdensity_fn,
    step_size=0.05,
    inverse_mass_matrix=inverse_mass_matrix,
    num_integration_steps=30,
)

blackjax_hmc_state = blackjax_hmc.init(initial_theta)

theta_samples_blackjax_hmc, info_blackjax_hmc, final_state_blackjax_hmc = run_blackjax_chain(
    key_bj_hmc,
    blackjax_hmc.step,
    blackjax_hmc_state,
    num_samples,
)

theta_samples_blackjax_hmc_post = theta_samples_blackjax_hmc[burn_in:]
p_samples_blackjax_hmc = jax.nn.sigmoid(theta_samples_blackjax_hmc_post)

sns.histplot(p_samples_blackjax_hmc,
             bins=30,
             kde=True)

<Axes: ylabel='Count'>

blackjax_nuts = blackjax.nuts(
    logdensity_fn,
    step_size=0.05,
    inverse_mass_matrix=inverse_mass_matrix,
)

blackjax_nuts_state = blackjax_nuts.init(initial_theta)

theta_samples_blackjax_nuts, info_blackjax_nuts, final_state_blackjax_nuts = run_blackjax_chain(
    key_bj_nuts,
    blackjax_nuts.step,
    blackjax_nuts_state,
    num_samples,
)

theta_samples_blackjax_nuts_post = theta_samples_blackjax_nuts[burn_in:]
p_samples_blackjax_nuts = jax.nn.sigmoid(theta_samples_blackjax_nuts_post)

sns.histplot(p_samples_blackjax_nuts,
             bins=30,
             kde=True)
plt.show()

key_warmup, key_sample = jax.random.split(key)

num_warmup = 1_000
num_draws = 15_000

adapt = blackjax.window_adaptation(
    blackjax.nuts,
    logdensity_fn,
    target_acceptance_rate=0.80,
)

adaptation_result, warmup_info = adapt.run(
    key_warmup,
    initial_theta,
    num_warmup,
)

adapted_state = adaptation_result.state
tuned_parameters = adaptation_result.parameters

print("Tuned parameters:")
print(tuned_parameters)

blackjax_nuts_adapted = blackjax.nuts(
    logdensity_fn,
    **tuned_parameters,
)

theta_samples_blackjax_nuts_adapted, info_blackjax_nuts_adapted, final_state_blackjax_nuts_adapted = run_blackjax_chain(
    key_sample,
    blackjax_nuts_adapted.step,
    adapted_state,
    num_draws,
)

p_samples_blackjax_nuts_adapted = jax.nn.sigmoid(theta_samples_blackjax_nuts_adapted)

Tuned parameters:
{'step_size': Array(0.96027654, dtype=float32, weak_type=True), 'inverse_mass_matrix': Array([0.00414182], dtype=float32)}

sns.histplot(p_samples_blackjax_nuts_adapted,
             bins=30,
             kde=True)
plt.show()

alpha_post = alpha_prior + jnp.sum(X)
beta_post = beta_prior + X.shape[0] - jnp.sum(X)

p_grid = jnp.linspace(0.599, 0.699, 1_000)
posterior_pdf = jax.scipy.stats.beta.pdf(
    jnp.asarray(p_grid),
    float(alpha_post),
    float(beta_post),
)

plt.figure(figsize=(9, 5))
sns.kdeplot(p_samples_mh, alpha=0.75, label="Random-walk MH")
sns.kdeplot(p_samples_hmc, alpha=0.75, label="Homemade HMC")
sns.kdeplot(p_samples_blackjax_hmc, alpha=0.75, label="BlackJAX HMC")
sns.kdeplot(p_samples_blackjax_nuts_adapted, alpha=0.75, label="BlackJAX NUTS adapted")
plt.plot(p_grid, posterior_pdf, label="Exact Beta posterior")
plt.axvline(float(p_hat_analytical), linestyle="--", label="MLE")
plt.xlabel("p")
plt.ylabel("density")
plt.title("Posterior draws vs exact posterior")
plt.legend()
plt.show()

Bayesian Econometrics for Empirical IO -- A Journey¶

Episode 1: The mean of binary data¶

This notebook has benefited from the editing and coding skills of my AI-OpenClaw assistant, Hope.¶

Warm-Up: the frequentist approach¶

The delta method:¶

Bayesian inference¶

Random-Walk Metropolis-Hastings¶

Hamiltonian MonteCarlo¶

BlackJAX NUTS without adaptation¶

BlackJAX NUTS with warmup/adaptation¶

Final Comparison¶

$\widehat{p}$
0.653
(0.015)