import os
import random
from contextlib import nullcontext
from datetime import timedelta
from pprint import pformat
from glob import glob
import shutil
import re
import pdb
os.environ["TOKENIZERS_PARALLELISM"] = "false"
import warnings
warnings.filterwarnings('ignore')

import torch
import torch.distributed as dist
import wandb
import colossalai
from colossalai.booster import Booster
from colossalai.cluster import DistCoordinator
from colossalai.nn.optimizer import HybridAdam
from colossalai.utils import get_current_device, set_seed
from tqdm import tqdm

from javisdit.acceleration.checkpoint import set_grad_checkpoint
from javisdit.acceleration.parallel_states import get_data_parallel_group
from javisdit.datasets.dataloader import prepare_dataloader
from javisdit.registry import DATASETS, MODELS, build_module
from javisdit.utils.ckpt_utils import load, save
from javisdit.utils.config_utils import define_experiment_workspace, parse_configs, save_training_config
from javisdit.utils.misc import (
    Timer,
    all_reduce_mean,
    create_logger,
    create_tensorboard_writer,
    format_numel_str,
    get_model_numel,
    to_torch_dtype,
)
from javisdit.utils.train_utils import create_colossalai_plugin


def main():
    # ======================================================
    # 1. configs & runtime variables
    # ======================================================
    # == parse configs ==
    cfg = parse_configs(training=True)
    record_time = cfg.get("record_time", False)

    # == device and dtype ==
    assert torch.cuda.is_available(), "Training currently requires at least one GPU."
    cfg_dtype = cfg.get("dtype", "bf16")
    assert cfg_dtype in ["fp16", "bf16"], f"Unknown mixed precision {cfg_dtype}"
    dtype = to_torch_dtype(cfg.get("dtype", "bf16"))

    # == colossalai init distributed training ==
    # NOTE: A very large timeout is set to avoid some processes exit early
    if cfg.get('host'):
        colossalai.launch_from_openmpi(cfg.host, cfg.port)
    else:
        dist.init_process_group(backend="nccl", timeout=timedelta(minutes=5))
    torch.cuda.set_device(dist.get_rank() % torch.cuda.device_count())
    set_seed(cfg.get("seed", 1024))
    coordinator = DistCoordinator()
    device = get_current_device()

    # == init exp_dir ==
    model_name = None #'prior'
    exp_name, exp_dir = define_experiment_workspace(cfg, model_name=model_name)
    coordinator.block_all()
    if coordinator.is_master():
        os.makedirs(exp_dir, exist_ok=True)
        save_training_config(cfg.to_dict(), exp_dir)
    coordinator.block_all()
    save_total_limit = cfg.get("save_total_limit", None)

    # == init logger, tensorboard & wandb ==
    logger = create_logger(exp_dir)
    logger.info("Experiment directory created at %s", exp_dir)
    logger.info("Training configuration:\n %s", pformat(cfg.to_dict()))
    if coordinator.is_master():
        tb_writer = create_tensorboard_writer(exp_dir)
        if cfg.get("wandb", False):
            wandb.init(project="minisora", name=exp_name, config=cfg.to_dict(), dir="./outputs/wandb")

    # == init ColossalAI booster ==
    plugin = create_colossalai_plugin(
        plugin=cfg.get("plugin", "zero2"),
        dtype=cfg_dtype,
        grad_clip=cfg.get("grad_clip", 0),
        sp_size=cfg.get("sp_size", 1),
        reduce_bucket_size_in_m=cfg.get("reduce_bucket_size_in_m", 20),
    )
    booster = Booster(plugin=plugin)

    # ======================================================
    # 2. build dataset and dataloader
    # ======================================================
    logger.info("Building dataset...")

    # == load preprocessed data ==
    load_va_features = cfg.get('load_va_features', False)
    save_data = cfg.get('save_data', None)
    if save_data is not None:
        os.makedirs(save_data, exist_ok=True)
    
    # == build dataset ==
    dataset = build_module(cfg.dataset, DATASETS, audio_cfg=cfg.get("audio_cfg"),
                           load_data=cfg.get("load_data"))
    logger.info("Dataset contains %s samples.", len(dataset))

    # == build dataloader ==
    batch_size = cfg.get("batch_size", 1)
    dataloader_args = dict(
        dataset=dataset,
        batch_size=batch_size,
        num_workers=cfg.get("num_workers", 4),
        seed=cfg.get("seed", 1024),
        shuffle=True,
        drop_last=True,
        pin_memory=True,
        process_group=get_data_parallel_group(),
        prefetch_factor=cfg.get("prefetch_factor", None),
    )
    dataloader, sampler = prepare_dataloader(
        bucket_config=cfg.get("bucket_config", None),
        num_bucket_build_workers=cfg.get("num_bucket_build_workers", 1),
        **dataloader_args,
    )
    total_batch_size = batch_size * dist.get_world_size() // cfg.get("sp_size", 1)
    logger.info("Total batch size: %s", total_batch_size)
    num_steps_per_epoch = len(dataloader)

    # ======================================================
    # 3. build model
    # ======================================================
    logger.info("Building models...")
    
    # == build video vae model ==
    vae = build_module(cfg.get("vae", None), MODELS)
    if vae is not None:
        vae = vae.to(device, dtype).eval()
        vae_out_channels = vae.out_channels
    else:
        vae_out_channels = cfg.get("vae_out_channels", 4)

    # == build audio vae model ==
    audio_vae = build_module(cfg.audio_vae, MODELS, device=device, dtype=dtype)
    if audio_vae is None:
        audio_vae_out_channels = cfg.get('audio_vae_out_channels', 8)
    else:
        audio_vae_out_channels = audio_vae.vae_out_channels
    
    # == build st-prior model ==
    model = build_module(cfg.model, MODELS,
                         video_in_channel=vae_out_channels, 
                         audio_in_channel=audio_vae_out_channels,
                         ).to(device, dtype).train()
    model_numel, model_numel_trainable = get_model_numel(model)
    logger.info(
        "[ST-Prior] Trainable model params: %s, Total model params: %s",
        format_numel_str(model_numel_trainable),
        format_numel_str(model_numel),
    )

    # == setup prior optimizer ==
    optimizer = HybridAdam(
        filter(lambda p: p.requires_grad, model.parameters()),
        adamw_mode=True,
        lr=cfg.get("lr", 1e-5),
        weight_decay=cfg.get("weight_decay", 0),
        eps=cfg.get("adam_eps", 1e-8),
    )
    lr_scheduler = None

    # == additional preparation ==
    if cfg.get("grad_checkpoint", False):
        set_grad_checkpoint(model)
    if load_va_features:
        for m in [vae, audio_vae]:
            if m is None:
                del m
    torch.cuda.empty_cache()

    # =======================================================
    # 4. distributed training preparation with colossalai
    # =======================================================
    logger.info("Preparing for distributed training...")
    # == boosting ==
    # NOTE: we set dtype first to make initialization of model consistent with the dtype; then reset it to the fp32 as we make diffusion scheduler in fp32
    torch.set_default_dtype(dtype)
    model, optimizer, _, dataloader, lr_scheduler = booster.boost(
        model=model,
        optimizer=optimizer,
        lr_scheduler=lr_scheduler,
        dataloader=dataloader,
    )
    torch.set_default_dtype(torch.float)
    logger.info("Boosting model for distributed training")

    # == global variables ==
    cfg_epochs = cfg.get("epochs", 1000)
    start_epoch = start_step = log_step = sampler_start_idx = acc_step = 0
    running_loss = running_spatial_loss = running_temporal_loss = 0.0
    logger.info("Training for %s epochs with %s steps per epoch", cfg_epochs, num_steps_per_epoch)

    # == resume ==
    if cfg.get("load", None) is not None:
        logger.info("Loading checkpoint")
        start_epoch, start_step = load(
            booster,
            cfg.load,
            model=model,
            optimizer=optimizer,
            lr_scheduler=lr_scheduler,
            sampler=sampler,
        )
        dist.barrier()
        logger.info("Loaded checkpoint %s at epoch %s step %s", cfg.load, start_epoch, start_step)

    # =======================================================
    # 5. training loop
    # =======================================================
    dist.barrier()
    timers = {}
    timer_keys = ["load_data", "move_data", "encode", "forward", "backward"]
    for key in timer_keys:
        if record_time:
            timers[key] = Timer(key, coordinator=coordinator)
        else:
            timers[key] = nullcontext()
    for epoch in range(start_epoch, cfg_epochs):
        # == set dataloader to new epoch ==
        sampler.set_epoch(epoch)
        dataiter = iter(dataloader)
        logger.info("Beginning epoch %s...", epoch)

        # == training loop in an epoch ==
        with tqdm(
            enumerate(dataiter, start=start_step),
            desc=f"Epoch {epoch}",
            disable=not coordinator.is_master(),
            total=num_steps_per_epoch,
            initial=start_step,
        ) as pbar:
            for step, batch in pbar:
            # pbar = iter(pbar)
            # while True:
                timer_list = []
                # with timers["load_data"] as load_data_t:
                #     step, batch = next(pbar)
                # timer_list.append(load_data_t)
                
                bs = batch['video'].shape[0]
                neg_num = list(batch['neg_videos'].values())[0].shape[1]
                
                with timers["move_data"] as move_data_t:
                    vx = batch.pop("video").to(device, dtype)  # [B, C, T, H, W]
                    ax = batch.pop("audio").to(device, dtype)  # [B, 1, T, S]
                    # [BxN, C, T, H, W]
                    neg_vx = {aug_type: aug_vx.flatten(0, 1).to(device, dtype) \
                                for aug_type, aug_vx in batch.pop('neg_videos').items()}
                    # [BxN, 1, T, S]
                    neg_ax = {aug_type: aug_ax.flatten(0, 1).to(device, dtype) \
                                for aug_type, aug_ax in batch.pop('neg_audios').items()}
                timer_list.append(move_data_t)

                # # == mixed training setting ==
                # mixed_strategy = cfg.get("mixed_strategy", None)
                # if mixed_strategy == "mixed_video_image":
                #     if random.random() < cfg.get("mixed_image_ratio", 0.0):
                #         x = x[:, :, :1, :, :]
                # elif mixed_strategy == "mixed_video_random":
                #     length = random.randint(1, x.size(2))
                #     x = x[:, :, :length, :, :]

                # == vae encoding ==
                with timers["encode"] as encode_t:
                    if load_va_features:
                        vdims = vx.shape[1:]
                        neg_vx = {aug_type: aug_vx.view(bs, neg_num, *vdims) for \
                                        aug_type, aug_vx in neg_vx.items()}
                        adims = ax.shape[1:]
                        neg_ax = {aug_type: aug_ax.view(bs, neg_num, *adims) for \
                                        aug_type, aug_ax in neg_ax.items()}
                    else:
                        size_list = [vx.shape[0], *[v.shape[0] for v in neg_vx.values()]]
                        with torch.no_grad():
                            for x, neg_x, encode_func in \
                                    [[vx, neg_vx, vae.encode], [ax, neg_ax, audio_vae.encode_audio]]:
                                x = torch.cat([x, *list(neg_x.values())], dim=0)
                                x = encode_func(x)
                                x_list = x.split(size_list, dim=0)
                                dims = x_list[0].shape[1:]
                                for i, aug_type in enumerate(neg_x.keys()):
                                    neg_x[aug_type] = x_list[i+1].view(bs, neg_num, *dims)
                                neg_x['raw'] = x_list[0]
                        vx, ax = neg_vx.pop('raw'), neg_ax.pop('raw')
                timer_list.append(encode_t)

                # == prior extraction & loss calculation ==
                with timers["forward"] as forward_t:
                    text = batch.pop('text')
                    kwargs = {
                        'mode': 'calc_loss', 
                        'video': vx, 'audio': ax, 
                        'neg_videos': neg_vx, 'neg_audios': neg_ax,
                        'frame_width': batch.get('width'),
                        'frame_height': batch.get('height'),
                    }
                    if batch.get('onset', None) is not None:
                        kwargs.update({'onset': batch['onset'].to(device, dtype)})
                    prior_loss, log_dict = model(text, **kwargs)
                timer_list.append(forward_t)

                # == generator backward & update ==
                with timers["backward"] as backward_t:
                    optimizer.zero_grad()
                    booster.backward(loss=prior_loss, optimizer=optimizer)
                    optimizer.step()
                    all_reduce_mean(prior_loss)
                    running_loss += prior_loss.item()
                timer_list.append(backward_t)

                # == update log info ==
                global_step = epoch * num_steps_per_epoch + step
                log_step += 1
                acc_step += 1

                # == logging ==
                if coordinator.is_master() and (global_step + 1) % cfg.get("log_every", 1) == 0:
                    avg_loss = running_loss / log_step
                    # progress bar
                    # pbar.set_postfix({"loss": avg_loss, "step": step, "global_step": global_step})
                    logger.info({"loss": f'{avg_loss:.3f}','step': step, "global_step": global_step, \
                                    **{k: f'{v:.3f}' for k, v in log_dict.items()}})
                    # tensorboard
                    tb_writer.add_scalar("loss", prior_loss.item(), global_step)
                    for k, v in log_dict.items():
                        tb_writer.add_scalar(k, v, global_step)
                    # wandb
                    if cfg.wandb:
                        wandb.log(
                            {
                                "iter": global_step,
                                "num_samples": global_step * total_batch_size,
                                "epoch": epoch,
                                "loss": prior_loss.item(),
                                "avg_loss": avg_loss,
                                **log_dict,
                            },
                            step=global_step,
                        )
                    running_loss = 0.0
                    log_step = 0

                # == checkpoint saving ==
                ckpt_every = cfg.get("ckpt_every", 0)
                if ckpt_every > 0 and (global_step + 1) % ckpt_every == 0:
                    save(
                        booster,
                        exp_dir,
                        model=model,
                        optimizer=optimizer,
                        lr_scheduler=lr_scheduler,
                        epoch=epoch,
                        step=step + 1,
                        global_step=global_step + 1,
                        batch_size=cfg.get("batch_size", None),
                        sampler=sampler,
                    )
                    dist.barrier()

                    logger.info(
                        "Saved checkpoint at epoch %s step %s global_step %s to %s",
                        epoch,
                        step + 1,
                        global_step + 1,
                        exp_dir,
                    )

                    if dist.get_rank() == 0:
                        exp_dir_list = glob(os.path.join(exp_dir, 'epoch*-global_step*'))
                        exp_dir_list.sort(key=lambda x: int(re.search(r'global_step(\d+)', x).group(1)) if re.search(r'global_step(\d+)', x) else float('inf'))
                        if save_total_limit is not None and len(exp_dir_list) > save_total_limit:
                            checkpoint = exp_dir_list[0]
                            shutil.rmtree(checkpoint, ignore_errors=True)
                            logger.info(f"{checkpoint} has been deleted successfully as cfg.save_total_limit!")
                    dist.barrier()

                if record_time and dist.get_rank() == 0:
                    log_str = f"Rank {dist.get_rank()} | Epoch {epoch} | Step {step} | "
                    for timer in timer_list:
                        log_str += f"{timer.name}: {timer.elapsed_time:.3f}s | "
                    logger.info(log_str)
                
                if step >= num_steps_per_epoch:
                    break

        sampler.reset()
        start_step = 0


if __name__ == "__main__":
    main()