kaiw7 commited on Oct 22

Commit

552c598

verified ·

1 Parent(s): e490e7e

Add files using upload-large-folder tool

Browse files

Files changed (39) hide show

audio-only/000-Wan2_1_T2V_1_3B/config.txt +153 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch048-global_step52000/ema.pt +3 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch048-global_step52000/lr_scheduler +0 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch048-global_step52000/model/pytorch_model-00001.bin +3 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch048-global_step52000/model/pytorch_model-00002.bin +3 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch048-global_step52000/model/pytorch_model-00003.bin +3 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch048-global_step52000/model/pytorch_model.bin.index.json +864 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch048-global_step52000/optimizer/pytorch_optim-00001.bin +3 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch048-global_step52000/optimizer/pytorch_optim-00002.bin +3 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch048-global_step52000/optimizer/pytorch_optim.bin.index.json +165 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch048-global_step52000/optimizer/pytorch_optim_group.bin +3 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch048-global_step52000/running_states.json +6 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch048-global_step52000/sampler +0 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53000/ema.pt +3 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53000/lr_scheduler +0 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53000/model/pytorch_model-00001.bin +3 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53000/model/pytorch_model-00002.bin +3 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53000/model/pytorch_model-00003.bin +3 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53000/model/pytorch_model.bin.index.json +864 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53000/optimizer/pytorch_optim-00001.bin +3 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53000/optimizer/pytorch_optim-00002.bin +3 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53000/optimizer/pytorch_optim.bin.index.json +165 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53000/optimizer/pytorch_optim_group.bin +3 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53000/running_states.json +6 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53000/sampler +0 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53650/ema.pt +3 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53650/lr_scheduler +0 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53650/model/pytorch_model-00001.bin +3 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53650/model/pytorch_model-00002.bin +3 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53650/model/pytorch_model-00003.bin +3 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53650/model/pytorch_model.bin.index.json +864 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53650/optimizer/pytorch_optim-00001.bin +3 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53650/optimizer/pytorch_optim-00002.bin +3 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53650/optimizer/pytorch_optim.bin.index.json +165 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53650/optimizer/pytorch_optim_group.bin +3 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53650/running_states.json +6 -0
audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53650/sampler +0 -0
audio-only/000-Wan2_1_T2V_1_3B/log.txt +0 -0
audio-only/000-Wan2_1_T2V_1_3B/tensorboard/events.out.tfevents.1760758333.c0f6c83c-35.cloud.together.ai.2607279.0 +3 -0

audio-only/000-Wan2_1_T2V_1_3B/config.txt ADDED Viewed

	@@ -0,0 +1,153 @@

+{
+    "audio_only": true,
+    "dataset": {
+        "type": "VariableVideoAudioTextDataset",
+        "transform_name": "resize_crop",
+        "audio_transform_name": "mel_spec_audioldm2",
+        "audio_only": true,
+        "default_video_fps": 24,
+        "data_path": "/data/yikai/mocha/pr/audio/alan/datasets/JAV-Audio-Data/JavisDiT_train_audio_v1.csv"
+    },
+    "bucket_config": {
+        "144p": {
+            "33": [
+                1.0,
+                128
+            ],
+            "65": [
+                [
+                    1.0,
+                    0.5
+                ],
+                96
+            ],
+            "97": [
+                [
+                    1.0,
+                    0.3
+                ],
+                80
+            ],
+            "129": [
+                [
+                    1.0,
+                    0.2
+                ],
+                64
+            ]
+        }
+    },
+    "grad_checkpoint": true,
+    "num_workers": 16,
+    "num_bucket_build_workers": 8,
+    "dtype": "bf16",
+    "plugin": "zero2",
+    "weight_root": "/data/yikai/mocha/pr/audio/alan/projects/pretrained_weights",
+    "model": {
+        "type": "Wan2_1_T2V_1_3B",
+        "weight_init_from": "/data/yikai/mocha/pr/audio/alan/projects/pretrained_weights/Wan2.1-T2V-1.3B/diffusion_pytorch_model.safetensors",
+        "model_type": "t2a",
+        "patch_size": [
+            1,
+            2,
+            2
+        ],
+        "dim": 1536,
+        "ffn_dim": 8960,
+        "freq_dim": 256,
+        "num_heads": 12,
+        "num_layers": 30,
+        "window_size": [
+            -1,
+            -1
+        ],
+        "qk_norm": true,
+        "cross_attn_norm": true,
+        "audio_patch_size": [
+            2,
+            2
+        ],
+        "audio_in_dim": 8,
+        "audio_out_dim": 8,
+        "audio_special_token": false,
+        "train_audio_specific_blocks": true,
+        "dual_ffn": true,
+        "init_from_video_branch": true,
+        "class_drop_prob": 0.1,
+        "audio_pe_type": "interleave_window_offset",
+        "audio_patch_type": "patch_2d"
+    },
+    "vae": {
+        "type": "Wan2_1_T2V_1_3B_VAE",
+        "from_pretrained": "/data/yikai/mocha/pr/audio/alan/projects/pretrained_weights/Wan2.1-T2V-1.3B",
+        "vae_checkpoint": "Wan2.1_VAE.pth",
+        "vae_stride": [
+            4,
+            8,
+            8
+        ]
+    },
+    "audio_vae": {
+        "type": "AudioLDM2",
+        "from_pretrained": "/data/yikai/mocha/pr/audio/alan/projects/pretrained_weights/audioldm2"
+    },
+    "text_encoder": {
+        "type": "Wan2_1_T2V_1_3B_t5_umt5",
+        "from_pretrained": "/data/yikai/mocha/pr/audio/alan/projects/pretrained_weights/Wan2.1-T2V-1.3B",
+        "t5_checkpoint": "models_t5_umt5-xxl-enc-bf16.pth",
+        "t5_tokenizer": "google/umt5-xxl",
+        "text_len": 512
+    },
+    "scheduler": {
+        "type": "rflow",
+        "use_timestep_transform": true,
+        "sample_method": "logit-normal",
+        "num_sampling_steps": 50,
+        "transform_scale": 5.0
+    },
+    "aes": null,
+    "flow": null,
+    "neg_prompt": "\u8272\u8c03\u8273\u4e3d\uff0c\u8fc7\u66dd\uff0c\u9759\u6001\uff0c\u7ec6\u8282\u6a21\u7cca\u4e0d\u6e05\uff0c\u5b57\u5e55\uff0c\u98ce\u683c\uff0c\u4f5c\u54c1\uff0c\u753b\u4f5c\uff0c\u753b\u9762\uff0c\u9759\u6b62\uff0c\u6574\u4f53\u53d1\u7070\uff0c\u6700\u5dee\u8d28\u91cf\uff0c\u4f4e\u8d28\u91cf\uff0cJPEG\u538b\u7f29\u6b8b\u7559\uff0c\u4e11\u964b\u7684\uff0c\u6b8b\u7f3a\u7684\uff0c\u591a\u4f59\u7684\u624b\u6307\uff0c\u753b\u5f97\u4e0d\u597d\u7684\u624b\u90e8\uff0c\u753b\u5f97\u4e0d\u597d\u7684\u8138\u90e8\uff0c\u7578\u5f62\u7684\uff0c\u6bc1\u5bb9\u7684\uff0c\u5f62\u6001\u7578\u5f62\u7684\u80a2\u4f53\uff0c\u624b\u6307\u878d\u5408\uff0c\u9759\u6b62\u4e0d\u52a8\u7684\u753b\u9762\uff0c\u6742\u4e71\u7684\u80cc\u666f\uff0c\u4e09\u6761\u817f\uff0c\u80cc\u666f\u4eba\u5f88\u591a\uff0c\u5012\u7740\u8d70\uff0c\u4f4e\u97f3\u8d28\uff0c\u5dee\u97f3\u8d28\uff0c\u6700\u5dee\u97f3\u8d28\uff0c\u566a\u97f3\uff0c\u5931\u771f\u7684\uff0c\u7834\u97f3\uff0c\u524a\u6ce2\u5931\u771f\uff0c\u6570\u5b57\u7455\u75b5\uff0c\u58f0\u97f3\u6545\u969c\uff0c\u4e0d\u81ea\u7136\u7684\uff0c\u523a\u8033\u7684\uff0c\u5c16\u9510\u7684\uff0c\u5e95\u566a\uff0c\u8fc7\u591a\u6df7\u54cd\uff0c\u8fc7\u591a\u56de\u58f0\uff0c\u7a81\u5140\u7684\u526a\u8f91\uff0c\u4e0d\u81ea\u7136\u7684\u6de1\u51fa\uff0c\u5f55\u97f3\u8d28\u91cf\u5dee\uff0c\u4e1a\u4f59\u5f55\u97f3",
+    "lora_enabled": false,
+    "seed": 42,
+    "outputs": "outputs/audio-only",
+    "wandb": false,
+    "epochs": 50,
+    "log_every": 10,
+    "ckpt_every": 1000,
+    "save_total_limit": 2,
+    "load": null,
+    "grad_clip": 1.0,
+    "lr": 0.0001,
+    "ema_decay": 0.99,
+    "adam_eps": 1e-15,
+    "warmup_steps": 1000,
+    "sampling_rate": 16000,
+    "mel_bins": 64,
+    "audio_cfg": {
+        "preprocessing": {
+            "audio": {
+                "sampling_rate": 16000,
+                "max_wav_value": 32768.0,
+                "duration": 10.24,
+                "scale_factor": 8
+            },
+            "stft": {
+                "filter_length": 1024,
+                "hop_length": 160,
+                "win_length": 1024
+            },
+            "mel": {
+                "n_mel_channels": 64,
+                "mel_fmin": 0,
+                "mel_fmax": 8000
+            }
+        },
+        "augmentation": {
+            "mixup": 0.0
+        }
+    },
+    "config": "configs/wan2.1/train/stage1_audio.py",
+    "lora_dir": "lora",
+    "port": 29500
+}

audio-only/000-Wan2_1_T2V_1_3B/epoch048-global_step52000/ema.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:27e7e8efc3feb0d5a37b7ca80bd50e767432f19b6b6fac11467a9a7a88604bdf
+size 5704739068

audio-only/000-Wan2_1_T2V_1_3B/epoch048-global_step52000/lr_scheduler ADDED Viewed

Binary file (1.01 kB). View file

audio-only/000-Wan2_1_T2V_1_3B/epoch048-global_step52000/model/pytorch_model-00001.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cafc0ed6f38219dceba38ff466caf945e4d0a2bda65c6e5ef9f9eabc0cbc8375
+size 1059881014

audio-only/000-Wan2_1_T2V_1_3B/epoch048-global_step52000/model/pytorch_model-00002.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dd2a01fd41a7cf0faf79824104bcee54d47d0e7f1ab4dbf10858b44d40f1db56
+size 1073076766

audio-only/000-Wan2_1_T2V_1_3B/epoch048-global_step52000/model/pytorch_model-00003.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d3cb636158d485ef7ca185b1a4a2fef928e92a4dc10f543db761fe6ce5b56a8
+size 719552332

audio-only/000-Wan2_1_T2V_1_3B/epoch048-global_step52000/model/pytorch_model.bin.index.json ADDED Viewed

	@@ -0,0 +1,864 @@

+{
+  "metadata": {
+    "total_size": 2720.1065063476562
+  },
+  "weight_map": {
+    "audio_patch_embedding.weight": "pytorch_model-00001.bin",
+    "audio_patch_embedding.bias": "pytorch_model-00001.bin",
+    "audio_head.modulation": "pytorch_model-00001.bin",
+    "audio_head.head.weight": "pytorch_model-00001.bin",
+    "audio_head.head.bias": "pytorch_model-00001.bin",
+    "text_embedding.0.weight": "pytorch_model-00001.bin",
+    "text_embedding.0.bias": "pytorch_model-00001.bin",
+    "text_embedding.2.weight": "pytorch_model-00001.bin",
+    "text_embedding.2.bias": "pytorch_model-00001.bin",
+    "time_embedding.0.weight": "pytorch_model-00001.bin",
+    "time_embedding.0.bias": "pytorch_model-00001.bin",
+    "time_embedding.2.weight": "pytorch_model-00001.bin",
+    "time_embedding.2.bias": "pytorch_model-00001.bin",
+    "time_projection.1.weight": "pytorch_model-00001.bin",
+    "time_projection.1.bias": "pytorch_model-00001.bin",
+    "audio_time_projection.1.weight": "pytorch_model-00001.bin",
+    "audio_time_projection.1.bias": "pytorch_model-00001.bin",
+    "blocks.0.modulation": "pytorch_model-00001.bin",
+    "blocks.0.self_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.0.self_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.0.self_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.0.self_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.0.self_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.0.self_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.0.self_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.0.self_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.0.self_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.0.self_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.0.norm3.weight": "pytorch_model-00001.bin",
+    "blocks.0.norm3.bias": "pytorch_model-00001.bin",
+    "blocks.0.cross_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.0.cross_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.0.cross_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.0.cross_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.0.cross_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.0.cross_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.0.cross_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.0.cross_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.0.cross_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.0.cross_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.0.audio_ffn.0.weight": "pytorch_model-00001.bin",
+    "blocks.0.audio_ffn.0.bias": "pytorch_model-00001.bin",
+    "blocks.0.audio_ffn.2.weight": "pytorch_model-00001.bin",
+    "blocks.0.audio_ffn.2.bias": "pytorch_model-00001.bin",
+    "blocks.0.audio_modulation.param": "pytorch_model-00001.bin",
+    "blocks.1.modulation": "pytorch_model-00001.bin",
+    "blocks.1.self_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.1.self_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.1.self_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.1.self_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.1.self_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.1.self_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.1.self_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.1.self_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.1.self_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.1.self_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.1.norm3.weight": "pytorch_model-00001.bin",
+    "blocks.1.norm3.bias": "pytorch_model-00001.bin",
+    "blocks.1.cross_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.1.cross_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.1.cross_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.1.cross_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.1.cross_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.1.cross_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.1.cross_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.1.cross_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.1.cross_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.1.cross_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.1.audio_ffn.0.weight": "pytorch_model-00001.bin",
+    "blocks.1.audio_ffn.0.bias": "pytorch_model-00001.bin",
+    "blocks.1.audio_ffn.2.weight": "pytorch_model-00001.bin",
+    "blocks.1.audio_ffn.2.bias": "pytorch_model-00001.bin",
+    "blocks.1.audio_modulation.param": "pytorch_model-00001.bin",
+    "blocks.2.modulation": "pytorch_model-00001.bin",
+    "blocks.2.self_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.2.self_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.2.self_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.2.self_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.2.self_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.2.self_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.2.self_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.2.self_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.2.self_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.2.self_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.2.norm3.weight": "pytorch_model-00001.bin",
+    "blocks.2.norm3.bias": "pytorch_model-00001.bin",
+    "blocks.2.cross_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.2.cross_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.2.cross_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.2.cross_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.2.cross_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.2.cross_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.2.cross_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.2.cross_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.2.cross_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.2.cross_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.2.audio_ffn.0.weight": "pytorch_model-00001.bin",
+    "blocks.2.audio_ffn.0.bias": "pytorch_model-00001.bin",
+    "blocks.2.audio_ffn.2.weight": "pytorch_model-00001.bin",
+    "blocks.2.audio_ffn.2.bias": "pytorch_model-00001.bin",
+    "blocks.2.audio_modulation.param": "pytorch_model-00001.bin",
+    "blocks.3.modulation": "pytorch_model-00001.bin",
+    "blocks.3.self_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.3.self_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.3.self_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.3.self_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.3.self_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.3.self_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.3.self_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.3.self_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.3.self_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.3.self_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.3.norm3.weight": "pytorch_model-00001.bin",
+    "blocks.3.norm3.bias": "pytorch_model-00001.bin",
+    "blocks.3.cross_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.3.cross_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.3.cross_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.3.cross_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.3.cross_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.3.cross_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.3.cross_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.3.cross_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.3.cross_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.3.cross_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.3.audio_ffn.0.weight": "pytorch_model-00001.bin",
+    "blocks.3.audio_ffn.0.bias": "pytorch_model-00001.bin",
+    "blocks.3.audio_ffn.2.weight": "pytorch_model-00001.bin",
+    "blocks.3.audio_ffn.2.bias": "pytorch_model-00001.bin",
+    "blocks.3.audio_modulation.param": "pytorch_model-00001.bin",
+    "blocks.4.modulation": "pytorch_model-00001.bin",
+    "blocks.4.self_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.4.self_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.4.self_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.4.self_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.4.self_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.4.self_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.4.self_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.4.self_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.4.self_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.4.self_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.4.norm3.weight": "pytorch_model-00001.bin",
+    "blocks.4.norm3.bias": "pytorch_model-00001.bin",
+    "blocks.4.cross_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.4.cross_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.4.cross_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.4.cross_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.4.cross_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.4.cross_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.4.cross_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.4.cross_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.4.cross_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.4.cross_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.4.audio_ffn.0.weight": "pytorch_model-00001.bin",
+    "blocks.4.audio_ffn.0.bias": "pytorch_model-00001.bin",
+    "blocks.4.audio_ffn.2.weight": "pytorch_model-00001.bin",
+    "blocks.4.audio_ffn.2.bias": "pytorch_model-00001.bin",
+    "blocks.4.audio_modulation.param": "pytorch_model-00001.bin",
+    "blocks.5.modulation": "pytorch_model-00001.bin",
+    "blocks.5.self_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.5.self_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.5.self_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.5.self_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.5.self_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.5.self_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.5.self_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.5.self_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.5.self_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.5.self_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.5.norm3.weight": "pytorch_model-00001.bin",
+    "blocks.5.norm3.bias": "pytorch_model-00001.bin",
+    "blocks.5.cross_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.5.cross_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.5.cross_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.5.cross_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.5.cross_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.5.cross_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.5.cross_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.5.cross_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.5.cross_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.5.cross_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.5.audio_ffn.0.weight": "pytorch_model-00001.bin",
+    "blocks.5.audio_ffn.0.bias": "pytorch_model-00001.bin",
+    "blocks.5.audio_ffn.2.weight": "pytorch_model-00001.bin",
+    "blocks.5.audio_ffn.2.bias": "pytorch_model-00001.bin",
+    "blocks.5.audio_modulation.param": "pytorch_model-00001.bin",
+    "blocks.6.modulation": "pytorch_model-00001.bin",
+    "blocks.6.self_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.6.self_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.6.self_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.6.self_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.6.self_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.6.self_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.6.self_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.6.self_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.6.self_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.6.self_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.6.norm3.weight": "pytorch_model-00001.bin",
+    "blocks.6.norm3.bias": "pytorch_model-00001.bin",
+    "blocks.6.cross_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.6.cross_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.6.cross_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.6.cross_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.6.cross_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.6.cross_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.6.cross_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.6.cross_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.6.cross_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.6.cross_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.6.audio_ffn.0.weight": "pytorch_model-00001.bin",
+    "blocks.6.audio_ffn.0.bias": "pytorch_model-00001.bin",
+    "blocks.6.audio_ffn.2.weight": "pytorch_model-00001.bin",
+    "blocks.6.audio_ffn.2.bias": "pytorch_model-00001.bin",
+    "blocks.6.audio_modulation.param": "pytorch_model-00001.bin",
+    "blocks.7.modulation": "pytorch_model-00001.bin",
+    "blocks.7.self_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.7.self_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.7.self_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.7.self_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.7.self_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.7.self_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.7.self_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.7.self_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.7.self_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.7.self_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.7.norm3.weight": "pytorch_model-00001.bin",
+    "blocks.7.norm3.bias": "pytorch_model-00001.bin",
+    "blocks.7.cross_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.7.cross_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.7.cross_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.7.cross_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.7.cross_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.7.cross_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.7.cross_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.7.cross_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.7.cross_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.7.cross_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.7.audio_ffn.0.weight": "pytorch_model-00001.bin",
+    "blocks.7.audio_ffn.0.bias": "pytorch_model-00001.bin",
+    "blocks.7.audio_ffn.2.weight": "pytorch_model-00001.bin",
+    "blocks.7.audio_ffn.2.bias": "pytorch_model-00001.bin",
+    "blocks.7.audio_modulation.param": "pytorch_model-00001.bin",
+    "blocks.8.modulation": "pytorch_model-00001.bin",
+    "blocks.8.self_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.8.self_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.8.self_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.8.self_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.8.self_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.8.self_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.8.self_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.8.self_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.8.self_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.8.self_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.8.norm3.weight": "pytorch_model-00001.bin",
+    "blocks.8.norm3.bias": "pytorch_model-00001.bin",
+    "blocks.8.cross_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.8.cross_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.8.cross_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.8.cross_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.8.cross_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.8.cross_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.8.cross_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.8.cross_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.8.cross_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.8.cross_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.8.audio_ffn.0.weight": "pytorch_model-00001.bin",
+    "blocks.8.audio_ffn.0.bias": "pytorch_model-00001.bin",
+    "blocks.8.audio_ffn.2.weight": "pytorch_model-00001.bin",
+    "blocks.8.audio_ffn.2.bias": "pytorch_model-00001.bin",
+    "blocks.8.audio_modulation.param": "pytorch_model-00001.bin",
+    "blocks.9.modulation": "pytorch_model-00001.bin",
+    "blocks.9.self_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.9.self_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.9.self_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.9.self_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.9.self_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.9.self_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.9.self_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.9.self_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.9.self_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.9.self_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.9.norm3.weight": "pytorch_model-00001.bin",
+    "blocks.9.norm3.bias": "pytorch_model-00001.bin",
+    "blocks.9.cross_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.9.cross_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.9.cross_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.9.cross_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.9.cross_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.9.cross_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.9.cross_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.9.cross_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.9.cross_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.9.cross_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.9.audio_ffn.0.weight": "pytorch_model-00001.bin",
+    "blocks.9.audio_ffn.0.bias": "pytorch_model-00001.bin",
+    "blocks.9.audio_ffn.2.weight": "pytorch_model-00001.bin",
+    "blocks.9.audio_ffn.2.bias": "pytorch_model-00001.bin",
+    "blocks.9.audio_modulation.param": "pytorch_model-00001.bin",
+    "blocks.10.modulation": "pytorch_model-00001.bin",
+    "blocks.10.self_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.10.self_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.10.self_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.10.self_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.10.self_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.10.self_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.10.self_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.10.self_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.10.self_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.10.self_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.10.norm3.weight": "pytorch_model-00001.bin",
+    "blocks.10.norm3.bias": "pytorch_model-00001.bin",
+    "blocks.10.cross_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.10.cross_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.10.cross_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.10.cross_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.10.cross_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.10.cross_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.10.cross_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.10.cross_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.10.cross_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.10.cross_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.10.audio_ffn.0.weight": "pytorch_model-00001.bin",
+    "blocks.10.audio_ffn.0.bias": "pytorch_model-00001.bin",
+    "blocks.10.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.10.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.10.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.11.modulation": "pytorch_model-00002.bin",
+    "blocks.11.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.11.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.11.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.11.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.11.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.11.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.11.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.11.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.11.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.11.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.11.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.11.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.11.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.11.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.11.cross_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.11.cross_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.11.cross_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.11.cross_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.11.cross_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.11.cross_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.11.cross_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.11.cross_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.11.audio_ffn.0.weight": "pytorch_model-00002.bin",
+    "blocks.11.audio_ffn.0.bias": "pytorch_model-00002.bin",
+    "blocks.11.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.11.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.11.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.12.modulation": "pytorch_model-00002.bin",
+    "blocks.12.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.12.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.12.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.12.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.12.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.12.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.12.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.12.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.12.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.12.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.12.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.12.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.12.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.12.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.12.cross_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.12.cross_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.12.cross_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.12.cross_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.12.cross_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.12.cross_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.12.cross_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.12.cross_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.12.audio_ffn.0.weight": "pytorch_model-00002.bin",
+    "blocks.12.audio_ffn.0.bias": "pytorch_model-00002.bin",
+    "blocks.12.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.12.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.12.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.13.modulation": "pytorch_model-00002.bin",
+    "blocks.13.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.13.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.13.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.13.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.13.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.13.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.13.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.13.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.13.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.13.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.13.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.13.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.13.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.13.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.13.cross_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.13.cross_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.13.cross_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.13.cross_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.13.cross_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.13.cross_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.13.cross_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.13.cross_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.13.audio_ffn.0.weight": "pytorch_model-00002.bin",
+    "blocks.13.audio_ffn.0.bias": "pytorch_model-00002.bin",
+    "blocks.13.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.13.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.13.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.14.modulation": "pytorch_model-00002.bin",
+    "blocks.14.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.14.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.14.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.14.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.14.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.14.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.14.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.14.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.14.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.14.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.14.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.14.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.14.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.14.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.14.cross_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.14.cross_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.14.cross_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.14.cross_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.14.cross_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.14.cross_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.14.cross_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.14.cross_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.14.audio_ffn.0.weight": "pytorch_model-00002.bin",
+    "blocks.14.audio_ffn.0.bias": "pytorch_model-00002.bin",
+    "blocks.14.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.14.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.14.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.15.modulation": "pytorch_model-00002.bin",
+    "blocks.15.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.15.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.15.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.15.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.15.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.15.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.15.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.15.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.15.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.15.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.15.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.15.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.15.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.15.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.15.cross_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.15.cross_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.15.cross_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.15.cross_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.15.cross_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.15.cross_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.15.cross_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.15.cross_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.15.audio_ffn.0.weight": "pytorch_model-00002.bin",
+    "blocks.15.audio_ffn.0.bias": "pytorch_model-00002.bin",
+    "blocks.15.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.15.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.15.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.16.modulation": "pytorch_model-00002.bin",
+    "blocks.16.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.16.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.16.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.16.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.16.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.16.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.16.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.16.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.16.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.16.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.16.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.16.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.16.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.16.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.16.cross_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.16.cross_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.16.cross_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.16.cross_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.16.cross_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.16.cross_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.16.cross_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.16.cross_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.16.audio_ffn.0.weight": "pytorch_model-00002.bin",
+    "blocks.16.audio_ffn.0.bias": "pytorch_model-00002.bin",
+    "blocks.16.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.16.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.16.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.17.modulation": "pytorch_model-00002.bin",
+    "blocks.17.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.17.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.17.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.17.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.17.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.17.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.17.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.17.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.17.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.17.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.17.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.17.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.17.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.17.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.17.cross_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.17.cross_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.17.cross_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.17.cross_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.17.cross_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.17.cross_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.17.cross_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.17.cross_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.17.audio_ffn.0.weight": "pytorch_model-00002.bin",
+    "blocks.17.audio_ffn.0.bias": "pytorch_model-00002.bin",
+    "blocks.17.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.17.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.17.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.18.modulation": "pytorch_model-00002.bin",
+    "blocks.18.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.18.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.18.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.18.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.18.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.18.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.18.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.18.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.18.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.18.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.18.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.18.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.18.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.18.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.18.cross_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.18.cross_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.18.cross_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.18.cross_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.18.cross_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.18.cross_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.18.cross_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.18.cross_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.18.audio_ffn.0.weight": "pytorch_model-00002.bin",
+    "blocks.18.audio_ffn.0.bias": "pytorch_model-00002.bin",
+    "blocks.18.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.18.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.18.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.19.modulation": "pytorch_model-00002.bin",
+    "blocks.19.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.19.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.19.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.19.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.19.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.19.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.19.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.19.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.19.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.19.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.19.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.19.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.19.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.19.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.19.cross_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.19.cross_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.19.cross_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.19.cross_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.19.cross_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.19.cross_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.19.cross_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.19.cross_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.19.audio_ffn.0.weight": "pytorch_model-00002.bin",
+    "blocks.19.audio_ffn.0.bias": "pytorch_model-00002.bin",
+    "blocks.19.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.19.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.19.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.20.modulation": "pytorch_model-00002.bin",
+    "blocks.20.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.20.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.20.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.20.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.20.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.20.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.20.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.20.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.20.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.20.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.20.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.20.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.20.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.20.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.20.cross_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.20.cross_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.20.cross_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.20.cross_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.20.cross_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.20.cross_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.20.cross_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.20.cross_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.20.audio_ffn.0.weight": "pytorch_model-00002.bin",
+    "blocks.20.audio_ffn.0.bias": "pytorch_model-00002.bin",
+    "blocks.20.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.20.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.20.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.21.modulation": "pytorch_model-00002.bin",
+    "blocks.21.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.21.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.21.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.21.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.21.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.21.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.21.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.21.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.21.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.21.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.21.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.21.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.21.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.21.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.21.cross_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.21.cross_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.21.cross_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.21.cross_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.21.cross_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.21.cross_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.21.cross_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.21.cross_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.21.audio_ffn.0.weight": "pytorch_model-00002.bin",
+    "blocks.21.audio_ffn.0.bias": "pytorch_model-00002.bin",
+    "blocks.21.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.21.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.21.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.22.modulation": "pytorch_model-00002.bin",
+    "blocks.22.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.22.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.22.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.22.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.22.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.22.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.22.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.22.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.22.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.22.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.22.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.22.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.22.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.22.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.22.cross_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.22.cross_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.22.cross_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.22.cross_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.22.cross_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.22.cross_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.22.cross_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.22.cross_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.22.audio_ffn.0.weight": "pytorch_model-00003.bin",
+    "blocks.22.audio_ffn.0.bias": "pytorch_model-00003.bin",
+    "blocks.22.audio_ffn.2.weight": "pytorch_model-00003.bin",
+    "blocks.22.audio_ffn.2.bias": "pytorch_model-00003.bin",
+    "blocks.22.audio_modulation.param": "pytorch_model-00003.bin",
+    "blocks.23.modulation": "pytorch_model-00003.bin",
+    "blocks.23.self_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.23.self_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.23.self_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.23.self_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.23.self_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.23.self_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.23.self_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.23.self_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.23.self_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.23.self_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.23.norm3.weight": "pytorch_model-00003.bin",
+    "blocks.23.norm3.bias": "pytorch_model-00003.bin",
+    "blocks.23.cross_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.23.cross_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.23.cross_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.23.cross_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.23.cross_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.23.cross_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.23.cross_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.23.cross_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.23.cross_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.23.cross_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.23.audio_ffn.0.weight": "pytorch_model-00003.bin",
+    "blocks.23.audio_ffn.0.bias": "pytorch_model-00003.bin",
+    "blocks.23.audio_ffn.2.weight": "pytorch_model-00003.bin",
+    "blocks.23.audio_ffn.2.bias": "pytorch_model-00003.bin",
+    "blocks.23.audio_modulation.param": "pytorch_model-00003.bin",
+    "blocks.24.modulation": "pytorch_model-00003.bin",
+    "blocks.24.self_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.24.self_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.24.self_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.24.self_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.24.self_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.24.self_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.24.self_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.24.self_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.24.self_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.24.self_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.24.norm3.weight": "pytorch_model-00003.bin",
+    "blocks.24.norm3.bias": "pytorch_model-00003.bin",
+    "blocks.24.cross_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.24.cross_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.24.cross_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.24.cross_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.24.cross_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.24.cross_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.24.cross_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.24.cross_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.24.cross_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.24.cross_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.24.audio_ffn.0.weight": "pytorch_model-00003.bin",
+    "blocks.24.audio_ffn.0.bias": "pytorch_model-00003.bin",
+    "blocks.24.audio_ffn.2.weight": "pytorch_model-00003.bin",
+    "blocks.24.audio_ffn.2.bias": "pytorch_model-00003.bin",
+    "blocks.24.audio_modulation.param": "pytorch_model-00003.bin",
+    "blocks.25.modulation": "pytorch_model-00003.bin",
+    "blocks.25.self_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.25.self_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.25.self_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.25.self_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.25.self_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.25.self_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.25.self_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.25.self_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.25.self_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.25.self_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.25.norm3.weight": "pytorch_model-00003.bin",
+    "blocks.25.norm3.bias": "pytorch_model-00003.bin",
+    "blocks.25.cross_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.25.cross_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.25.cross_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.25.cross_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.25.cross_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.25.cross_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.25.cross_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.25.cross_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.25.cross_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.25.cross_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.25.audio_ffn.0.weight": "pytorch_model-00003.bin",
+    "blocks.25.audio_ffn.0.bias": "pytorch_model-00003.bin",
+    "blocks.25.audio_ffn.2.weight": "pytorch_model-00003.bin",
+    "blocks.25.audio_ffn.2.bias": "pytorch_model-00003.bin",
+    "blocks.25.audio_modulation.param": "pytorch_model-00003.bin",
+    "blocks.26.modulation": "pytorch_model-00003.bin",
+    "blocks.26.self_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.26.self_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.26.self_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.26.self_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.26.self_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.26.self_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.26.self_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.26.self_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.26.self_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.26.self_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.26.norm3.weight": "pytorch_model-00003.bin",
+    "blocks.26.norm3.bias": "pytorch_model-00003.bin",
+    "blocks.26.cross_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.26.cross_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.26.cross_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.26.cross_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.26.cross_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.26.cross_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.26.cross_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.26.cross_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.26.cross_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.26.cross_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.26.audio_ffn.0.weight": "pytorch_model-00003.bin",
+    "blocks.26.audio_ffn.0.bias": "pytorch_model-00003.bin",
+    "blocks.26.audio_ffn.2.weight": "pytorch_model-00003.bin",
+    "blocks.26.audio_ffn.2.bias": "pytorch_model-00003.bin",
+    "blocks.26.audio_modulation.param": "pytorch_model-00003.bin",
+    "blocks.27.modulation": "pytorch_model-00003.bin",
+    "blocks.27.self_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.27.self_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.27.self_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.27.self_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.27.self_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.27.self_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.27.self_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.27.self_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.27.self_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.27.self_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.27.norm3.weight": "pytorch_model-00003.bin",
+    "blocks.27.norm3.bias": "pytorch_model-00003.bin",
+    "blocks.27.cross_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.27.cross_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.27.cross_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.27.cross_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.27.cross_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.27.cross_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.27.cross_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.27.cross_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.27.cross_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.27.cross_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.27.audio_ffn.0.weight": "pytorch_model-00003.bin",
+    "blocks.27.audio_ffn.0.bias": "pytorch_model-00003.bin",
+    "blocks.27.audio_ffn.2.weight": "pytorch_model-00003.bin",
+    "blocks.27.audio_ffn.2.bias": "pytorch_model-00003.bin",
+    "blocks.27.audio_modulation.param": "pytorch_model-00003.bin",
+    "blocks.28.modulation": "pytorch_model-00003.bin",
+    "blocks.28.self_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.28.self_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.28.self_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.28.self_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.28.self_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.28.self_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.28.self_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.28.self_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.28.self_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.28.self_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.28.norm3.weight": "pytorch_model-00003.bin",
+    "blocks.28.norm3.bias": "pytorch_model-00003.bin",
+    "blocks.28.cross_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.28.cross_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.28.cross_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.28.cross_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.28.cross_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.28.cross_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.28.cross_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.28.cross_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.28.cross_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.28.cross_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.28.audio_ffn.0.weight": "pytorch_model-00003.bin",
+    "blocks.28.audio_ffn.0.bias": "pytorch_model-00003.bin",
+    "blocks.28.audio_ffn.2.weight": "pytorch_model-00003.bin",
+    "blocks.28.audio_ffn.2.bias": "pytorch_model-00003.bin",
+    "blocks.28.audio_modulation.param": "pytorch_model-00003.bin",
+    "blocks.29.modulation": "pytorch_model-00003.bin",
+    "blocks.29.self_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.29.self_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.29.self_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.29.self_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.29.self_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.29.self_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.29.self_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.29.self_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.29.self_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.29.self_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.29.norm3.weight": "pytorch_model-00003.bin",
+    "blocks.29.norm3.bias": "pytorch_model-00003.bin",
+    "blocks.29.cross_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.29.cross_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.29.cross_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.29.cross_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.29.cross_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.29.cross_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.29.cross_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.29.cross_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.29.cross_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.29.cross_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.29.audio_ffn.0.weight": "pytorch_model-00003.bin",
+    "blocks.29.audio_ffn.0.bias": "pytorch_model-00003.bin",
+    "blocks.29.audio_ffn.2.weight": "pytorch_model-00003.bin",
+    "blocks.29.audio_ffn.2.bias": "pytorch_model-00003.bin",
+    "blocks.29.audio_modulation.param": "pytorch_model-00003.bin"
+  }
+}

audio-only/000-Wan2_1_T2V_1_3B/epoch048-global_step52000/optimizer/pytorch_optim-00001.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:de07ff4727b96991e2e5a2173c6bf1e90ba1b052455cc26b113cf97dcb0fa165
+size 4243656922

audio-only/000-Wan2_1_T2V_1_3B/epoch048-global_step52000/optimizer/pytorch_optim-00002.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6e2458b0e3eec3e4185f6c5dccbacf23634286f7be176e2b69c46a5c40f5a392
+size 2423571758

audio-only/000-Wan2_1_T2V_1_3B/epoch048-global_step52000/optimizer/pytorch_optim.bin.index.json ADDED Viewed

	@@ -0,0 +1,165 @@

+{
+  "metadata": {
+    "param_groups": "pytorch_optim_group.bin",
+    "total_size": 6358.277587890625
+  },
+  "weight_map": {
+    "0": "pytorch_optim-00001.bin",
+    "1": "pytorch_optim-00001.bin",
+    "2": "pytorch_optim-00001.bin",
+    "3": "pytorch_optim-00001.bin",
+    "4": "pytorch_optim-00001.bin",
+    "5": "pytorch_optim-00001.bin",
+    "6": "pytorch_optim-00001.bin",
+    "7": "pytorch_optim-00001.bin",
+    "8": "pytorch_optim-00001.bin",
+    "9": "pytorch_optim-00001.bin",
+    "10": "pytorch_optim-00001.bin",
+    "11": "pytorch_optim-00001.bin",
+    "12": "pytorch_optim-00001.bin",
+    "13": "pytorch_optim-00001.bin",
+    "14": "pytorch_optim-00001.bin",
+    "15": "pytorch_optim-00001.bin",
+    "16": "pytorch_optim-00001.bin",
+    "17": "pytorch_optim-00001.bin",
+    "18": "pytorch_optim-00001.bin",
+    "19": "pytorch_optim-00001.bin",
+    "20": "pytorch_optim-00001.bin",
+    "21": "pytorch_optim-00001.bin",
+    "22": "pytorch_optim-00001.bin",
+    "23": "pytorch_optim-00001.bin",
+    "24": "pytorch_optim-00001.bin",
+    "25": "pytorch_optim-00001.bin",
+    "26": "pytorch_optim-00001.bin",
+    "27": "pytorch_optim-00001.bin",
+    "28": "pytorch_optim-00001.bin",
+    "29": "pytorch_optim-00001.bin",
+    "30": "pytorch_optim-00001.bin",
+    "31": "pytorch_optim-00001.bin",
+    "32": "pytorch_optim-00001.bin",
+    "33": "pytorch_optim-00001.bin",
+    "34": "pytorch_optim-00001.bin",
+    "35": "pytorch_optim-00001.bin",
+    "36": "pytorch_optim-00001.bin",
+    "37": "pytorch_optim-00001.bin",
+    "38": "pytorch_optim-00001.bin",
+    "39": "pytorch_optim-00001.bin",
+    "40": "pytorch_optim-00001.bin",
+    "41": "pytorch_optim-00001.bin",
+    "42": "pytorch_optim-00001.bin",
+    "43": "pytorch_optim-00001.bin",
+    "44": "pytorch_optim-00001.bin",
+    "45": "pytorch_optim-00001.bin",
+    "46": "pytorch_optim-00001.bin",
+    "47": "pytorch_optim-00001.bin",
+    "48": "pytorch_optim-00001.bin",
+    "49": "pytorch_optim-00001.bin",
+    "50": "pytorch_optim-00001.bin",
+    "51": "pytorch_optim-00001.bin",
+    "52": "pytorch_optim-00001.bin",
+    "53": "pytorch_optim-00001.bin",
+    "54": "pytorch_optim-00001.bin",
+    "55": "pytorch_optim-00001.bin",
+    "56": "pytorch_optim-00001.bin",
+    "57": "pytorch_optim-00001.bin",
+    "58": "pytorch_optim-00001.bin",
+    "59": "pytorch_optim-00001.bin",
+    "60": "pytorch_optim-00001.bin",
+    "61": "pytorch_optim-00001.bin",
+    "62": "pytorch_optim-00001.bin",
+    "63": "pytorch_optim-00001.bin",
+    "64": "pytorch_optim-00001.bin",
+    "65": "pytorch_optim-00001.bin",
+    "66": "pytorch_optim-00001.bin",
+    "67": "pytorch_optim-00001.bin",
+    "68": "pytorch_optim-00001.bin",
+    "69": "pytorch_optim-00001.bin",
+    "70": "pytorch_optim-00001.bin",
+    "71": "pytorch_optim-00001.bin",
+    "72": "pytorch_optim-00001.bin",
+    "73": "pytorch_optim-00001.bin",
+    "74": "pytorch_optim-00001.bin",
+    "75": "pytorch_optim-00001.bin",
+    "76": "pytorch_optim-00001.bin",
+    "77": "pytorch_optim-00001.bin",
+    "78": "pytorch_optim-00001.bin",
+    "79": "pytorch_optim-00001.bin",
+    "80": "pytorch_optim-00001.bin",
+    "81": "pytorch_optim-00001.bin",
+    "82": "pytorch_optim-00001.bin",
+    "83": "pytorch_optim-00001.bin",
+    "84": "pytorch_optim-00001.bin",
+    "85": "pytorch_optim-00001.bin",
+    "86": "pytorch_optim-00001.bin",
+    "87": "pytorch_optim-00001.bin",
+    "88": "pytorch_optim-00001.bin",
+    "89": "pytorch_optim-00001.bin",
+    "90": "pytorch_optim-00001.bin",
+    "91": "pytorch_optim-00001.bin",
+    "92": "pytorch_optim-00001.bin",
+    "93": "pytorch_optim-00001.bin",
+    "94": "pytorch_optim-00001.bin",
+    "95": "pytorch_optim-00001.bin",
+    "96": "pytorch_optim-00001.bin",
+    "97": "pytorch_optim-00001.bin",
+    "98": "pytorch_optim-00001.bin",
+    "99": "pytorch_optim-00001.bin",
+    "100": "pytorch_optim-00001.bin",
+    "101": "pytorch_optim-00001.bin",
+    "102": "pytorch_optim-00002.bin",
+    "103": "pytorch_optim-00002.bin",
+    "104": "pytorch_optim-00002.bin",
+    "105": "pytorch_optim-00002.bin",
+    "106": "pytorch_optim-00002.bin",
+    "107": "pytorch_optim-00002.bin",
+    "108": "pytorch_optim-00002.bin",
+    "109": "pytorch_optim-00002.bin",
+    "110": "pytorch_optim-00002.bin",
+    "111": "pytorch_optim-00002.bin",
+    "112": "pytorch_optim-00002.bin",
+    "113": "pytorch_optim-00002.bin",
+    "114": "pytorch_optim-00002.bin",
+    "115": "pytorch_optim-00002.bin",
+    "116": "pytorch_optim-00002.bin",
+    "117": "pytorch_optim-00002.bin",
+    "118": "pytorch_optim-00002.bin",
+    "119": "pytorch_optim-00002.bin",
+    "120": "pytorch_optim-00002.bin",
+    "121": "pytorch_optim-00002.bin",
+    "122": "pytorch_optim-00002.bin",
+    "123": "pytorch_optim-00002.bin",
+    "124": "pytorch_optim-00002.bin",
+    "125": "pytorch_optim-00002.bin",
+    "126": "pytorch_optim-00002.bin",
+    "127": "pytorch_optim-00002.bin",
+    "128": "pytorch_optim-00002.bin",
+    "129": "pytorch_optim-00002.bin",
+    "130": "pytorch_optim-00002.bin",
+    "131": "pytorch_optim-00002.bin",
+    "132": "pytorch_optim-00002.bin",
+    "133": "pytorch_optim-00002.bin",
+    "134": "pytorch_optim-00002.bin",
+    "135": "pytorch_optim-00002.bin",
+    "136": "pytorch_optim-00002.bin",
+    "137": "pytorch_optim-00002.bin",
+    "138": "pytorch_optim-00002.bin",
+    "139": "pytorch_optim-00002.bin",
+    "140": "pytorch_optim-00002.bin",
+    "141": "pytorch_optim-00002.bin",
+    "142": "pytorch_optim-00002.bin",
+    "143": "pytorch_optim-00002.bin",
+    "144": "pytorch_optim-00002.bin",
+    "145": "pytorch_optim-00002.bin",
+    "146": "pytorch_optim-00002.bin",
+    "147": "pytorch_optim-00002.bin",
+    "148": "pytorch_optim-00002.bin",
+    "149": "pytorch_optim-00002.bin",
+    "150": "pytorch_optim-00002.bin",
+    "151": "pytorch_optim-00002.bin",
+    "152": "pytorch_optim-00002.bin",
+    "153": "pytorch_optim-00002.bin",
+    "154": "pytorch_optim-00002.bin",
+    "155": "pytorch_optim-00002.bin",
+    "156": "pytorch_optim-00002.bin"
+  }
+}

audio-only/000-Wan2_1_T2V_1_3B/epoch048-global_step52000/optimizer/pytorch_optim_group.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:821c8504135947a0f7bc707c16e2865d3740fd6a307b8b5232645e4f886c0ebf
+size 1360

audio-only/000-Wan2_1_T2V_1_3B/epoch048-global_step52000/running_states.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+    "epoch": 48,
+    "step": 496,
+    "global_step": 52000,
+    "batch_size": null
+}

audio-only/000-Wan2_1_T2V_1_3B/epoch048-global_step52000/sampler ADDED Viewed

Binary file (928 Bytes). View file

audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53000/ema.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f90eec8edbd4685f70149bdff6f94478f71650f5b478847d025a033d4e843a0
+size 5704739068

audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53000/lr_scheduler ADDED Viewed

Binary file (1.01 kB). View file

audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53000/model/pytorch_model-00001.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:14e972842bc3b2e1e5374d312269befb44fcce793c7e7e99b82d3fc38cfd8655
+size 1059881014

audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53000/model/pytorch_model-00002.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef27467046c64e1977d304d7fd934337ddb6116517d7b007a1e41a2a48d6ae55
+size 1073076766

audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53000/model/pytorch_model-00003.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:85542e8f8d223c6f13491a2045f921ddfba7dbe842dbd75d21b3f6eecf5fb1b4
+size 719552332

audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53000/model/pytorch_model.bin.index.json ADDED Viewed

	@@ -0,0 +1,864 @@

+{
+  "metadata": {
+    "total_size": 2720.1065063476562
+  },
+  "weight_map": {
+    "audio_patch_embedding.weight": "pytorch_model-00001.bin",
+    "audio_patch_embedding.bias": "pytorch_model-00001.bin",
+    "audio_head.modulation": "pytorch_model-00001.bin",
+    "audio_head.head.weight": "pytorch_model-00001.bin",
+    "audio_head.head.bias": "pytorch_model-00001.bin",
+    "text_embedding.0.weight": "pytorch_model-00001.bin",
+    "text_embedding.0.bias": "pytorch_model-00001.bin",
+    "text_embedding.2.weight": "pytorch_model-00001.bin",
+    "text_embedding.2.bias": "pytorch_model-00001.bin",
+    "time_embedding.0.weight": "pytorch_model-00001.bin",
+    "time_embedding.0.bias": "pytorch_model-00001.bin",
+    "time_embedding.2.weight": "pytorch_model-00001.bin",
+    "time_embedding.2.bias": "pytorch_model-00001.bin",
+    "time_projection.1.weight": "pytorch_model-00001.bin",
+    "time_projection.1.bias": "pytorch_model-00001.bin",
+    "audio_time_projection.1.weight": "pytorch_model-00001.bin",
+    "audio_time_projection.1.bias": "pytorch_model-00001.bin",
+    "blocks.0.modulation": "pytorch_model-00001.bin",
+    "blocks.0.self_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.0.self_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.0.self_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.0.self_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.0.self_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.0.self_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.0.self_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.0.self_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.0.self_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.0.self_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.0.norm3.weight": "pytorch_model-00001.bin",
+    "blocks.0.norm3.bias": "pytorch_model-00001.bin",
+    "blocks.0.cross_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.0.cross_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.0.cross_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.0.cross_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.0.cross_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.0.cross_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.0.cross_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.0.cross_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.0.cross_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.0.cross_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.0.audio_ffn.0.weight": "pytorch_model-00001.bin",
+    "blocks.0.audio_ffn.0.bias": "pytorch_model-00001.bin",
+    "blocks.0.audio_ffn.2.weight": "pytorch_model-00001.bin",
+    "blocks.0.audio_ffn.2.bias": "pytorch_model-00001.bin",
+    "blocks.0.audio_modulation.param": "pytorch_model-00001.bin",
+    "blocks.1.modulation": "pytorch_model-00001.bin",
+    "blocks.1.self_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.1.self_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.1.self_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.1.self_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.1.self_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.1.self_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.1.self_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.1.self_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.1.self_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.1.self_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.1.norm3.weight": "pytorch_model-00001.bin",
+    "blocks.1.norm3.bias": "pytorch_model-00001.bin",
+    "blocks.1.cross_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.1.cross_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.1.cross_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.1.cross_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.1.cross_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.1.cross_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.1.cross_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.1.cross_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.1.cross_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.1.cross_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.1.audio_ffn.0.weight": "pytorch_model-00001.bin",
+    "blocks.1.audio_ffn.0.bias": "pytorch_model-00001.bin",
+    "blocks.1.audio_ffn.2.weight": "pytorch_model-00001.bin",
+    "blocks.1.audio_ffn.2.bias": "pytorch_model-00001.bin",
+    "blocks.1.audio_modulation.param": "pytorch_model-00001.bin",
+    "blocks.2.modulation": "pytorch_model-00001.bin",
+    "blocks.2.self_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.2.self_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.2.self_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.2.self_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.2.self_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.2.self_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.2.self_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.2.self_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.2.self_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.2.self_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.2.norm3.weight": "pytorch_model-00001.bin",
+    "blocks.2.norm3.bias": "pytorch_model-00001.bin",
+    "blocks.2.cross_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.2.cross_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.2.cross_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.2.cross_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.2.cross_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.2.cross_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.2.cross_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.2.cross_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.2.cross_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.2.cross_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.2.audio_ffn.0.weight": "pytorch_model-00001.bin",
+    "blocks.2.audio_ffn.0.bias": "pytorch_model-00001.bin",
+    "blocks.2.audio_ffn.2.weight": "pytorch_model-00001.bin",
+    "blocks.2.audio_ffn.2.bias": "pytorch_model-00001.bin",
+    "blocks.2.audio_modulation.param": "pytorch_model-00001.bin",
+    "blocks.3.modulation": "pytorch_model-00001.bin",
+    "blocks.3.self_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.3.self_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.3.self_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.3.self_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.3.self_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.3.self_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.3.self_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.3.self_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.3.self_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.3.self_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.3.norm3.weight": "pytorch_model-00001.bin",
+    "blocks.3.norm3.bias": "pytorch_model-00001.bin",
+    "blocks.3.cross_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.3.cross_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.3.cross_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.3.cross_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.3.cross_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.3.cross_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.3.cross_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.3.cross_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.3.cross_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.3.cross_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.3.audio_ffn.0.weight": "pytorch_model-00001.bin",
+    "blocks.3.audio_ffn.0.bias": "pytorch_model-00001.bin",
+    "blocks.3.audio_ffn.2.weight": "pytorch_model-00001.bin",
+    "blocks.3.audio_ffn.2.bias": "pytorch_model-00001.bin",
+    "blocks.3.audio_modulation.param": "pytorch_model-00001.bin",
+    "blocks.4.modulation": "pytorch_model-00001.bin",
+    "blocks.4.self_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.4.self_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.4.self_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.4.self_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.4.self_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.4.self_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.4.self_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.4.self_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.4.self_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.4.self_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.4.norm3.weight": "pytorch_model-00001.bin",
+    "blocks.4.norm3.bias": "pytorch_model-00001.bin",
+    "blocks.4.cross_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.4.cross_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.4.cross_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.4.cross_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.4.cross_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.4.cross_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.4.cross_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.4.cross_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.4.cross_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.4.cross_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.4.audio_ffn.0.weight": "pytorch_model-00001.bin",
+    "blocks.4.audio_ffn.0.bias": "pytorch_model-00001.bin",
+    "blocks.4.audio_ffn.2.weight": "pytorch_model-00001.bin",
+    "blocks.4.audio_ffn.2.bias": "pytorch_model-00001.bin",
+    "blocks.4.audio_modulation.param": "pytorch_model-00001.bin",
+    "blocks.5.modulation": "pytorch_model-00001.bin",
+    "blocks.5.self_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.5.self_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.5.self_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.5.self_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.5.self_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.5.self_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.5.self_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.5.self_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.5.self_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.5.self_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.5.norm3.weight": "pytorch_model-00001.bin",
+    "blocks.5.norm3.bias": "pytorch_model-00001.bin",
+    "blocks.5.cross_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.5.cross_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.5.cross_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.5.cross_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.5.cross_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.5.cross_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.5.cross_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.5.cross_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.5.cross_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.5.cross_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.5.audio_ffn.0.weight": "pytorch_model-00001.bin",
+    "blocks.5.audio_ffn.0.bias": "pytorch_model-00001.bin",
+    "blocks.5.audio_ffn.2.weight": "pytorch_model-00001.bin",
+    "blocks.5.audio_ffn.2.bias": "pytorch_model-00001.bin",
+    "blocks.5.audio_modulation.param": "pytorch_model-00001.bin",
+    "blocks.6.modulation": "pytorch_model-00001.bin",
+    "blocks.6.self_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.6.self_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.6.self_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.6.self_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.6.self_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.6.self_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.6.self_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.6.self_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.6.self_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.6.self_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.6.norm3.weight": "pytorch_model-00001.bin",
+    "blocks.6.norm3.bias": "pytorch_model-00001.bin",
+    "blocks.6.cross_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.6.cross_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.6.cross_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.6.cross_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.6.cross_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.6.cross_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.6.cross_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.6.cross_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.6.cross_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.6.cross_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.6.audio_ffn.0.weight": "pytorch_model-00001.bin",
+    "blocks.6.audio_ffn.0.bias": "pytorch_model-00001.bin",
+    "blocks.6.audio_ffn.2.weight": "pytorch_model-00001.bin",
+    "blocks.6.audio_ffn.2.bias": "pytorch_model-00001.bin",
+    "blocks.6.audio_modulation.param": "pytorch_model-00001.bin",
+    "blocks.7.modulation": "pytorch_model-00001.bin",
+    "blocks.7.self_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.7.self_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.7.self_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.7.self_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.7.self_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.7.self_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.7.self_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.7.self_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.7.self_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.7.self_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.7.norm3.weight": "pytorch_model-00001.bin",
+    "blocks.7.norm3.bias": "pytorch_model-00001.bin",
+    "blocks.7.cross_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.7.cross_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.7.cross_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.7.cross_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.7.cross_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.7.cross_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.7.cross_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.7.cross_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.7.cross_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.7.cross_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.7.audio_ffn.0.weight": "pytorch_model-00001.bin",
+    "blocks.7.audio_ffn.0.bias": "pytorch_model-00001.bin",
+    "blocks.7.audio_ffn.2.weight": "pytorch_model-00001.bin",
+    "blocks.7.audio_ffn.2.bias": "pytorch_model-00001.bin",
+    "blocks.7.audio_modulation.param": "pytorch_model-00001.bin",
+    "blocks.8.modulation": "pytorch_model-00001.bin",
+    "blocks.8.self_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.8.self_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.8.self_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.8.self_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.8.self_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.8.self_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.8.self_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.8.self_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.8.self_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.8.self_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.8.norm3.weight": "pytorch_model-00001.bin",
+    "blocks.8.norm3.bias": "pytorch_model-00001.bin",
+    "blocks.8.cross_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.8.cross_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.8.cross_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.8.cross_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.8.cross_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.8.cross_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.8.cross_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.8.cross_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.8.cross_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.8.cross_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.8.audio_ffn.0.weight": "pytorch_model-00001.bin",
+    "blocks.8.audio_ffn.0.bias": "pytorch_model-00001.bin",
+    "blocks.8.audio_ffn.2.weight": "pytorch_model-00001.bin",
+    "blocks.8.audio_ffn.2.bias": "pytorch_model-00001.bin",
+    "blocks.8.audio_modulation.param": "pytorch_model-00001.bin",
+    "blocks.9.modulation": "pytorch_model-00001.bin",
+    "blocks.9.self_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.9.self_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.9.self_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.9.self_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.9.self_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.9.self_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.9.self_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.9.self_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.9.self_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.9.self_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.9.norm3.weight": "pytorch_model-00001.bin",
+    "blocks.9.norm3.bias": "pytorch_model-00001.bin",
+    "blocks.9.cross_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.9.cross_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.9.cross_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.9.cross_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.9.cross_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.9.cross_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.9.cross_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.9.cross_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.9.cross_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.9.cross_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.9.audio_ffn.0.weight": "pytorch_model-00001.bin",
+    "blocks.9.audio_ffn.0.bias": "pytorch_model-00001.bin",
+    "blocks.9.audio_ffn.2.weight": "pytorch_model-00001.bin",
+    "blocks.9.audio_ffn.2.bias": "pytorch_model-00001.bin",
+    "blocks.9.audio_modulation.param": "pytorch_model-00001.bin",
+    "blocks.10.modulation": "pytorch_model-00001.bin",
+    "blocks.10.self_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.10.self_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.10.self_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.10.self_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.10.self_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.10.self_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.10.self_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.10.self_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.10.self_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.10.self_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.10.norm3.weight": "pytorch_model-00001.bin",
+    "blocks.10.norm3.bias": "pytorch_model-00001.bin",
+    "blocks.10.cross_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.10.cross_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.10.cross_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.10.cross_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.10.cross_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.10.cross_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.10.cross_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.10.cross_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.10.cross_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.10.cross_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.10.audio_ffn.0.weight": "pytorch_model-00001.bin",
+    "blocks.10.audio_ffn.0.bias": "pytorch_model-00001.bin",
+    "blocks.10.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.10.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.10.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.11.modulation": "pytorch_model-00002.bin",
+    "blocks.11.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.11.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.11.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.11.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.11.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.11.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.11.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.11.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.11.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.11.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.11.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.11.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.11.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.11.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.11.cross_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.11.cross_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.11.cross_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.11.cross_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.11.cross_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.11.cross_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.11.cross_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.11.cross_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.11.audio_ffn.0.weight": "pytorch_model-00002.bin",
+    "blocks.11.audio_ffn.0.bias": "pytorch_model-00002.bin",
+    "blocks.11.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.11.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.11.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.12.modulation": "pytorch_model-00002.bin",
+    "blocks.12.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.12.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.12.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.12.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.12.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.12.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.12.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.12.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.12.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.12.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.12.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.12.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.12.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.12.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.12.cross_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.12.cross_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.12.cross_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.12.cross_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.12.cross_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.12.cross_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.12.cross_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.12.cross_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.12.audio_ffn.0.weight": "pytorch_model-00002.bin",
+    "blocks.12.audio_ffn.0.bias": "pytorch_model-00002.bin",
+    "blocks.12.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.12.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.12.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.13.modulation": "pytorch_model-00002.bin",
+    "blocks.13.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.13.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.13.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.13.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.13.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.13.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.13.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.13.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.13.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.13.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.13.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.13.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.13.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.13.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.13.cross_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.13.cross_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.13.cross_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.13.cross_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.13.cross_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.13.cross_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.13.cross_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.13.cross_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.13.audio_ffn.0.weight": "pytorch_model-00002.bin",
+    "blocks.13.audio_ffn.0.bias": "pytorch_model-00002.bin",
+    "blocks.13.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.13.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.13.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.14.modulation": "pytorch_model-00002.bin",
+    "blocks.14.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.14.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.14.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.14.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.14.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.14.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.14.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.14.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.14.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.14.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.14.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.14.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.14.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.14.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.14.cross_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.14.cross_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.14.cross_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.14.cross_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.14.cross_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.14.cross_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.14.cross_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.14.cross_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.14.audio_ffn.0.weight": "pytorch_model-00002.bin",
+    "blocks.14.audio_ffn.0.bias": "pytorch_model-00002.bin",
+    "blocks.14.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.14.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.14.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.15.modulation": "pytorch_model-00002.bin",
+    "blocks.15.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.15.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.15.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.15.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.15.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.15.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.15.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.15.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.15.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.15.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.15.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.15.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.15.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.15.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.15.cross_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.15.cross_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.15.cross_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.15.cross_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.15.cross_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.15.cross_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.15.cross_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.15.cross_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.15.audio_ffn.0.weight": "pytorch_model-00002.bin",
+    "blocks.15.audio_ffn.0.bias": "pytorch_model-00002.bin",
+    "blocks.15.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.15.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.15.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.16.modulation": "pytorch_model-00002.bin",
+    "blocks.16.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.16.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.16.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.16.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.16.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.16.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.16.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.16.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.16.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.16.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.16.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.16.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.16.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.16.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.16.cross_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.16.cross_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.16.cross_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.16.cross_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.16.cross_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.16.cross_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.16.cross_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.16.cross_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.16.audio_ffn.0.weight": "pytorch_model-00002.bin",
+    "blocks.16.audio_ffn.0.bias": "pytorch_model-00002.bin",
+    "blocks.16.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.16.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.16.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.17.modulation": "pytorch_model-00002.bin",
+    "blocks.17.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.17.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.17.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.17.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.17.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.17.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.17.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.17.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.17.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.17.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.17.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.17.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.17.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.17.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.17.cross_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.17.cross_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.17.cross_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.17.cross_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.17.cross_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.17.cross_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.17.cross_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.17.cross_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.17.audio_ffn.0.weight": "pytorch_model-00002.bin",
+    "blocks.17.audio_ffn.0.bias": "pytorch_model-00002.bin",
+    "blocks.17.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.17.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.17.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.18.modulation": "pytorch_model-00002.bin",
+    "blocks.18.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.18.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.18.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.18.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.18.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.18.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.18.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.18.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.18.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.18.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.18.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.18.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.18.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.18.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.18.cross_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.18.cross_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.18.cross_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.18.cross_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.18.cross_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.18.cross_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.18.cross_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.18.cross_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.18.audio_ffn.0.weight": "pytorch_model-00002.bin",
+    "blocks.18.audio_ffn.0.bias": "pytorch_model-00002.bin",
+    "blocks.18.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.18.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.18.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.19.modulation": "pytorch_model-00002.bin",
+    "blocks.19.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.19.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.19.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.19.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.19.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.19.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.19.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.19.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.19.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.19.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.19.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.19.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.19.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.19.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.19.cross_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.19.cross_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.19.cross_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.19.cross_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.19.cross_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.19.cross_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.19.cross_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.19.cross_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.19.audio_ffn.0.weight": "pytorch_model-00002.bin",
+    "blocks.19.audio_ffn.0.bias": "pytorch_model-00002.bin",
+    "blocks.19.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.19.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.19.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.20.modulation": "pytorch_model-00002.bin",
+    "blocks.20.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.20.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.20.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.20.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.20.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.20.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.20.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.20.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.20.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.20.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.20.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.20.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.20.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.20.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.20.cross_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.20.cross_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.20.cross_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.20.cross_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.20.cross_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.20.cross_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.20.cross_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.20.cross_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.20.audio_ffn.0.weight": "pytorch_model-00002.bin",
+    "blocks.20.audio_ffn.0.bias": "pytorch_model-00002.bin",
+    "blocks.20.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.20.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.20.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.21.modulation": "pytorch_model-00002.bin",
+    "blocks.21.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.21.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.21.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.21.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.21.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.21.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.21.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.21.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.21.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.21.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.21.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.21.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.21.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.21.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.21.cross_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.21.cross_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.21.cross_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.21.cross_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.21.cross_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.21.cross_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.21.cross_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.21.cross_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.21.audio_ffn.0.weight": "pytorch_model-00002.bin",
+    "blocks.21.audio_ffn.0.bias": "pytorch_model-00002.bin",
+    "blocks.21.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.21.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.21.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.22.modulation": "pytorch_model-00002.bin",
+    "blocks.22.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.22.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.22.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.22.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.22.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.22.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.22.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.22.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.22.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.22.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.22.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.22.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.22.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.22.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.22.cross_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.22.cross_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.22.cross_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.22.cross_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.22.cross_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.22.cross_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.22.cross_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.22.cross_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.22.audio_ffn.0.weight": "pytorch_model-00003.bin",
+    "blocks.22.audio_ffn.0.bias": "pytorch_model-00003.bin",
+    "blocks.22.audio_ffn.2.weight": "pytorch_model-00003.bin",
+    "blocks.22.audio_ffn.2.bias": "pytorch_model-00003.bin",
+    "blocks.22.audio_modulation.param": "pytorch_model-00003.bin",
+    "blocks.23.modulation": "pytorch_model-00003.bin",
+    "blocks.23.self_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.23.self_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.23.self_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.23.self_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.23.self_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.23.self_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.23.self_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.23.self_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.23.self_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.23.self_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.23.norm3.weight": "pytorch_model-00003.bin",
+    "blocks.23.norm3.bias": "pytorch_model-00003.bin",
+    "blocks.23.cross_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.23.cross_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.23.cross_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.23.cross_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.23.cross_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.23.cross_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.23.cross_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.23.cross_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.23.cross_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.23.cross_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.23.audio_ffn.0.weight": "pytorch_model-00003.bin",
+    "blocks.23.audio_ffn.0.bias": "pytorch_model-00003.bin",
+    "blocks.23.audio_ffn.2.weight": "pytorch_model-00003.bin",
+    "blocks.23.audio_ffn.2.bias": "pytorch_model-00003.bin",
+    "blocks.23.audio_modulation.param": "pytorch_model-00003.bin",
+    "blocks.24.modulation": "pytorch_model-00003.bin",
+    "blocks.24.self_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.24.self_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.24.self_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.24.self_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.24.self_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.24.self_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.24.self_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.24.self_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.24.self_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.24.self_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.24.norm3.weight": "pytorch_model-00003.bin",
+    "blocks.24.norm3.bias": "pytorch_model-00003.bin",
+    "blocks.24.cross_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.24.cross_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.24.cross_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.24.cross_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.24.cross_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.24.cross_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.24.cross_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.24.cross_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.24.cross_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.24.cross_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.24.audio_ffn.0.weight": "pytorch_model-00003.bin",
+    "blocks.24.audio_ffn.0.bias": "pytorch_model-00003.bin",
+    "blocks.24.audio_ffn.2.weight": "pytorch_model-00003.bin",
+    "blocks.24.audio_ffn.2.bias": "pytorch_model-00003.bin",
+    "blocks.24.audio_modulation.param": "pytorch_model-00003.bin",
+    "blocks.25.modulation": "pytorch_model-00003.bin",
+    "blocks.25.self_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.25.self_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.25.self_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.25.self_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.25.self_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.25.self_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.25.self_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.25.self_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.25.self_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.25.self_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.25.norm3.weight": "pytorch_model-00003.bin",
+    "blocks.25.norm3.bias": "pytorch_model-00003.bin",
+    "blocks.25.cross_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.25.cross_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.25.cross_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.25.cross_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.25.cross_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.25.cross_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.25.cross_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.25.cross_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.25.cross_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.25.cross_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.25.audio_ffn.0.weight": "pytorch_model-00003.bin",
+    "blocks.25.audio_ffn.0.bias": "pytorch_model-00003.bin",
+    "blocks.25.audio_ffn.2.weight": "pytorch_model-00003.bin",
+    "blocks.25.audio_ffn.2.bias": "pytorch_model-00003.bin",
+    "blocks.25.audio_modulation.param": "pytorch_model-00003.bin",
+    "blocks.26.modulation": "pytorch_model-00003.bin",
+    "blocks.26.self_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.26.self_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.26.self_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.26.self_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.26.self_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.26.self_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.26.self_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.26.self_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.26.self_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.26.self_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.26.norm3.weight": "pytorch_model-00003.bin",
+    "blocks.26.norm3.bias": "pytorch_model-00003.bin",
+    "blocks.26.cross_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.26.cross_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.26.cross_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.26.cross_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.26.cross_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.26.cross_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.26.cross_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.26.cross_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.26.cross_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.26.cross_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.26.audio_ffn.0.weight": "pytorch_model-00003.bin",
+    "blocks.26.audio_ffn.0.bias": "pytorch_model-00003.bin",
+    "blocks.26.audio_ffn.2.weight": "pytorch_model-00003.bin",
+    "blocks.26.audio_ffn.2.bias": "pytorch_model-00003.bin",
+    "blocks.26.audio_modulation.param": "pytorch_model-00003.bin",
+    "blocks.27.modulation": "pytorch_model-00003.bin",
+    "blocks.27.self_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.27.self_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.27.self_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.27.self_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.27.self_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.27.self_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.27.self_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.27.self_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.27.self_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.27.self_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.27.norm3.weight": "pytorch_model-00003.bin",
+    "blocks.27.norm3.bias": "pytorch_model-00003.bin",
+    "blocks.27.cross_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.27.cross_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.27.cross_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.27.cross_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.27.cross_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.27.cross_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.27.cross_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.27.cross_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.27.cross_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.27.cross_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.27.audio_ffn.0.weight": "pytorch_model-00003.bin",
+    "blocks.27.audio_ffn.0.bias": "pytorch_model-00003.bin",
+    "blocks.27.audio_ffn.2.weight": "pytorch_model-00003.bin",
+    "blocks.27.audio_ffn.2.bias": "pytorch_model-00003.bin",
+    "blocks.27.audio_modulation.param": "pytorch_model-00003.bin",
+    "blocks.28.modulation": "pytorch_model-00003.bin",
+    "blocks.28.self_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.28.self_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.28.self_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.28.self_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.28.self_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.28.self_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.28.self_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.28.self_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.28.self_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.28.self_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.28.norm3.weight": "pytorch_model-00003.bin",
+    "blocks.28.norm3.bias": "pytorch_model-00003.bin",
+    "blocks.28.cross_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.28.cross_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.28.cross_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.28.cross_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.28.cross_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.28.cross_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.28.cross_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.28.cross_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.28.cross_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.28.cross_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.28.audio_ffn.0.weight": "pytorch_model-00003.bin",
+    "blocks.28.audio_ffn.0.bias": "pytorch_model-00003.bin",
+    "blocks.28.audio_ffn.2.weight": "pytorch_model-00003.bin",
+    "blocks.28.audio_ffn.2.bias": "pytorch_model-00003.bin",
+    "blocks.28.audio_modulation.param": "pytorch_model-00003.bin",
+    "blocks.29.modulation": "pytorch_model-00003.bin",
+    "blocks.29.self_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.29.self_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.29.self_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.29.self_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.29.self_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.29.self_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.29.self_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.29.self_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.29.self_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.29.self_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.29.norm3.weight": "pytorch_model-00003.bin",
+    "blocks.29.norm3.bias": "pytorch_model-00003.bin",
+    "blocks.29.cross_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.29.cross_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.29.cross_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.29.cross_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.29.cross_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.29.cross_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.29.cross_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.29.cross_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.29.cross_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.29.cross_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.29.audio_ffn.0.weight": "pytorch_model-00003.bin",
+    "blocks.29.audio_ffn.0.bias": "pytorch_model-00003.bin",
+    "blocks.29.audio_ffn.2.weight": "pytorch_model-00003.bin",
+    "blocks.29.audio_ffn.2.bias": "pytorch_model-00003.bin",
+    "blocks.29.audio_modulation.param": "pytorch_model-00003.bin"
+  }
+}

audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53000/optimizer/pytorch_optim-00001.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2222778b21283d3453b829e5ff0e42c6d8cb326434b5890e19cc03a53ec5b51c
+size 4243656922

audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53000/optimizer/pytorch_optim-00002.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6abdac7f4143454de7c8b46778738a9f6e3c5449ca9c2b3bc8cc1a6a879ff0fa
+size 2423571758

audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53000/optimizer/pytorch_optim.bin.index.json ADDED Viewed

	@@ -0,0 +1,165 @@

+{
+  "metadata": {
+    "param_groups": "pytorch_optim_group.bin",
+    "total_size": 6358.277587890625
+  },
+  "weight_map": {
+    "0": "pytorch_optim-00001.bin",
+    "1": "pytorch_optim-00001.bin",
+    "2": "pytorch_optim-00001.bin",
+    "3": "pytorch_optim-00001.bin",
+    "4": "pytorch_optim-00001.bin",
+    "5": "pytorch_optim-00001.bin",
+    "6": "pytorch_optim-00001.bin",
+    "7": "pytorch_optim-00001.bin",
+    "8": "pytorch_optim-00001.bin",
+    "9": "pytorch_optim-00001.bin",
+    "10": "pytorch_optim-00001.bin",
+    "11": "pytorch_optim-00001.bin",
+    "12": "pytorch_optim-00001.bin",
+    "13": "pytorch_optim-00001.bin",
+    "14": "pytorch_optim-00001.bin",
+    "15": "pytorch_optim-00001.bin",
+    "16": "pytorch_optim-00001.bin",
+    "17": "pytorch_optim-00001.bin",
+    "18": "pytorch_optim-00001.bin",
+    "19": "pytorch_optim-00001.bin",
+    "20": "pytorch_optim-00001.bin",
+    "21": "pytorch_optim-00001.bin",
+    "22": "pytorch_optim-00001.bin",
+    "23": "pytorch_optim-00001.bin",
+    "24": "pytorch_optim-00001.bin",
+    "25": "pytorch_optim-00001.bin",
+    "26": "pytorch_optim-00001.bin",
+    "27": "pytorch_optim-00001.bin",
+    "28": "pytorch_optim-00001.bin",
+    "29": "pytorch_optim-00001.bin",
+    "30": "pytorch_optim-00001.bin",
+    "31": "pytorch_optim-00001.bin",
+    "32": "pytorch_optim-00001.bin",
+    "33": "pytorch_optim-00001.bin",
+    "34": "pytorch_optim-00001.bin",
+    "35": "pytorch_optim-00001.bin",
+    "36": "pytorch_optim-00001.bin",
+    "37": "pytorch_optim-00001.bin",
+    "38": "pytorch_optim-00001.bin",
+    "39": "pytorch_optim-00001.bin",
+    "40": "pytorch_optim-00001.bin",
+    "41": "pytorch_optim-00001.bin",
+    "42": "pytorch_optim-00001.bin",
+    "43": "pytorch_optim-00001.bin",
+    "44": "pytorch_optim-00001.bin",
+    "45": "pytorch_optim-00001.bin",
+    "46": "pytorch_optim-00001.bin",
+    "47": "pytorch_optim-00001.bin",
+    "48": "pytorch_optim-00001.bin",
+    "49": "pytorch_optim-00001.bin",
+    "50": "pytorch_optim-00001.bin",
+    "51": "pytorch_optim-00001.bin",
+    "52": "pytorch_optim-00001.bin",
+    "53": "pytorch_optim-00001.bin",
+    "54": "pytorch_optim-00001.bin",
+    "55": "pytorch_optim-00001.bin",
+    "56": "pytorch_optim-00001.bin",
+    "57": "pytorch_optim-00001.bin",
+    "58": "pytorch_optim-00001.bin",
+    "59": "pytorch_optim-00001.bin",
+    "60": "pytorch_optim-00001.bin",
+    "61": "pytorch_optim-00001.bin",
+    "62": "pytorch_optim-00001.bin",
+    "63": "pytorch_optim-00001.bin",
+    "64": "pytorch_optim-00001.bin",
+    "65": "pytorch_optim-00001.bin",
+    "66": "pytorch_optim-00001.bin",
+    "67": "pytorch_optim-00001.bin",
+    "68": "pytorch_optim-00001.bin",
+    "69": "pytorch_optim-00001.bin",
+    "70": "pytorch_optim-00001.bin",
+    "71": "pytorch_optim-00001.bin",
+    "72": "pytorch_optim-00001.bin",
+    "73": "pytorch_optim-00001.bin",
+    "74": "pytorch_optim-00001.bin",
+    "75": "pytorch_optim-00001.bin",
+    "76": "pytorch_optim-00001.bin",
+    "77": "pytorch_optim-00001.bin",
+    "78": "pytorch_optim-00001.bin",
+    "79": "pytorch_optim-00001.bin",
+    "80": "pytorch_optim-00001.bin",
+    "81": "pytorch_optim-00001.bin",
+    "82": "pytorch_optim-00001.bin",
+    "83": "pytorch_optim-00001.bin",
+    "84": "pytorch_optim-00001.bin",
+    "85": "pytorch_optim-00001.bin",
+    "86": "pytorch_optim-00001.bin",
+    "87": "pytorch_optim-00001.bin",
+    "88": "pytorch_optim-00001.bin",
+    "89": "pytorch_optim-00001.bin",
+    "90": "pytorch_optim-00001.bin",
+    "91": "pytorch_optim-00001.bin",
+    "92": "pytorch_optim-00001.bin",
+    "93": "pytorch_optim-00001.bin",
+    "94": "pytorch_optim-00001.bin",
+    "95": "pytorch_optim-00001.bin",
+    "96": "pytorch_optim-00001.bin",
+    "97": "pytorch_optim-00001.bin",
+    "98": "pytorch_optim-00001.bin",
+    "99": "pytorch_optim-00001.bin",
+    "100": "pytorch_optim-00001.bin",
+    "101": "pytorch_optim-00001.bin",
+    "102": "pytorch_optim-00002.bin",
+    "103": "pytorch_optim-00002.bin",
+    "104": "pytorch_optim-00002.bin",
+    "105": "pytorch_optim-00002.bin",
+    "106": "pytorch_optim-00002.bin",
+    "107": "pytorch_optim-00002.bin",
+    "108": "pytorch_optim-00002.bin",
+    "109": "pytorch_optim-00002.bin",
+    "110": "pytorch_optim-00002.bin",
+    "111": "pytorch_optim-00002.bin",
+    "112": "pytorch_optim-00002.bin",
+    "113": "pytorch_optim-00002.bin",
+    "114": "pytorch_optim-00002.bin",
+    "115": "pytorch_optim-00002.bin",
+    "116": "pytorch_optim-00002.bin",
+    "117": "pytorch_optim-00002.bin",
+    "118": "pytorch_optim-00002.bin",
+    "119": "pytorch_optim-00002.bin",
+    "120": "pytorch_optim-00002.bin",
+    "121": "pytorch_optim-00002.bin",
+    "122": "pytorch_optim-00002.bin",
+    "123": "pytorch_optim-00002.bin",
+    "124": "pytorch_optim-00002.bin",
+    "125": "pytorch_optim-00002.bin",
+    "126": "pytorch_optim-00002.bin",
+    "127": "pytorch_optim-00002.bin",
+    "128": "pytorch_optim-00002.bin",
+    "129": "pytorch_optim-00002.bin",
+    "130": "pytorch_optim-00002.bin",
+    "131": "pytorch_optim-00002.bin",
+    "132": "pytorch_optim-00002.bin",
+    "133": "pytorch_optim-00002.bin",
+    "134": "pytorch_optim-00002.bin",
+    "135": "pytorch_optim-00002.bin",
+    "136": "pytorch_optim-00002.bin",
+    "137": "pytorch_optim-00002.bin",
+    "138": "pytorch_optim-00002.bin",
+    "139": "pytorch_optim-00002.bin",
+    "140": "pytorch_optim-00002.bin",
+    "141": "pytorch_optim-00002.bin",
+    "142": "pytorch_optim-00002.bin",
+    "143": "pytorch_optim-00002.bin",
+    "144": "pytorch_optim-00002.bin",
+    "145": "pytorch_optim-00002.bin",
+    "146": "pytorch_optim-00002.bin",
+    "147": "pytorch_optim-00002.bin",
+    "148": "pytorch_optim-00002.bin",
+    "149": "pytorch_optim-00002.bin",
+    "150": "pytorch_optim-00002.bin",
+    "151": "pytorch_optim-00002.bin",
+    "152": "pytorch_optim-00002.bin",
+    "153": "pytorch_optim-00002.bin",
+    "154": "pytorch_optim-00002.bin",
+    "155": "pytorch_optim-00002.bin",
+    "156": "pytorch_optim-00002.bin"
+  }
+}

audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53000/optimizer/pytorch_optim_group.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:821c8504135947a0f7bc707c16e2865d3740fd6a307b8b5232645e4f886c0ebf
+size 1360

audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53000/running_states.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+    "epoch": 49,
+    "step": 423,
+    "global_step": 53000,
+    "batch_size": null
+}

audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53000/sampler ADDED Viewed

Binary file (928 Bytes). View file

audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53650/ema.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6f490c4f53e9268fb0c5e6d16239fab6494192316d180a4f61b259e26932e666
+size 5704739068

audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53650/lr_scheduler ADDED Viewed

Binary file (1.01 kB). View file

audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53650/model/pytorch_model-00001.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:38ab1ed9f54f7f35c0d0235889be036c2bf7b6cc7a296c3c122ed8f44bdff680
+size 1059881014

audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53650/model/pytorch_model-00002.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f913d62f03801714dba76d5a68073c9d2dc2bc803ecc11f9aa53d9a441b63ab3
+size 1073076766

audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53650/model/pytorch_model-00003.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3551c4ea5490a1a730024249749e33ecac48dc2ac0c3a17af3ae4ec0eb7153f8
+size 719552332

audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53650/model/pytorch_model.bin.index.json ADDED Viewed

	@@ -0,0 +1,864 @@

+{
+  "metadata": {
+    "total_size": 2720.1065063476562
+  },
+  "weight_map": {
+    "audio_patch_embedding.weight": "pytorch_model-00001.bin",
+    "audio_patch_embedding.bias": "pytorch_model-00001.bin",
+    "audio_head.modulation": "pytorch_model-00001.bin",
+    "audio_head.head.weight": "pytorch_model-00001.bin",
+    "audio_head.head.bias": "pytorch_model-00001.bin",
+    "text_embedding.0.weight": "pytorch_model-00001.bin",
+    "text_embedding.0.bias": "pytorch_model-00001.bin",
+    "text_embedding.2.weight": "pytorch_model-00001.bin",
+    "text_embedding.2.bias": "pytorch_model-00001.bin",
+    "time_embedding.0.weight": "pytorch_model-00001.bin",
+    "time_embedding.0.bias": "pytorch_model-00001.bin",
+    "time_embedding.2.weight": "pytorch_model-00001.bin",
+    "time_embedding.2.bias": "pytorch_model-00001.bin",
+    "time_projection.1.weight": "pytorch_model-00001.bin",
+    "time_projection.1.bias": "pytorch_model-00001.bin",
+    "audio_time_projection.1.weight": "pytorch_model-00001.bin",
+    "audio_time_projection.1.bias": "pytorch_model-00001.bin",
+    "blocks.0.modulation": "pytorch_model-00001.bin",
+    "blocks.0.self_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.0.self_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.0.self_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.0.self_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.0.self_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.0.self_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.0.self_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.0.self_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.0.self_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.0.self_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.0.norm3.weight": "pytorch_model-00001.bin",
+    "blocks.0.norm3.bias": "pytorch_model-00001.bin",
+    "blocks.0.cross_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.0.cross_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.0.cross_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.0.cross_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.0.cross_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.0.cross_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.0.cross_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.0.cross_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.0.cross_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.0.cross_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.0.audio_ffn.0.weight": "pytorch_model-00001.bin",
+    "blocks.0.audio_ffn.0.bias": "pytorch_model-00001.bin",
+    "blocks.0.audio_ffn.2.weight": "pytorch_model-00001.bin",
+    "blocks.0.audio_ffn.2.bias": "pytorch_model-00001.bin",
+    "blocks.0.audio_modulation.param": "pytorch_model-00001.bin",
+    "blocks.1.modulation": "pytorch_model-00001.bin",
+    "blocks.1.self_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.1.self_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.1.self_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.1.self_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.1.self_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.1.self_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.1.self_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.1.self_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.1.self_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.1.self_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.1.norm3.weight": "pytorch_model-00001.bin",
+    "blocks.1.norm3.bias": "pytorch_model-00001.bin",
+    "blocks.1.cross_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.1.cross_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.1.cross_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.1.cross_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.1.cross_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.1.cross_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.1.cross_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.1.cross_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.1.cross_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.1.cross_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.1.audio_ffn.0.weight": "pytorch_model-00001.bin",
+    "blocks.1.audio_ffn.0.bias": "pytorch_model-00001.bin",
+    "blocks.1.audio_ffn.2.weight": "pytorch_model-00001.bin",
+    "blocks.1.audio_ffn.2.bias": "pytorch_model-00001.bin",
+    "blocks.1.audio_modulation.param": "pytorch_model-00001.bin",
+    "blocks.2.modulation": "pytorch_model-00001.bin",
+    "blocks.2.self_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.2.self_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.2.self_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.2.self_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.2.self_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.2.self_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.2.self_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.2.self_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.2.self_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.2.self_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.2.norm3.weight": "pytorch_model-00001.bin",
+    "blocks.2.norm3.bias": "pytorch_model-00001.bin",
+    "blocks.2.cross_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.2.cross_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.2.cross_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.2.cross_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.2.cross_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.2.cross_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.2.cross_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.2.cross_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.2.cross_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.2.cross_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.2.audio_ffn.0.weight": "pytorch_model-00001.bin",
+    "blocks.2.audio_ffn.0.bias": "pytorch_model-00001.bin",
+    "blocks.2.audio_ffn.2.weight": "pytorch_model-00001.bin",
+    "blocks.2.audio_ffn.2.bias": "pytorch_model-00001.bin",
+    "blocks.2.audio_modulation.param": "pytorch_model-00001.bin",
+    "blocks.3.modulation": "pytorch_model-00001.bin",
+    "blocks.3.self_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.3.self_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.3.self_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.3.self_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.3.self_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.3.self_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.3.self_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.3.self_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.3.self_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.3.self_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.3.norm3.weight": "pytorch_model-00001.bin",
+    "blocks.3.norm3.bias": "pytorch_model-00001.bin",
+    "blocks.3.cross_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.3.cross_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.3.cross_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.3.cross_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.3.cross_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.3.cross_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.3.cross_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.3.cross_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.3.cross_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.3.cross_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.3.audio_ffn.0.weight": "pytorch_model-00001.bin",
+    "blocks.3.audio_ffn.0.bias": "pytorch_model-00001.bin",
+    "blocks.3.audio_ffn.2.weight": "pytorch_model-00001.bin",
+    "blocks.3.audio_ffn.2.bias": "pytorch_model-00001.bin",
+    "blocks.3.audio_modulation.param": "pytorch_model-00001.bin",
+    "blocks.4.modulation": "pytorch_model-00001.bin",
+    "blocks.4.self_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.4.self_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.4.self_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.4.self_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.4.self_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.4.self_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.4.self_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.4.self_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.4.self_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.4.self_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.4.norm3.weight": "pytorch_model-00001.bin",
+    "blocks.4.norm3.bias": "pytorch_model-00001.bin",
+    "blocks.4.cross_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.4.cross_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.4.cross_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.4.cross_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.4.cross_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.4.cross_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.4.cross_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.4.cross_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.4.cross_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.4.cross_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.4.audio_ffn.0.weight": "pytorch_model-00001.bin",
+    "blocks.4.audio_ffn.0.bias": "pytorch_model-00001.bin",
+    "blocks.4.audio_ffn.2.weight": "pytorch_model-00001.bin",
+    "blocks.4.audio_ffn.2.bias": "pytorch_model-00001.bin",
+    "blocks.4.audio_modulation.param": "pytorch_model-00001.bin",
+    "blocks.5.modulation": "pytorch_model-00001.bin",
+    "blocks.5.self_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.5.self_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.5.self_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.5.self_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.5.self_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.5.self_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.5.self_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.5.self_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.5.self_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.5.self_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.5.norm3.weight": "pytorch_model-00001.bin",
+    "blocks.5.norm3.bias": "pytorch_model-00001.bin",
+    "blocks.5.cross_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.5.cross_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.5.cross_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.5.cross_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.5.cross_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.5.cross_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.5.cross_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.5.cross_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.5.cross_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.5.cross_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.5.audio_ffn.0.weight": "pytorch_model-00001.bin",
+    "blocks.5.audio_ffn.0.bias": "pytorch_model-00001.bin",
+    "blocks.5.audio_ffn.2.weight": "pytorch_model-00001.bin",
+    "blocks.5.audio_ffn.2.bias": "pytorch_model-00001.bin",
+    "blocks.5.audio_modulation.param": "pytorch_model-00001.bin",
+    "blocks.6.modulation": "pytorch_model-00001.bin",
+    "blocks.6.self_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.6.self_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.6.self_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.6.self_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.6.self_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.6.self_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.6.self_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.6.self_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.6.self_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.6.self_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.6.norm3.weight": "pytorch_model-00001.bin",
+    "blocks.6.norm3.bias": "pytorch_model-00001.bin",
+    "blocks.6.cross_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.6.cross_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.6.cross_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.6.cross_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.6.cross_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.6.cross_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.6.cross_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.6.cross_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.6.cross_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.6.cross_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.6.audio_ffn.0.weight": "pytorch_model-00001.bin",
+    "blocks.6.audio_ffn.0.bias": "pytorch_model-00001.bin",
+    "blocks.6.audio_ffn.2.weight": "pytorch_model-00001.bin",
+    "blocks.6.audio_ffn.2.bias": "pytorch_model-00001.bin",
+    "blocks.6.audio_modulation.param": "pytorch_model-00001.bin",
+    "blocks.7.modulation": "pytorch_model-00001.bin",
+    "blocks.7.self_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.7.self_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.7.self_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.7.self_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.7.self_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.7.self_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.7.self_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.7.self_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.7.self_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.7.self_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.7.norm3.weight": "pytorch_model-00001.bin",
+    "blocks.7.norm3.bias": "pytorch_model-00001.bin",
+    "blocks.7.cross_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.7.cross_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.7.cross_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.7.cross_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.7.cross_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.7.cross_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.7.cross_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.7.cross_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.7.cross_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.7.cross_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.7.audio_ffn.0.weight": "pytorch_model-00001.bin",
+    "blocks.7.audio_ffn.0.bias": "pytorch_model-00001.bin",
+    "blocks.7.audio_ffn.2.weight": "pytorch_model-00001.bin",
+    "blocks.7.audio_ffn.2.bias": "pytorch_model-00001.bin",
+    "blocks.7.audio_modulation.param": "pytorch_model-00001.bin",
+    "blocks.8.modulation": "pytorch_model-00001.bin",
+    "blocks.8.self_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.8.self_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.8.self_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.8.self_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.8.self_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.8.self_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.8.self_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.8.self_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.8.self_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.8.self_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.8.norm3.weight": "pytorch_model-00001.bin",
+    "blocks.8.norm3.bias": "pytorch_model-00001.bin",
+    "blocks.8.cross_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.8.cross_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.8.cross_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.8.cross_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.8.cross_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.8.cross_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.8.cross_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.8.cross_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.8.cross_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.8.cross_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.8.audio_ffn.0.weight": "pytorch_model-00001.bin",
+    "blocks.8.audio_ffn.0.bias": "pytorch_model-00001.bin",
+    "blocks.8.audio_ffn.2.weight": "pytorch_model-00001.bin",
+    "blocks.8.audio_ffn.2.bias": "pytorch_model-00001.bin",
+    "blocks.8.audio_modulation.param": "pytorch_model-00001.bin",
+    "blocks.9.modulation": "pytorch_model-00001.bin",
+    "blocks.9.self_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.9.self_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.9.self_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.9.self_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.9.self_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.9.self_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.9.self_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.9.self_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.9.self_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.9.self_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.9.norm3.weight": "pytorch_model-00001.bin",
+    "blocks.9.norm3.bias": "pytorch_model-00001.bin",
+    "blocks.9.cross_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.9.cross_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.9.cross_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.9.cross_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.9.cross_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.9.cross_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.9.cross_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.9.cross_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.9.cross_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.9.cross_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.9.audio_ffn.0.weight": "pytorch_model-00001.bin",
+    "blocks.9.audio_ffn.0.bias": "pytorch_model-00001.bin",
+    "blocks.9.audio_ffn.2.weight": "pytorch_model-00001.bin",
+    "blocks.9.audio_ffn.2.bias": "pytorch_model-00001.bin",
+    "blocks.9.audio_modulation.param": "pytorch_model-00001.bin",
+    "blocks.10.modulation": "pytorch_model-00001.bin",
+    "blocks.10.self_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.10.self_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.10.self_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.10.self_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.10.self_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.10.self_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.10.self_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.10.self_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.10.self_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.10.self_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.10.norm3.weight": "pytorch_model-00001.bin",
+    "blocks.10.norm3.bias": "pytorch_model-00001.bin",
+    "blocks.10.cross_attn.q.weight": "pytorch_model-00001.bin",
+    "blocks.10.cross_attn.q.bias": "pytorch_model-00001.bin",
+    "blocks.10.cross_attn.k.weight": "pytorch_model-00001.bin",
+    "blocks.10.cross_attn.k.bias": "pytorch_model-00001.bin",
+    "blocks.10.cross_attn.v.weight": "pytorch_model-00001.bin",
+    "blocks.10.cross_attn.v.bias": "pytorch_model-00001.bin",
+    "blocks.10.cross_attn.o.weight": "pytorch_model-00001.bin",
+    "blocks.10.cross_attn.o.bias": "pytorch_model-00001.bin",
+    "blocks.10.cross_attn.norm_q.weight": "pytorch_model-00001.bin",
+    "blocks.10.cross_attn.norm_k.weight": "pytorch_model-00001.bin",
+    "blocks.10.audio_ffn.0.weight": "pytorch_model-00001.bin",
+    "blocks.10.audio_ffn.0.bias": "pytorch_model-00001.bin",
+    "blocks.10.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.10.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.10.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.11.modulation": "pytorch_model-00002.bin",
+    "blocks.11.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.11.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.11.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.11.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.11.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.11.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.11.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.11.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.11.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.11.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.11.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.11.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.11.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.11.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.11.cross_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.11.cross_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.11.cross_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.11.cross_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.11.cross_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.11.cross_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.11.cross_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.11.cross_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.11.audio_ffn.0.weight": "pytorch_model-00002.bin",
+    "blocks.11.audio_ffn.0.bias": "pytorch_model-00002.bin",
+    "blocks.11.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.11.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.11.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.12.modulation": "pytorch_model-00002.bin",
+    "blocks.12.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.12.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.12.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.12.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.12.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.12.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.12.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.12.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.12.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.12.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.12.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.12.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.12.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.12.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.12.cross_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.12.cross_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.12.cross_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.12.cross_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.12.cross_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.12.cross_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.12.cross_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.12.cross_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.12.audio_ffn.0.weight": "pytorch_model-00002.bin",
+    "blocks.12.audio_ffn.0.bias": "pytorch_model-00002.bin",
+    "blocks.12.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.12.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.12.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.13.modulation": "pytorch_model-00002.bin",
+    "blocks.13.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.13.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.13.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.13.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.13.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.13.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.13.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.13.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.13.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.13.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.13.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.13.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.13.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.13.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.13.cross_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.13.cross_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.13.cross_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.13.cross_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.13.cross_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.13.cross_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.13.cross_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.13.cross_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.13.audio_ffn.0.weight": "pytorch_model-00002.bin",
+    "blocks.13.audio_ffn.0.bias": "pytorch_model-00002.bin",
+    "blocks.13.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.13.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.13.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.14.modulation": "pytorch_model-00002.bin",
+    "blocks.14.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.14.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.14.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.14.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.14.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.14.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.14.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.14.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.14.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.14.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.14.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.14.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.14.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.14.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.14.cross_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.14.cross_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.14.cross_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.14.cross_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.14.cross_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.14.cross_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.14.cross_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.14.cross_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.14.audio_ffn.0.weight": "pytorch_model-00002.bin",
+    "blocks.14.audio_ffn.0.bias": "pytorch_model-00002.bin",
+    "blocks.14.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.14.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.14.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.15.modulation": "pytorch_model-00002.bin",
+    "blocks.15.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.15.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.15.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.15.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.15.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.15.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.15.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.15.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.15.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.15.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.15.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.15.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.15.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.15.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.15.cross_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.15.cross_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.15.cross_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.15.cross_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.15.cross_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.15.cross_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.15.cross_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.15.cross_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.15.audio_ffn.0.weight": "pytorch_model-00002.bin",
+    "blocks.15.audio_ffn.0.bias": "pytorch_model-00002.bin",
+    "blocks.15.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.15.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.15.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.16.modulation": "pytorch_model-00002.bin",
+    "blocks.16.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.16.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.16.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.16.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.16.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.16.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.16.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.16.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.16.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.16.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.16.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.16.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.16.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.16.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.16.cross_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.16.cross_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.16.cross_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.16.cross_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.16.cross_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.16.cross_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.16.cross_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.16.cross_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.16.audio_ffn.0.weight": "pytorch_model-00002.bin",
+    "blocks.16.audio_ffn.0.bias": "pytorch_model-00002.bin",
+    "blocks.16.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.16.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.16.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.17.modulation": "pytorch_model-00002.bin",
+    "blocks.17.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.17.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.17.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.17.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.17.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.17.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.17.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.17.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.17.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.17.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.17.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.17.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.17.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.17.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.17.cross_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.17.cross_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.17.cross_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.17.cross_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.17.cross_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.17.cross_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.17.cross_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.17.cross_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.17.audio_ffn.0.weight": "pytorch_model-00002.bin",
+    "blocks.17.audio_ffn.0.bias": "pytorch_model-00002.bin",
+    "blocks.17.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.17.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.17.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.18.modulation": "pytorch_model-00002.bin",
+    "blocks.18.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.18.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.18.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.18.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.18.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.18.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.18.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.18.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.18.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.18.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.18.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.18.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.18.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.18.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.18.cross_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.18.cross_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.18.cross_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.18.cross_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.18.cross_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.18.cross_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.18.cross_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.18.cross_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.18.audio_ffn.0.weight": "pytorch_model-00002.bin",
+    "blocks.18.audio_ffn.0.bias": "pytorch_model-00002.bin",
+    "blocks.18.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.18.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.18.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.19.modulation": "pytorch_model-00002.bin",
+    "blocks.19.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.19.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.19.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.19.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.19.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.19.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.19.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.19.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.19.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.19.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.19.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.19.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.19.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.19.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.19.cross_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.19.cross_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.19.cross_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.19.cross_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.19.cross_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.19.cross_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.19.cross_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.19.cross_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.19.audio_ffn.0.weight": "pytorch_model-00002.bin",
+    "blocks.19.audio_ffn.0.bias": "pytorch_model-00002.bin",
+    "blocks.19.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.19.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.19.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.20.modulation": "pytorch_model-00002.bin",
+    "blocks.20.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.20.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.20.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.20.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.20.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.20.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.20.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.20.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.20.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.20.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.20.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.20.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.20.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.20.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.20.cross_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.20.cross_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.20.cross_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.20.cross_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.20.cross_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.20.cross_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.20.cross_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.20.cross_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.20.audio_ffn.0.weight": "pytorch_model-00002.bin",
+    "blocks.20.audio_ffn.0.bias": "pytorch_model-00002.bin",
+    "blocks.20.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.20.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.20.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.21.modulation": "pytorch_model-00002.bin",
+    "blocks.21.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.21.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.21.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.21.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.21.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.21.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.21.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.21.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.21.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.21.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.21.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.21.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.21.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.21.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.21.cross_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.21.cross_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.21.cross_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.21.cross_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.21.cross_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.21.cross_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.21.cross_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.21.cross_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.21.audio_ffn.0.weight": "pytorch_model-00002.bin",
+    "blocks.21.audio_ffn.0.bias": "pytorch_model-00002.bin",
+    "blocks.21.audio_ffn.2.weight": "pytorch_model-00002.bin",
+    "blocks.21.audio_ffn.2.bias": "pytorch_model-00002.bin",
+    "blocks.21.audio_modulation.param": "pytorch_model-00002.bin",
+    "blocks.22.modulation": "pytorch_model-00002.bin",
+    "blocks.22.self_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.22.self_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.22.self_attn.k.weight": "pytorch_model-00002.bin",
+    "blocks.22.self_attn.k.bias": "pytorch_model-00002.bin",
+    "blocks.22.self_attn.v.weight": "pytorch_model-00002.bin",
+    "blocks.22.self_attn.v.bias": "pytorch_model-00002.bin",
+    "blocks.22.self_attn.o.weight": "pytorch_model-00002.bin",
+    "blocks.22.self_attn.o.bias": "pytorch_model-00002.bin",
+    "blocks.22.self_attn.norm_q.weight": "pytorch_model-00002.bin",
+    "blocks.22.self_attn.norm_k.weight": "pytorch_model-00002.bin",
+    "blocks.22.norm3.weight": "pytorch_model-00002.bin",
+    "blocks.22.norm3.bias": "pytorch_model-00002.bin",
+    "blocks.22.cross_attn.q.weight": "pytorch_model-00002.bin",
+    "blocks.22.cross_attn.q.bias": "pytorch_model-00002.bin",
+    "blocks.22.cross_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.22.cross_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.22.cross_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.22.cross_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.22.cross_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.22.cross_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.22.cross_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.22.cross_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.22.audio_ffn.0.weight": "pytorch_model-00003.bin",
+    "blocks.22.audio_ffn.0.bias": "pytorch_model-00003.bin",
+    "blocks.22.audio_ffn.2.weight": "pytorch_model-00003.bin",
+    "blocks.22.audio_ffn.2.bias": "pytorch_model-00003.bin",
+    "blocks.22.audio_modulation.param": "pytorch_model-00003.bin",
+    "blocks.23.modulation": "pytorch_model-00003.bin",
+    "blocks.23.self_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.23.self_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.23.self_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.23.self_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.23.self_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.23.self_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.23.self_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.23.self_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.23.self_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.23.self_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.23.norm3.weight": "pytorch_model-00003.bin",
+    "blocks.23.norm3.bias": "pytorch_model-00003.bin",
+    "blocks.23.cross_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.23.cross_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.23.cross_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.23.cross_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.23.cross_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.23.cross_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.23.cross_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.23.cross_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.23.cross_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.23.cross_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.23.audio_ffn.0.weight": "pytorch_model-00003.bin",
+    "blocks.23.audio_ffn.0.bias": "pytorch_model-00003.bin",
+    "blocks.23.audio_ffn.2.weight": "pytorch_model-00003.bin",
+    "blocks.23.audio_ffn.2.bias": "pytorch_model-00003.bin",
+    "blocks.23.audio_modulation.param": "pytorch_model-00003.bin",
+    "blocks.24.modulation": "pytorch_model-00003.bin",
+    "blocks.24.self_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.24.self_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.24.self_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.24.self_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.24.self_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.24.self_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.24.self_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.24.self_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.24.self_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.24.self_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.24.norm3.weight": "pytorch_model-00003.bin",
+    "blocks.24.norm3.bias": "pytorch_model-00003.bin",
+    "blocks.24.cross_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.24.cross_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.24.cross_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.24.cross_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.24.cross_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.24.cross_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.24.cross_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.24.cross_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.24.cross_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.24.cross_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.24.audio_ffn.0.weight": "pytorch_model-00003.bin",
+    "blocks.24.audio_ffn.0.bias": "pytorch_model-00003.bin",
+    "blocks.24.audio_ffn.2.weight": "pytorch_model-00003.bin",
+    "blocks.24.audio_ffn.2.bias": "pytorch_model-00003.bin",
+    "blocks.24.audio_modulation.param": "pytorch_model-00003.bin",
+    "blocks.25.modulation": "pytorch_model-00003.bin",
+    "blocks.25.self_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.25.self_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.25.self_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.25.self_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.25.self_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.25.self_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.25.self_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.25.self_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.25.self_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.25.self_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.25.norm3.weight": "pytorch_model-00003.bin",
+    "blocks.25.norm3.bias": "pytorch_model-00003.bin",
+    "blocks.25.cross_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.25.cross_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.25.cross_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.25.cross_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.25.cross_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.25.cross_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.25.cross_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.25.cross_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.25.cross_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.25.cross_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.25.audio_ffn.0.weight": "pytorch_model-00003.bin",
+    "blocks.25.audio_ffn.0.bias": "pytorch_model-00003.bin",
+    "blocks.25.audio_ffn.2.weight": "pytorch_model-00003.bin",
+    "blocks.25.audio_ffn.2.bias": "pytorch_model-00003.bin",
+    "blocks.25.audio_modulation.param": "pytorch_model-00003.bin",
+    "blocks.26.modulation": "pytorch_model-00003.bin",
+    "blocks.26.self_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.26.self_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.26.self_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.26.self_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.26.self_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.26.self_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.26.self_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.26.self_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.26.self_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.26.self_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.26.norm3.weight": "pytorch_model-00003.bin",
+    "blocks.26.norm3.bias": "pytorch_model-00003.bin",
+    "blocks.26.cross_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.26.cross_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.26.cross_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.26.cross_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.26.cross_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.26.cross_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.26.cross_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.26.cross_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.26.cross_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.26.cross_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.26.audio_ffn.0.weight": "pytorch_model-00003.bin",
+    "blocks.26.audio_ffn.0.bias": "pytorch_model-00003.bin",
+    "blocks.26.audio_ffn.2.weight": "pytorch_model-00003.bin",
+    "blocks.26.audio_ffn.2.bias": "pytorch_model-00003.bin",
+    "blocks.26.audio_modulation.param": "pytorch_model-00003.bin",
+    "blocks.27.modulation": "pytorch_model-00003.bin",
+    "blocks.27.self_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.27.self_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.27.self_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.27.self_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.27.self_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.27.self_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.27.self_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.27.self_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.27.self_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.27.self_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.27.norm3.weight": "pytorch_model-00003.bin",
+    "blocks.27.norm3.bias": "pytorch_model-00003.bin",
+    "blocks.27.cross_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.27.cross_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.27.cross_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.27.cross_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.27.cross_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.27.cross_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.27.cross_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.27.cross_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.27.cross_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.27.cross_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.27.audio_ffn.0.weight": "pytorch_model-00003.bin",
+    "blocks.27.audio_ffn.0.bias": "pytorch_model-00003.bin",
+    "blocks.27.audio_ffn.2.weight": "pytorch_model-00003.bin",
+    "blocks.27.audio_ffn.2.bias": "pytorch_model-00003.bin",
+    "blocks.27.audio_modulation.param": "pytorch_model-00003.bin",
+    "blocks.28.modulation": "pytorch_model-00003.bin",
+    "blocks.28.self_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.28.self_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.28.self_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.28.self_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.28.self_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.28.self_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.28.self_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.28.self_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.28.self_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.28.self_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.28.norm3.weight": "pytorch_model-00003.bin",
+    "blocks.28.norm3.bias": "pytorch_model-00003.bin",
+    "blocks.28.cross_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.28.cross_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.28.cross_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.28.cross_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.28.cross_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.28.cross_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.28.cross_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.28.cross_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.28.cross_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.28.cross_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.28.audio_ffn.0.weight": "pytorch_model-00003.bin",
+    "blocks.28.audio_ffn.0.bias": "pytorch_model-00003.bin",
+    "blocks.28.audio_ffn.2.weight": "pytorch_model-00003.bin",
+    "blocks.28.audio_ffn.2.bias": "pytorch_model-00003.bin",
+    "blocks.28.audio_modulation.param": "pytorch_model-00003.bin",
+    "blocks.29.modulation": "pytorch_model-00003.bin",
+    "blocks.29.self_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.29.self_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.29.self_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.29.self_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.29.self_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.29.self_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.29.self_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.29.self_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.29.self_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.29.self_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.29.norm3.weight": "pytorch_model-00003.bin",
+    "blocks.29.norm3.bias": "pytorch_model-00003.bin",
+    "blocks.29.cross_attn.q.weight": "pytorch_model-00003.bin",
+    "blocks.29.cross_attn.q.bias": "pytorch_model-00003.bin",
+    "blocks.29.cross_attn.k.weight": "pytorch_model-00003.bin",
+    "blocks.29.cross_attn.k.bias": "pytorch_model-00003.bin",
+    "blocks.29.cross_attn.v.weight": "pytorch_model-00003.bin",
+    "blocks.29.cross_attn.v.bias": "pytorch_model-00003.bin",
+    "blocks.29.cross_attn.o.weight": "pytorch_model-00003.bin",
+    "blocks.29.cross_attn.o.bias": "pytorch_model-00003.bin",
+    "blocks.29.cross_attn.norm_q.weight": "pytorch_model-00003.bin",
+    "blocks.29.cross_attn.norm_k.weight": "pytorch_model-00003.bin",
+    "blocks.29.audio_ffn.0.weight": "pytorch_model-00003.bin",
+    "blocks.29.audio_ffn.0.bias": "pytorch_model-00003.bin",
+    "blocks.29.audio_ffn.2.weight": "pytorch_model-00003.bin",
+    "blocks.29.audio_ffn.2.bias": "pytorch_model-00003.bin",
+    "blocks.29.audio_modulation.param": "pytorch_model-00003.bin"
+  }
+}

audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53650/optimizer/pytorch_optim-00001.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b6db987ceabeaf4e6386d1ebb892312987fe3a4cfe6bbc40fa7170ac0aac4830
+size 4243656922

audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53650/optimizer/pytorch_optim-00002.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:09c527400625a77edd23133303ef923d0172124a83974cf4db420481b59479c5
+size 2423571758

audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53650/optimizer/pytorch_optim.bin.index.json ADDED Viewed

	@@ -0,0 +1,165 @@

+{
+  "metadata": {
+    "param_groups": "pytorch_optim_group.bin",
+    "total_size": 6358.277587890625
+  },
+  "weight_map": {
+    "0": "pytorch_optim-00001.bin",
+    "1": "pytorch_optim-00001.bin",
+    "2": "pytorch_optim-00001.bin",
+    "3": "pytorch_optim-00001.bin",
+    "4": "pytorch_optim-00001.bin",
+    "5": "pytorch_optim-00001.bin",
+    "6": "pytorch_optim-00001.bin",
+    "7": "pytorch_optim-00001.bin",
+    "8": "pytorch_optim-00001.bin",
+    "9": "pytorch_optim-00001.bin",
+    "10": "pytorch_optim-00001.bin",
+    "11": "pytorch_optim-00001.bin",
+    "12": "pytorch_optim-00001.bin",
+    "13": "pytorch_optim-00001.bin",
+    "14": "pytorch_optim-00001.bin",
+    "15": "pytorch_optim-00001.bin",
+    "16": "pytorch_optim-00001.bin",
+    "17": "pytorch_optim-00001.bin",
+    "18": "pytorch_optim-00001.bin",
+    "19": "pytorch_optim-00001.bin",
+    "20": "pytorch_optim-00001.bin",
+    "21": "pytorch_optim-00001.bin",
+    "22": "pytorch_optim-00001.bin",
+    "23": "pytorch_optim-00001.bin",
+    "24": "pytorch_optim-00001.bin",
+    "25": "pytorch_optim-00001.bin",
+    "26": "pytorch_optim-00001.bin",
+    "27": "pytorch_optim-00001.bin",
+    "28": "pytorch_optim-00001.bin",
+    "29": "pytorch_optim-00001.bin",
+    "30": "pytorch_optim-00001.bin",
+    "31": "pytorch_optim-00001.bin",
+    "32": "pytorch_optim-00001.bin",
+    "33": "pytorch_optim-00001.bin",
+    "34": "pytorch_optim-00001.bin",
+    "35": "pytorch_optim-00001.bin",
+    "36": "pytorch_optim-00001.bin",
+    "37": "pytorch_optim-00001.bin",
+    "38": "pytorch_optim-00001.bin",
+    "39": "pytorch_optim-00001.bin",
+    "40": "pytorch_optim-00001.bin",
+    "41": "pytorch_optim-00001.bin",
+    "42": "pytorch_optim-00001.bin",
+    "43": "pytorch_optim-00001.bin",
+    "44": "pytorch_optim-00001.bin",
+    "45": "pytorch_optim-00001.bin",
+    "46": "pytorch_optim-00001.bin",
+    "47": "pytorch_optim-00001.bin",
+    "48": "pytorch_optim-00001.bin",
+    "49": "pytorch_optim-00001.bin",
+    "50": "pytorch_optim-00001.bin",
+    "51": "pytorch_optim-00001.bin",
+    "52": "pytorch_optim-00001.bin",
+    "53": "pytorch_optim-00001.bin",
+    "54": "pytorch_optim-00001.bin",
+    "55": "pytorch_optim-00001.bin",
+    "56": "pytorch_optim-00001.bin",
+    "57": "pytorch_optim-00001.bin",
+    "58": "pytorch_optim-00001.bin",
+    "59": "pytorch_optim-00001.bin",
+    "60": "pytorch_optim-00001.bin",
+    "61": "pytorch_optim-00001.bin",
+    "62": "pytorch_optim-00001.bin",
+    "63": "pytorch_optim-00001.bin",
+    "64": "pytorch_optim-00001.bin",
+    "65": "pytorch_optim-00001.bin",
+    "66": "pytorch_optim-00001.bin",
+    "67": "pytorch_optim-00001.bin",
+    "68": "pytorch_optim-00001.bin",
+    "69": "pytorch_optim-00001.bin",
+    "70": "pytorch_optim-00001.bin",
+    "71": "pytorch_optim-00001.bin",
+    "72": "pytorch_optim-00001.bin",
+    "73": "pytorch_optim-00001.bin",
+    "74": "pytorch_optim-00001.bin",
+    "75": "pytorch_optim-00001.bin",
+    "76": "pytorch_optim-00001.bin",
+    "77": "pytorch_optim-00001.bin",
+    "78": "pytorch_optim-00001.bin",
+    "79": "pytorch_optim-00001.bin",
+    "80": "pytorch_optim-00001.bin",
+    "81": "pytorch_optim-00001.bin",
+    "82": "pytorch_optim-00001.bin",
+    "83": "pytorch_optim-00001.bin",
+    "84": "pytorch_optim-00001.bin",
+    "85": "pytorch_optim-00001.bin",
+    "86": "pytorch_optim-00001.bin",
+    "87": "pytorch_optim-00001.bin",
+    "88": "pytorch_optim-00001.bin",
+    "89": "pytorch_optim-00001.bin",
+    "90": "pytorch_optim-00001.bin",
+    "91": "pytorch_optim-00001.bin",
+    "92": "pytorch_optim-00001.bin",
+    "93": "pytorch_optim-00001.bin",
+    "94": "pytorch_optim-00001.bin",
+    "95": "pytorch_optim-00001.bin",
+    "96": "pytorch_optim-00001.bin",
+    "97": "pytorch_optim-00001.bin",
+    "98": "pytorch_optim-00001.bin",
+    "99": "pytorch_optim-00001.bin",
+    "100": "pytorch_optim-00001.bin",
+    "101": "pytorch_optim-00001.bin",
+    "102": "pytorch_optim-00002.bin",
+    "103": "pytorch_optim-00002.bin",
+    "104": "pytorch_optim-00002.bin",
+    "105": "pytorch_optim-00002.bin",
+    "106": "pytorch_optim-00002.bin",
+    "107": "pytorch_optim-00002.bin",
+    "108": "pytorch_optim-00002.bin",
+    "109": "pytorch_optim-00002.bin",
+    "110": "pytorch_optim-00002.bin",
+    "111": "pytorch_optim-00002.bin",
+    "112": "pytorch_optim-00002.bin",
+    "113": "pytorch_optim-00002.bin",
+    "114": "pytorch_optim-00002.bin",
+    "115": "pytorch_optim-00002.bin",
+    "116": "pytorch_optim-00002.bin",
+    "117": "pytorch_optim-00002.bin",
+    "118": "pytorch_optim-00002.bin",
+    "119": "pytorch_optim-00002.bin",
+    "120": "pytorch_optim-00002.bin",
+    "121": "pytorch_optim-00002.bin",
+    "122": "pytorch_optim-00002.bin",
+    "123": "pytorch_optim-00002.bin",
+    "124": "pytorch_optim-00002.bin",
+    "125": "pytorch_optim-00002.bin",
+    "126": "pytorch_optim-00002.bin",
+    "127": "pytorch_optim-00002.bin",
+    "128": "pytorch_optim-00002.bin",
+    "129": "pytorch_optim-00002.bin",
+    "130": "pytorch_optim-00002.bin",
+    "131": "pytorch_optim-00002.bin",
+    "132": "pytorch_optim-00002.bin",
+    "133": "pytorch_optim-00002.bin",
+    "134": "pytorch_optim-00002.bin",
+    "135": "pytorch_optim-00002.bin",
+    "136": "pytorch_optim-00002.bin",
+    "137": "pytorch_optim-00002.bin",
+    "138": "pytorch_optim-00002.bin",
+    "139": "pytorch_optim-00002.bin",
+    "140": "pytorch_optim-00002.bin",
+    "141": "pytorch_optim-00002.bin",
+    "142": "pytorch_optim-00002.bin",
+    "143": "pytorch_optim-00002.bin",
+    "144": "pytorch_optim-00002.bin",
+    "145": "pytorch_optim-00002.bin",
+    "146": "pytorch_optim-00002.bin",
+    "147": "pytorch_optim-00002.bin",
+    "148": "pytorch_optim-00002.bin",
+    "149": "pytorch_optim-00002.bin",
+    "150": "pytorch_optim-00002.bin",
+    "151": "pytorch_optim-00002.bin",
+    "152": "pytorch_optim-00002.bin",
+    "153": "pytorch_optim-00002.bin",
+    "154": "pytorch_optim-00002.bin",
+    "155": "pytorch_optim-00002.bin",
+    "156": "pytorch_optim-00002.bin"
+  }
+}

audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53650/optimizer/pytorch_optim_group.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:821c8504135947a0f7bc707c16e2865d3740fd6a307b8b5232645e4f886c0ebf
+size 1360

audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53650/running_states.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+    "epoch": 49,
+    "step": 1073,
+    "global_step": 53650,
+    "batch_size": null
+}

audio-only/000-Wan2_1_T2V_1_3B/epoch049-global_step53650/sampler ADDED Viewed

Binary file (928 Bytes). View file

audio-only/000-Wan2_1_T2V_1_3B/log.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

audio-only/000-Wan2_1_T2V_1_3B/tensorboard/events.out.tfevents.1760758333.c0f6c83c-35.cloud.together.ai.2607279.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:af42cec851a2eaac5afd3a5ab5563b13ce0589c7e998a945ba52a28e73c2adbc
+size 501190