Spaces:

jaeikkim
/

AIDAS-Omni-Modal-Diffusion

Running on Zero

File size: 14,816 Bytes

668aead
 
 
 
 
 
 
 
 
 
 
 
7bfbdc3
668aead
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7bfbdc3
668aead
7bfbdc3
668aead
 
 
 
7bfbdc3
 
668aead
 
 
7bfbdc3
668aead
7bfbdc3
668aead
7bfbdc3
668aead
 
 
 
7bfbdc3
668aead
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7bfbdc3
 
668aead
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7bfbdc3
668aead
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7bfbdc3
668aead
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7bfbdc3
668aead
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7bfbdc3
668aead
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7bfbdc3
668aead
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7bfbdc3
668aead
e7c040d
668aead
e7c040d
668aead
e7c040d
668aead
 
 
 
 
 
 
 
e7c040d
668aead
e7c040d
 
668aead
 
 
 
 
e7c040d
668aead
e7c040d
668aead
 
 
e7c040d
 
668aead
 
7bfbdc3
668aead
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7bfbdc3
668aead
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7bfbdc3
668aead
7bfbdc3
668aead
7bfbdc3
 
668aead
 
 
7bfbdc3
668aead
 
 
 
 
 
7bfbdc3
 
668aead
 
 
7bfbdc3
 
e7c040d

import os
import sys
from pathlib import Path
import spaces

# === Import project modules ===
PROJECT_ROOT = Path(__file__).resolve().parent
MMADA_ROOT = PROJECT_ROOT / "MMaDA"
if str(MMADA_ROOT) not in sys.path:
    sys.path.insert(0, str(MMADA_ROOT))

from inference.gradio_multimodal_demo_inst import OmadaDemo
import gradio as gr


# ----------------------------------------------------------------------
#                  1.  Asset Loading (Downloaded by entrypoint)
# ----------------------------------------------------------------------

ASSET_ROOT = PROJECT_ROOT / "_asset_cache" / "AIDAS-Omni-Modal-Diffusion-assets"
DEMO_ROOT = ASSET_ROOT  # asset repo already modality-split


# ----------------------------------------------------------------------
#                  2.  GPU Handler Wrapper
# ----------------------------------------------------------------------

def gpu_handler(fn):
    """
    Wrap an inference function using ZeroGPU.
    """
    @spaces.GPU
    def inner(*args, **kwargs):
        return fn(*args, **kwargs)
    return inner


# ----------------------------------------------------------------------
#                  3.  Build Demo UI With Examples
# ----------------------------------------------------------------------

def build_zero_gpu_demo(app: OmadaDemo):

    with gr.Blocks(title="AIDAS Omni-Modal Diffusion (ZeroGPU)") as demo:

        # ---------------- Header ----------------
        gr.Markdown(
            "<h1 style='text-align:center'>AIDAS Omni-Modal Diffusion Model</h1>"
        )

        try:
            logo_path = "/mnt/data/A2E36E9F-F389-487D-9984-FFF21C9228E3.png"
            gr.Image(logo_path, elem_id="logo", show_label=False, height=120)
        except:
            pass

        gr.Markdown("### Multimodal Inference Demo (ZeroGPU Optimized)")
        gr.Markdown("---")

        # ---------------- Tabs ----------------

        with gr.Tabs():

            # ============================================================
            # 1) TEXT → SPEECH (T2S)
            # ============================================================
            with gr.Tab("Text → Speech (T2S)"):

                t2s_in = gr.Textbox(label="Input Text")
                t2s_btn = gr.Button("Generate")
                t2s_audio = gr.Audio(label="Speech Output")
                t2s_status = gr.Textbox(label="Status", interactive=False)

                t2s_examples = []
                t2s_dir = DEMO_ROOT / "t2s"
                if t2s_dir.exists():
                    for f in t2s_dir.glob("*.txt"):
                        txt = f.read_text().strip()
                        t2s_examples.append([txt])

                if len(t2s_examples) > 0:
                    gr.Examples(
                        examples=t2s_examples,
                        inputs=[t2s_in],
                        outputs=[t2s_audio, t2s_status],
                        fn=gpu_handler(app.run_t2s),
                    )

                t2s_btn.click(
                    gpu_handler(app.run_t2s),
                    inputs=[t2s_in],
                    outputs=[t2s_audio, t2s_status],
                )

            # ============================================================
            # 2) SPEECH → SPEECH (S2S)
            # ============================================================
            with gr.Tab("Speech → Speech (S2S)"):

                s2s_in = gr.Audio(type="filepath", label="Input Speech")
                s2s_btn = gr.Button("Generate")
                s2s_audio = gr.Audio(label="Output Speech")
                s2s_status = gr.Textbox(label="Status", interactive=False)

                s2s_examples = []
                s2s_dir = DEMO_ROOT / "s2s"
                if s2s_dir.exists():
                    for f in s2s_dir.glob("*.wav"):
                        s2s_examples.append([str(f)])

                if len(s2s_examples) > 0:
                    gr.Examples(
                        examples=s2s_examples,
                        inputs=[s2s_in],
                        outputs=[s2s_audio, s2s_status],
                        fn=gpu_handler(app.run_s2s),
                    )

                s2s_btn.click(
                    gpu_handler(app.run_s2s),
                    inputs=[s2s_in],
                    outputs=[s2s_audio, s2s_status]
                )

            # ============================================================
            # 3) SPEECH → TEXT (S2T)
            # ============================================================
            with gr.Tab("Speech → Text (S2T)"):

                s2t_in = gr.Audio(type="filepath", label="Input Speech")
                s2t_btn = gr.Button("Transcribe")
                s2t_text = gr.Textbox(label="Transcribed Text")
                s2t_status = gr.Textbox(label="Status", interactive=False)

                s2t_examples = []
                s2t_dir = DEMO_ROOT / "s2t"
                if s2t_dir.exists():
                    for f in s2t_dir.glob("*.wav"):
                        s2t_examples.append([str(f)])

                if len(s2t_examples) > 0:
                    gr.Examples(
                        examples=s2t_examples,
                        inputs=[s2t_in],
                        outputs=[s2t_text, s2t_status],
                        fn=gpu_handler(app.run_s2t),
                    )

                s2t_btn.click(
                    gpu_handler(app.run_s2t),
                    inputs=[s2t_in],
                    outputs=[s2t_text, s2t_status],
                )

            # ============================================================
            # 4) VIDEO → TEXT (V2T)
            # ============================================================
            with gr.Tab("Video → Text (V2T)"):

                v2t_in = gr.Video(type="filepath", label="Input Video")
                v2t_btn = gr.Button("Generate Caption")
                v2t_text = gr.Textbox(label="Caption")
                v2t_status = gr.Textbox(label="Status")

                v2t_examples = []
                v2t_dir = DEMO_ROOT / "v2t"
                if v2t_dir.exists():
                    for f in v2t_dir.glob("*.mp4"):
                        v2t_examples.append([str(f)])

                if len(v2t_examples) > 0:
                    gr.Examples(
                        examples=v2t_examples,
                        inputs=[v2t_in],
                        outputs=[v2t_text, v2t_status],
                        fn=gpu_handler(app.run_v2t),
                    )

                v2t_btn.click(
                    gpu_handler(app.run_v2t),
                    inputs=[v2t_in],
                    outputs=[v2t_text, v2t_status],
                )

            # ============================================================
            # 5) VIDEO → SPEECH (V2S)
            # ============================================================
            with gr.Tab("Video → Speech (V2S)"):

                v2s_in = gr.Video(type="filepath", label="Input Video")
                v2s_btn = gr.Button("Generate Speech")
                v2s_audio = gr.Audio(label="Speech Output")
                v2s_status = gr.Textbox(label="Status")

                v2s_examples = []
                v2s_dir = DEMO_ROOT / "v2s"
                if v2s_dir.exists():
                    for f in v2s_dir.glob("*.mp4"):
                        v2s_examples.append([str(f)])

                if len(v2s_examples) > 0:
                    gr.Examples(
                        examples=v2s_examples,
                        inputs=[v2s_in],
                        outputs=[v2s_audio, v2s_status],
                        fn=gpu_handler(app.run_v2s),
                    )

                v2s_btn.click(
                    gpu_handler(app.run_v2s),
                    inputs=[v2s_in],
                    outputs=[v2s_audio, v2s_status],
                )

            # ============================================================
            # 6) IMAGE → SPEECH (I2S)
            # ============================================================
            with gr.Tab("Image → Speech (I2S)"):

                i2s_in = gr.Image(type="filepath", label="Input Image")
                i2s_btn = gr.Button("Generate Speech")
                i2s_audio = gr.Audio(label="Speech")
                i2s_status = gr.Textbox(label="Status")

                # Only if folder exists
                i2s_examples = []
                i2s_dir = DEMO_ROOT / "i2s"
                if i2s_dir.exists():
                    for f in i2s_dir.glob("*.*"):
                        i2s_examples.append([str(f)])

                if len(i2s_examples) > 0:
                    gr.Examples(
                        examples=i2s_examples,
                        inputs=[i2s_in],
                        outputs=[i2s_audio, i2s_status],
                        fn=gpu_handler(app.run_i2s),
                    )

                i2s_btn.click(
                    gpu_handler(app.run_i2s),
                    inputs=[i2s_in],
                    outputs=[i2s_audio, i2s_status],
                )

            # ============================================================
            # 7) CHAT
            # ============================================================
            with gr.Tab("Chat (Text)"):

                chat_in = gr.Textbox(label="Message")
                chat_btn = gr.Button("Send")
                chat_out = gr.Textbox(label="Response")
                chat_status = gr.Textbox(label="Status")

                chat_examples = []
                chat_dir = DEMO_ROOT / "chat"
                if chat_dir.exists():
                    for f in chat_dir.glob("*.txt"):
                        txt = f.read_text().strip()
                        chat_examples.append([txt])

                if len(chat_examples) > 0:
                    gr.Examples(
                        examples=chat_examples,
                        inputs=[chat_in],
                        outputs=[chat_out, chat_status],
                        fn=gpu_handler(app.run_chat),
                    )

                chat_btn.click(
                    gpu_handler(app.run_chat),
                    inputs=[chat_in],
                    outputs=[chat_out, chat_status],
                )

            # ============================================================
            # 8) MMU (single image → text)
            # ============================================================
            with gr.Tab("MMU (Image → Text)"):

                mmu_img = gr.Image(type="filepath", label="Input Image")
                mmu_prompt = gr.Textbox(label="Prompt")
                mmu_btn = gr.Button("Run MMU")
                mmu_out = gr.Textbox(label="Output")
                mmu_status = gr.Textbox(label="Status")

                mmu_examples = []
                mmu_dir = DEMO_ROOT / "mmu"
                if mmu_dir.exists():
                    for f in mmu_dir.glob("*.png"):
                        mmu_examples.append([
                            str(f),
                            "Describe the main subject of this image."
                        ])

                if len(mmu_examples) > 0:
                    gr.Examples(
                        examples=mmu_examples,
                        inputs=[mmu_img, mmu_prompt],
                        outputs=[mmu_out, mmu_status],
                        fn=gpu_handler(app.run_mmu),
                    )

                mmu_btn.click(
                    gpu_handler(app.run_mmu),
                    inputs=[mmu_img, mmu_prompt],
                    outputs=[mmu_out, mmu_status]
                )

            # ============================================================
            # 9) TEXT → IMAGE (T2I)
            # ============================================================
            with gr.Tab("Text → Image (T2I)"):

                t2i_in = gr.Textbox(label="Prompt")
                t2i_btn = gr.Button("Generate Image")
                t2i_img = gr.Image(label="Generated Image")
                t2i_status = gr.Textbox(label="Status")

                t2i_examples = []
                t2i_dir = DEMO_ROOT / "t2i"
                if t2i_dir.exists():
                    for f in t2i_dir.glob("*.txt"):
                        txt = f.read_text().strip()
                        t2i_examples.append([txt])

                if len(t2i_examples) > 0:
                    gr.Examples(
                        examples=t2i_examples,
                        inputs=[t2i_in],
                        outputs=[t2i_img, t2i_status],
                        fn=gpu_handler(app.run_t2i),
                    )

                t2i_btn.click(
                    gpu_handler(app.run_t2i),
                    inputs=[t2i_in],
                    outputs=[t2i_img, t2i_status],
                )

            # ============================================================
            # 10) IMAGE EDITING (I2I)
            # ============================================================
            with gr.Tab("Image Editing (I2I)"):

                i2i_in = gr.Image(type="filepath", label="Input Image")
                i2i_prompt = gr.Textbox(label="Edit Instruction")
                i2i_btn = gr.Button("Apply Edit")
                i2i_img = gr.Image(label="Edited Image")
                i2i_status = gr.Textbox(label="Status")

                i2i_examples = []
                i2i_dir = DEMO_ROOT / "i2i"
                if i2i_dir.exists():
                    for f in i2i_dir.glob("*.*"):
                        i2i_examples.append([str(f), "Make it more vibrant."])

                if len(i2i_examples) > 0:
                    gr.Examples(
                        examples=i2i_examples,
                        inputs=[i2i_in, i2i_prompt],
                        outputs=[i2i_img, i2i_status],
                        fn=gpu_handler(app.run_i2i),
                    )

                i2i_btn.click(
                    gpu_handler(app.run_i2i),
                    inputs=[i2i_in, i2i_prompt],
                    outputs=[i2i_img, i2i_status]
                )

        # End Tabs

    return demo


# ----------------------------------------------------------------------
#                  4.  Entry Point for Space
# ----------------------------------------------------------------------

@spaces.GPU
def main():
    app = OmadaDemo(
        train_config=str(MMADA_ROOT / "inference/demo/demo.yaml"),
        checkpoint=os.getenv("MODEL_CHECKPOINT_DIR", "_ckpt_cache/omada"),
        device="cpu"
    )

    demo = build_zero_gpu_demo(app)
    demo.launch(server_name="0.0.0.0", server_port=7860, share=False)


if __name__ == "__main__":
    main()