Spaces:

YongdongWang
/

DART-LLM-Multi-Model

Sleeping

App Files Files Community

yongdong commited on Jun 23

Commit

1f6f70b

1 Parent(s): c6b828a

Disable sampling for deterministic JSON output

Browse files

Files changed (1) hide show

app.py +8 -29

app.py CHANGED Viewed

@@ -92,7 +92,7 @@ def load_model_on_gpu():
         raise load_error
 @spaces.GPU(duration=60)  # GPU inference
-def generate_response_gpu(prompt, max_tokens=200, temperature=0.7, top_p=0.9):
     """Generate response - executed on GPU"""
     global model
@@ -109,7 +109,6 @@ def generate_response_gpu(prompt, max_tokens=200, temperature=0.7, top_p=0.9):
     try:
         formatted_prompt = (
-            "You are a JSON generator. Please output only a valid JSON object and no additional text.\n\n"
             "### Instruction:\n"
             f"{prompt.strip()}\n\n"
             "### Response:\n"
@@ -128,9 +127,7 @@ def generate_response_gpu(prompt, max_tokens=200, temperature=0.7, top_p=0.9):
             outputs = model.generate(
                 **inputs,
                 max_new_tokens=max_tokens,
-                do_sample=True,
-                temperature=temperature,
-                top_p=top_p,
                 pad_token_id=tokenizer.pad_token_id,
                 eos_token_id=tokenizer.eos_token_id,
                 repetition_penalty=1.1,
@@ -152,7 +149,7 @@ def generate_response_gpu(prompt, max_tokens=200, temperature=0.7, top_p=0.9):
     except Exception as generation_error:
         return f"❌ Generation Error: {str(generation_error)}"
-def chat_interface(message, history, max_tokens, temperature, top_p):
     """Chat interface - runs on CPU, calls GPU functions"""
     if not message.strip():
         return history, ""
@@ -163,7 +160,7 @@ def chat_interface(message, history, max_tokens, temperature, top_p):
     try:
         # Call GPU function to generate response
-        response = generate_response_gpu(message, max_tokens, temperature, top_p)
         history.append((message, response))
         return history, ""
     except Exception as chat_error:
@@ -226,31 +223,13 @@ with gr.Blocks(
             max_tokens = gr.Slider(
                 minimum=50,
-                maximum=500,
-                value=200,
                 step=10,
                 label="Max Tokens",
                 info="Maximum number of tokens to generate"
             )
-            temperature = gr.Slider(
-                minimum=0.1,
-                maximum=2.0,
-                value=0.7,
-                step=0.1,
-                label="Temperature",
-                info="Controls randomness (lower = more focused)"
-            )
-            top_p = gr.Slider(
-                minimum=0.1,
-                maximum=1.0,
-                value=0.9,
-                step=0.05,
-                label="Top-p",
-                info="Nucleus sampling threshold"
-            )
             gr.Markdown("""
             ### 📊 Model Status
             - **Hardware**: ZeroGPU (Dynamic Nvidia H200)
@@ -268,13 +247,13 @@ with gr.Blocks(
     # Event handling
     msg.submit(
         chat_interface,
-        inputs=[msg, chatbot, max_tokens, temperature, top_p],
         outputs=[chatbot, msg]
     )
     send_btn.click(
         chat_interface,
-        inputs=[msg, chatbot, max_tokens, temperature, top_p],
         outputs=[chatbot, msg]
     )

         raise load_error
 @spaces.GPU(duration=60)  # GPU inference
+def generate_response_gpu(prompt, max_tokens=512):
     """Generate response - executed on GPU"""
     global model
     try:
         formatted_prompt = (
             "### Instruction:\n"
             f"{prompt.strip()}\n\n"
             "### Response:\n"
             outputs = model.generate(
                 **inputs,
                 max_new_tokens=max_tokens,
+                do_sample=False,
                 pad_token_id=tokenizer.pad_token_id,
                 eos_token_id=tokenizer.eos_token_id,
                 repetition_penalty=1.1,
     except Exception as generation_error:
         return f"❌ Generation Error: {str(generation_error)}"
+def chat_interface(message, history, max_tokens):
     """Chat interface - runs on CPU, calls GPU functions"""
     if not message.strip():
         return history, ""
     try:
         # Call GPU function to generate response
+        response = generate_response_gpu(message, max_tokens)
         history.append((message, response))
         return history, ""
     except Exception as chat_error:
             max_tokens = gr.Slider(
                 minimum=50,
+                maximum=5000,
+                value=512,
                 step=10,
                 label="Max Tokens",
                 info="Maximum number of tokens to generate"
             )
             gr.Markdown("""
             ### 📊 Model Status
             - **Hardware**: ZeroGPU (Dynamic Nvidia H200)
     # Event handling
     msg.submit(
         chat_interface,
+        inputs=[msg, chatbot, max_tokens],
         outputs=[chatbot, msg]
     )
     send_btn.click(
         chat_interface,
+        inputs=[msg, chatbot, max_tokens],
         outputs=[chatbot, msg]
     )