Spaces:

Fred808
/

Llama-90b-Instruct

Paused

App Files Files Community

Fred808 commited on Jul 5

Commit

e8ef0cf

verified ·

1 Parent(s): 9bd5c0b

Update app.py

Browse files

Files changed (1) hide show

app.py +10 -12

app.py CHANGED Viewed

@@ -3,27 +3,26 @@ import requests
 import base64
 from pydantic import BaseModel
 from typing import Optional, List
 import re
 app = FastAPI()
-# NVIDIA API endpoint and API key
-NVIDIA_API_URL = "https://ai.api.nvidia.com/v1/gr/meta/llama-3.2-90b-vision-instruct/chat/completions"
 API_KEY = "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"  # Replace securely in production
 class ChatMessage(BaseModel):
-    role: str  # "user" or "assistant" or "system"
     content: str
 class TextRequest(BaseModel):
     messages: List[ChatMessage]
-    max_tokens: Optional[int] = 512
     temperature: Optional[float] = 1.0
-    top_p: Optional[float] = 1.0
 PRE_PROMPT_MESSAGES = [
-    {"role": "system", "content": "You are a helpful multimodal assistant powered by LLaMA 3.2 Vision-Instruct."},
 ]
 def call_nvidia_api(payload: dict):
@@ -42,12 +41,12 @@ async def chat_with_text(request: TextRequest):
     messages = PRE_PROMPT_MESSAGES + [msg.dict() for msg in request.messages]
     payload = {
-        "model": "meta/llama-3.2-90b-vision-instruct",
         "messages": messages,
         "max_tokens": request.max_tokens,
         "temperature": request.temperature,
         "top_p": request.top_p,
-        "stream": False,
     }
     try:
         response = call_nvidia_api(payload)
@@ -55,7 +54,6 @@ async def chat_with_text(request: TextRequest):
     except Exception as e:
         raise HTTPException(status_code=500, detail=str(e))
 @app.post("/chat/vision")
 async def chat_from_text_with_image_url(request: TextRequest):
     # Find image URLs in the last user message(s)
@@ -81,12 +79,12 @@ async def chat_from_text_with_image_url(request: TextRequest):
     messages = PRE_PROMPT_MESSAGES + new_messages
     payload = {
-        "model": "meta/llama-3.2-90b-vision-instruct",
         "messages": messages,
         "max_tokens": request.max_tokens,
         "temperature": request.temperature,
         "top_p": request.top_p,
-        "stream": False,
     }
     try:

 import base64
 from pydantic import BaseModel
 from typing import Optional, List
 import re
 app = FastAPI()
+# New NVIDIA API endpoint and API key (adjust for the new model)
+NVIDIA_API_URL = "https://ai.api.nvidia.com/v1/gr/meta/llama-3.1-nemotron-nano-vl-8b-v1/chat/completions"
 API_KEY = "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"  # Replace securely in production
 class ChatMessage(BaseModel):
+    role: str  # "user", "assistant", or "system"
     content: str
 class TextRequest(BaseModel):
     messages: List[ChatMessage]
+    max_tokens: Optional[int] = 1024
     temperature: Optional[float] = 1.0
+    top_p: Optional[float] = 0.01
 PRE_PROMPT_MESSAGES = [
+    {"role": "system", "content": "You are a helpful multimodal assistant powered by LLaMA 3.1 Nemotron Nano VL-8B."},
 ]
 def call_nvidia_api(payload: dict):
     messages = PRE_PROMPT_MESSAGES + [msg.dict() for msg in request.messages]
     payload = {
+        "model": "nvidia/llama-3.1-nemotron-nano-vl-8b-v1",
         "messages": messages,
         "max_tokens": request.max_tokens,
         "temperature": request.temperature,
         "top_p": request.top_p,
+        "stream": True,  # Set to True if you want streaming
     }
     try:
         response = call_nvidia_api(payload)
     except Exception as e:
         raise HTTPException(status_code=500, detail=str(e))
 @app.post("/chat/vision")
 async def chat_from_text_with_image_url(request: TextRequest):
     # Find image URLs in the last user message(s)
     messages = PRE_PROMPT_MESSAGES + new_messages
     payload = {
+        "model": "nvidia/llama-3.1-nemotron-nano-vl-8b-v1",
         "messages": messages,
         "max_tokens": request.max_tokens,
         "temperature": request.temperature,
         "top_p": request.top_p,
+        "stream": True,  # Set to True if you want streaming
     }
     try: