Spaces:

cuhgrel
/

nemo-tts-api

Sleeping

App Files Files Community

cuhgrel commited on Oct 2

Commit

b0bdaef

verified ·

1 Parent(s): 8491e9b

Update app.py

Browse files

Files changed (1) hide show

app.py +5 -11

app.py CHANGED Viewed

@@ -7,10 +7,8 @@ from pydantic import BaseModel
 from fastapi.responses import StreamingResponse
 # --- Library Imports ---
-# For NeMo models
 from nemo.collections.tts.models import FastPitchModel, HifiGanModel
 from nemo.collections.tts.torch.tts_tokenizers import BaseCharsTokenizer
-# For Transformers MMS-TTS model
 from transformers import AutoTokenizer, AutoModelForTextToWaveform
 # Configure logging
@@ -26,12 +24,13 @@ app = FastAPI(
 # --- 2. Load Models on Startup ---
 models = {}
 @app.on_event("startup")
 def load_models():
     """Load all models into memory when the application starts."""
     logger.info("Loading models...")
-    device = "cuda" if torch.cuda.is_available() else "cpu"
     try:
         # --- NeMo Models ---
         logger.info("Loading HiFi-GAN vocoder...")
@@ -84,7 +83,6 @@ def synthesize_speech(request: TTSRequest):
     lang = request.language.lower()
-    # Validate the requested language
     valid_langs = ['en', 'bikol', 'tgl']
     if lang not in valid_langs:
         raise HTTPException(status_code=status.HTTP_400_BAD_REQUEST, detail=f"Invalid language. Use one of {valid_langs}")
@@ -92,7 +90,6 @@ def synthesize_speech(request: TTSRequest):
     try:
         logger.info(f"--- STARTING SYNTHESIS for '{lang}' ---")
-        # --- Logic for NeMo Models (English, Bikol) ---
         if lang in ['en', 'bikol']:
             sample_rate = 22050
             spectrogram_generator = models[lang]
@@ -105,9 +102,8 @@ def synthesize_speech(request: TTSRequest):
             audio_numpy = audio.to('cpu').detach().numpy().squeeze()
-        # --- Logic for Transformers Model (Tagalog) ---
         elif lang == 'tgl':
-            sample_rate = 16000  # MMS-TTS default sample rate is 16kHz
             tokenizer = models['tgl_tokenizer']
             model = models['tgl_model']
@@ -117,7 +113,6 @@ def synthesize_speech(request: TTSRequest):
             audio_numpy = output.cpu().numpy().squeeze()
-        # --- Prepare and return audio file ---
         buffer = io.BytesIO()
         sf.write(buffer, audio_numpy, samplerate=sample_rate, format='WAV')
         buffer.seek(0)
@@ -134,8 +129,7 @@ def synthesize_speech(request: TTSRequest):
 # --- 5. Add a Root Endpoint for Health Check ---
 @app.get("/")
 def read_root():
-    # Filter out tokenizer and non-spectrogram models for a cleaner list
-    available_languages = [k for k in models.keys() if '_model' not in k and k != 'hifigan']
     return {
         "status": "Multilingual TTS Backend is running",
         "available_languages": available_languages,

 from fastapi.responses import StreamingResponse
 # --- Library Imports ---
 from nemo.collections.tts.models import FastPitchModel, HifiGanModel
 from nemo.collections.tts.torch.tts_tokenizers import BaseCharsTokenizer
 from transformers import AutoTokenizer, AutoModelForTextToWaveform
 # Configure logging
 # --- 2. Load Models on Startup ---
 models = {}
+device = "cuda" if torch.cuda.is_available() else "cpu"
 @app.on_event("startup")
 def load_models():
     """Load all models into memory when the application starts."""
     logger.info("Loading models...")
     try:
         # --- NeMo Models ---
         logger.info("Loading HiFi-GAN vocoder...")
     lang = request.language.lower()
     valid_langs = ['en', 'bikol', 'tgl']
     if lang not in valid_langs:
         raise HTTPException(status_code=status.HTTP_400_BAD_REQUEST, detail=f"Invalid language. Use one of {valid_langs}")
     try:
         logger.info(f"--- STARTING SYNTHESIS for '{lang}' ---")
         if lang in ['en', 'bikol']:
             sample_rate = 22050
             spectrogram_generator = models[lang]
             audio_numpy = audio.to('cpu').detach().numpy().squeeze()
         elif lang == 'tgl':
+            sample_rate = 16000
             tokenizer = models['tgl_tokenizer']
             model = models['tgl_model']
             audio_numpy = output.cpu().numpy().squeeze()
         buffer = io.BytesIO()
         sf.write(buffer, audio_numpy, samplerate=sample_rate, format='WAV')
         buffer.seek(0)
 # --- 5. Add a Root Endpoint for Health Check ---
 @app.get("/")
 def read_root():
+    available_languages = ['en', 'bikol', 'tgl']
     return {
         "status": "Multilingual TTS Backend is running",
         "available_languages": available_languages,