Spaces:

inesc-id
/

CAMOES-ASR-DEMO

Sleeping

Miamoto commited on Nov 3

Commit

3c7cd09

1 Parent(s): b858a56

app updated

Files changed (1) hide show

app.py CHANGED Viewed

@@ -7,18 +7,29 @@ processor = WhisperProcessor.from_pretrained("openai/whisper-large-v3")
 model = WhisperForConditionalGeneration.from_pretrained("inesc-id/WhisperLv3-FT")
 def transcribe(audio):
     speech, _ = librosa.load(audio, sr=16000)
-    inputs = processor(speech, return_tensors="pt")
-    predicted_ids = model.generate(**inputs)
-    transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
-    return transcription
 demo = gr.Interface(
-    fn=transcribe,
-    inputs=gr.Audio(sources=["microphone", "upload"], type="filepath"),
-    outputs="text",
-    title="Custom Whisper ASR Demo",
 )
 demo.launch()

 model = WhisperForConditionalGeneration.from_pretrained("inesc-id/WhisperLv3-FT")
 def transcribe(audio):
+    # Load and resample audio to 16 kHz
     speech, _ = librosa.load(audio, sr=16000)
+    # Split audio into 30s chunks
+    chunk_size = 30 * 16000
+    texts = []
+    for start in range(0, len(speech), chunk_size):
+        chunk = speech[start:start + chunk_size]
+        inputs = processor(chunk, return_tensors="pt")
+        predicted_ids = model.generate(**inputs)
+        text = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
+        texts.append(text)
+    # Combine all chunks
+    return " ".join(texts)
 demo = gr.Interface(
+fn=transcribe,
+inputs=gr.Audio(sources=["microphone", "upload"], type="filepath"),
+outputs="text",
+title="CAMÕES Whisper Demo",
+description="Upload or record audio and get transcription. Supports files longer than 30 seconds."
 )
 demo.launch()