Spaces:

LiKenun
/

ai-building-blocks

Running on Zero

LiKenun commited on Nov 3

Commit

0fea237

1 Parent(s): 02c9b64

Switch the automatic speech recognition (ASR) implementation to use the inference client instead

Files changed (3) hide show

app.py CHANGED Viewed

@@ -80,7 +80,7 @@ class App:
                     audio_transcription_generate_button = gr.Button("Transcribe")
                     audio_transcription_output = gr.Textbox(label="Text")
                     audio_transcription_generate_button.click(
-                        fn=automatic_speech_recognition,
                         inputs=audio_transcription_audio_input,
                         outputs=audio_transcription_output
                     )

                     audio_transcription_generate_button = gr.Button("Transcribe")
                     audio_transcription_output = gr.Textbox(label="Text")
                     audio_transcription_generate_button.click(
+                        fn=partial(automatic_speech_recognition, self.client),
                         inputs=audio_transcription_audio_input,
                         outputs=audio_transcription_output
                     )

automatic_speech_recognition.py CHANGED Viewed

@@ -1,14 +1,18 @@
-import gc
-from os import getenv
-from transformers import pipeline
-from utils import spaces_gpu, resample_audio
-@spaces_gpu
-def automatic_speech_recognition(audio: tuple[int, bytes]) -> str:
-    asr = pipeline(task="automatic-speech-recognition", model=getenv("AUDIO_TRANSCRIPTION_MODEL"))
-    audio_array = resample_audio(asr.feature_extractor.sampling_rate, audio)
-    result = asr(audio_array)
-    del asr
-    gc.collect()
-    return result["text"]

+from huggingface_hub import InferenceClient
+from os import getenv, path, unlink
+from utils import save_audio_to_temp_file, get_model_sample_rate
+def automatic_speech_recognition(client: InferenceClient, audio: tuple[int, bytes]) -> str:
+    temp_file_path = None
+    try:
+        model_id = getenv("AUDIO_TRANSCRIPTION_MODEL")
+        sample_rate = get_model_sample_rate(model_id)
+        temp_file_path = save_audio_to_temp_file(sample_rate, audio)
+        result = client.automatic_speech_recognition(temp_file_path, model=model_id)
+        return result["text"]
+    finally:
+        if temp_file_path and path.exists(temp_file_path): # Clean up temporary file.
+            try:
+                unlink(temp_file_path)
+            except Exception:
+                pass # Ignore clean-up errors.

utils.py CHANGED Viewed

@@ -1,13 +1,14 @@
 import gradio as gr
 from io import BytesIO
-from PIL.Image import Image, open as open_image
 from os import getenv
 import requests
 from tempfile import NamedTemporaryFile
 import torch
-import numpy as np
-import soundfile as sf
-import librosa
 # Try to import spaces decorator (for Hugging Face Spaces), otherwise use no-op decorator.
@@ -45,6 +46,13 @@ def save_image_to_temp_file(image: Image) -> str:
     image.save(temp_path, format=image_format)
     return temp_path
 def resample_audio(target_sample_rate: int, audio: tuple[int, bytes | np.ndarray]) -> np.ndarray:
     sample_rate, audio_data = audio
@@ -61,3 +69,11 @@ def resample_audio(target_sample_rate: int, audio: tuple[int, bytes | np.ndarray
         audio_array = librosa.resample(audio_array, orig_sr=sample_rate, target_sr=target_sample_rate)
     return audio_array

 import gradio as gr
 from io import BytesIO
+import librosa
+import numpy as np
 from os import getenv
+from PIL.Image import Image, open as open_image
+import soundfile as sf
 import requests
 from tempfile import NamedTemporaryFile
 import torch
+from transformers import AutoProcessor
 # Try to import spaces decorator (for Hugging Face Spaces), otherwise use no-op decorator.
     image.save(temp_path, format=image_format)
     return temp_path
+def get_model_sample_rate(model_id: str) -> int:
+    try:
+        processor = AutoProcessor.from_pretrained(model_id)
+        return processor.feature_extractor.sampling_rate
+    except Exception:
+        return 16000 # Fallback value as most ASR models use 16kHz
 def resample_audio(target_sample_rate: int, audio: tuple[int, bytes | np.ndarray]) -> np.ndarray:
     sample_rate, audio_data = audio
         audio_array = librosa.resample(audio_array, orig_sr=sample_rate, target_sr=target_sample_rate)
     return audio_array
+def save_audio_to_temp_file(target_sample_rate: int, audio: tuple[int, bytes | np.ndarray]) -> str:
+    audio_array = resample_audio(target_sample_rate, audio)
+    temp_file = NamedTemporaryFile(delete=False, suffix='.wav')
+    temp_path = temp_file.name
+    temp_file.close()
+    sf.write(temp_path, audio_array, target_sample_rate, format='WAV')
+    return temp_path