Decided on Parakeet ONNX Runtime. Works pretty great. Realtime voice chat possible now. UX lacking.

2026-01-19 00:29:44 +02:00
parent 0a8910fff8
commit 362108f4b0
34 changed files with 4593 additions and 73 deletions
--- a/stt-parakeet/tools/test_offline.py
+++ b/stt-parakeet/tools/test_offline.py
@@ -0,0 +1,114 @@
+"""
+Test offline ASR pipeline with onnx-asr
+"""
+import soundfile as sf
+import numpy as np
+import sys
+import argparse
+from pathlib import Path
+from asr.asr_pipeline import ASRPipeline
+
+
+def test_transcription(audio_file: str, use_vad: bool = False, quantization: str = None):
+    """
+    Test ASR transcription on an audio file.
+    
+    Args:
+        audio_file: Path to audio file
+        use_vad: Whether to use VAD
+        quantization: Optional quantization (e.g., "int8")
+    """
+    print(f"\n{'='*80}")
+    print(f"Testing ASR Pipeline with onnx-asr")
+    print(f"{'='*80}")
+    print(f"Audio file: {audio_file}")
+    print(f"Use VAD: {use_vad}")
+    print(f"Quantization: {quantization}")
+    print(f"{'='*80}\n")
+    
+    # Initialize pipeline
+    print("Initializing ASR pipeline...")
+    pipeline = ASRPipeline(
+        model_name="nemo-parakeet-tdt-0.6b-v3",
+        quantization=quantization,
+        use_vad=use_vad,
+    )
+    print("Pipeline initialized successfully!\n")
+    
+    # Read audio file
+    print(f"Reading audio file: {audio_file}")
+    audio, sr = sf.read(audio_file, dtype="float32")
+    print(f"Sample rate: {sr} Hz")
+    print(f"Audio shape: {audio.shape}")
+    print(f"Audio duration: {len(audio) / sr:.2f} seconds")
+    
+    # Ensure mono
+    if audio.ndim > 1:
+        print("Converting stereo to mono...")
+        audio = audio[:, 0]
+    
+    # Verify sample rate
+    if sr != 16000:
+        print(f"WARNING: Sample rate is {sr} Hz, expected 16000 Hz")
+        print("Consider resampling the audio file")
+    
+    print(f"\n{'='*80}")
+    print("Transcribing...")
+    print(f"{'='*80}\n")
+    
+    # Transcribe
+    result = pipeline.transcribe(audio, sample_rate=sr)
+    
+    # Display results
+    if use_vad and isinstance(result, list):
+        print("TRANSCRIPTION (with VAD):")
+        print("-" * 80)
+        for i, segment in enumerate(result, 1):
+            print(f"Segment {i}: {segment}")
+        print("-" * 80)
+    else:
+        print("TRANSCRIPTION:")
+        print("-" * 80)
+        print(result)
+        print("-" * 80)
+    
+    # Audio statistics
+    print(f"\nAUDIO STATISTICS:")
+    print(f"  dtype: {audio.dtype}")
+    print(f"  min: {audio.min():.6f}")
+    print(f"  max: {audio.max():.6f}")
+    print(f"  mean: {audio.mean():.6f}")
+    print(f"  std: {audio.std():.6f}")
+    
+    print(f"\n{'='*80}")
+    print("Test completed successfully!")
+    print(f"{'='*80}\n")
+    
+    return result
+
+
+def main():
+    parser = argparse.ArgumentParser(description="Test offline ASR transcription")
+    parser.add_argument("audio_file", help="Path to audio file (WAV format)")
+    parser.add_argument("--use-vad", action="store_true", help="Enable VAD")
+    parser.add_argument("--quantization", default=None, choices=["int8", "fp16"], 
+                       help="Model quantization")
+    
+    args = parser.parse_args()
+    
+    # Check if file exists
+    if not Path(args.audio_file).exists():
+        print(f"ERROR: Audio file not found: {args.audio_file}")
+        sys.exit(1)
+    
+    try:
+        test_transcription(args.audio_file, args.use_vad, args.quantization)
+    except Exception as e:
+        print(f"\nERROR: {e}")
+        import traceback
+        traceback.print_exc()
+        sys.exit(1)
+
+
+if __name__ == "__main__":
+    main()