stt-parakeet/test_vad_client.py

#!/usr/bin/env python3
"""
Test client for VAD-enabled server
Simulates Discord bot audio streaming with speech detection
"""
import asyncio
import websockets
import json
import numpy as np
import soundfile as sf
import sys


async def test_vad_server(audio_file="test.wav"):
    """Test VAD server with audio file."""
    uri = "ws://localhost:8766"
    
    print(f"Connecting to {uri}...")
    
    try:
        async with websockets.connect(uri) as websocket:
            print("✓ Connected!\n")
            
            # Receive welcome message
            message = await websocket.recv()
            data = json.loads(message)
            print(f"Server says: {data.get('message')}")
            print(f"VAD enabled: {data.get('vad_enabled')}\n")
            
            # Load audio file
            print(f"Loading audio: {audio_file}")
            audio, sr = sf.read(audio_file, dtype='float32')
            
            if audio.ndim > 1:
                audio = audio[:, 0]  # Mono
            
            print(f"Duration: {len(audio)/sr:.2f}s")
            print(f"Sample rate: {sr} Hz\n")
            
            # Convert to int16
            audio_int16 = (audio * 32767).astype(np.int16)
            
            # Listen for responses in background
            async def receive_messages():
                """Receive and display server messages."""
                try:
                    while True:
                        response = await websocket.recv()
                        result = json.loads(response)
                        
                        msg_type = result.get('type')
                        
                        if msg_type == 'vad_status':
                            is_speech = result.get('is_speech')
                            if is_speech:
                                print("\n🎤 VAD: Speech detected\n")
                            else:
                                print("\n🛑 VAD: Speech ended\n")
                        
                        elif msg_type == 'transcript':
                            text = result.get('text', '')
                            duration = result.get('duration', 0)
                            is_final = result.get('is_final', False)
                            
                            if is_final:
                                print(f"\n{'='*70}")
                                print(f"✅ FINAL TRANSCRIPTION ({duration:.2f}s):")
                                print(f"   \"{text}\"")
                                print(f"{'='*70}\n")
                            else:
                                print(f"📝 PARTIAL ({duration:.2f}s): {text}")
                        
                        elif msg_type == 'info':
                            print(f"ℹ️  {result.get('message')}")
                        
                        elif msg_type == 'error':
                            print(f"❌ Error: {result.get('message')}")
                
                except Exception as e:
                    pass
            
            # Start listener
            listen_task = asyncio.create_task(receive_messages())
            
            # Send audio in small chunks (simulate streaming)
            chunk_size = int(sr * 0.1)  # 100ms chunks
            print("Streaming audio...\n")
            
            for i in range(0, len(audio_int16), chunk_size):
                chunk = audio_int16[i:i+chunk_size]
                await websocket.send(chunk.tobytes())
                await asyncio.sleep(0.05)  # Simulate real-time
            
            print("\nAll audio sent. Waiting for final transcription...")
            
            # Wait for processing
            await asyncio.sleep(3.0)
            
            # Force transcribe any remaining buffer
            print("Sending force_transcribe command...\n")
            await websocket.send(json.dumps({"type": "force_transcribe"}))
            
            # Wait a bit more
            await asyncio.sleep(2.0)
            
            # Cancel listener
            listen_task.cancel()
            try:
                await listen_task
            except asyncio.CancelledError:
                pass
            
            print("\n✓ Test completed!")
    
    except Exception as e:
        print(f"❌ Error: {e}")
        return 1
    
    return 0


if __name__ == "__main__":
    audio_file = sys.argv[1] if len(sys.argv) > 1 else "test.wav"
    exit_code = asyncio.run(test_vad_server(audio_file))
    sys.exit(exit_code)