wip

2025-05-31 11:08:36 +00:00
parent 6bb4a49d74
commit 7c47f65494
18 changed files with 555 additions and 6 deletions
--- a/11
+++ b/11
@@ -1,10 +1,11 @@
-FROM python:3.9-slim as base
+FROM python:3.9-slim AS base
 # Install dependencies
 RUN apt-get update && apt-get install -y \
    python3-pip \
    ffmpeg \
    wget \
    unzip \
    && rm -rf /var/lib/apt/lists/*
 # Install Python requirements
@@ -21,15 +22,15 @@ RUN wget https://alphacephei.com/vosk/models/vosk-model-small-en-us-0.15.zip &&
 COPY app.py .
 # COPY Caddyfile .
-FROM base as production
+FROM base AS production
 # Install gunicorn and eventlet
 RUN pip install gunicorn eventlet
 # Expose ports (8000 for app, 2019 for Caddy admin)
-EXPOSE 8000 2019
+EXPOSE 5000
-CMD ["caddy", "run", "--config", "/app/Caddyfile"]
+#CMD ["caddy", "run", "--config", "/app/Caddyfile"]
-FROM base as development
+FROM base AS development
 # For development with auto-reload
 CMD ["python", "app.py"]
--- a/app.py
+++ b/app.py
@@ -34,4 +34,4 @@ def handle_audio_stream(audio_data):
 if __name__ == '__main__':
    os.makedirs('static', exist_ok=True)
-    socketio.run(app, host='0.0.0.0', port=8000)
+    socketio.run(app, host='0.0.0.0', port=5000)
--- a/app2.py
+++ b/app2.py
@@ -0,0 +1,305 @@
 #!/usr/bin/env python3
 """
 Improved Real-time Speech-to-Text WebSocket Server using Vosk
 with better audio format handling
 """
 import asyncio
 import websockets
 import json
 import logging
 import subprocess
 import tempfile
 import os
 import io
 from vosk import Model, KaldiRecognizer
 # Configure logging
 logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s'
 )
 logger = logging.getLogger(__name__)
 class ImprovedVoskSTTServer:
    def __init__(self, model_path="vosk-model-small-en-us-0.15", sample_rate=16000):
        """
        Initialize Improved Vosk STT Server with FFmpeg support
        Args:
            model_path: Path to Vosk model directory
            sample_rate: Audio sample rate (16000 is recommended)
        """
        self.model_path = model_path
        self.sample_rate = sample_rate
        self.model = None
        self.check_dependencies()
        self.load_model()
    def check_dependencies(self):
        """Check if FFmpeg is available"""
        try:
            subprocess.run(['ffmpeg', '-version'],
                         capture_output=True, check=True)
            logger.info("FFmpeg is available")
            self.has_ffmpeg = True
        except (subprocess.CalledProcessError, FileNotFoundError):
            logger.warning("FFmpeg not found. Audio conversion may be limited.")
            self.has_ffmpeg = False
    def load_model(self):
        """Load Vosk model"""
        try:
            if not os.path.exists(self.model_path):
                logger.error(f"Model path {self.model_path} does not exist!")
                self.print_model_setup_instructions()
                raise FileNotFoundError(f"Model not found at {self.model_path}")
            logger.info(f"Loading Vosk model from {self.model_path}...")
            self.model = Model(self.model_path)
            logger.info("Model loaded successfully!")
        except Exception as e:
            logger.error(f"Failed to load model: {e}")
            raise
    def print_model_setup_instructions(self):
        """Print instructions for setting up Vosk model"""
        logger.info("=" * 60)
        logger.info("VOSK MODEL SETUP INSTRUCTIONS")
        logger.info("=" * 60)
        logger.info("1. Download a Vosk model (choose based on your needs):")
        logger.info("")
        logger.info("   Small English model (~50MB):")
        logger.info("   wget https://alphacephei.com/vosk/models/vosk-model-small-en-us-0.15.zip")
        logger.info("   unzip vosk-model-small-en-us-0.15.zip")
        logger.info("")
        logger.info("   Large English model (~1.8GB, better accuracy):")
        logger.info("   wget https://alphacephei.com/vosk/models/vosk-model-en-us-0.22.zip")
        logger.info("   unzip vosk-model-en-us-0.22.zip")
        logger.info("")
        logger.info("   Other languages available at: https://alphacephei.com/vosk/models")
        logger.info("")
        logger.info("2. Place the extracted model directory in the server folder")
        logger.info("3. Update the model path when starting the server")
        logger.info("=" * 60)
    async def handle_client(self, websocket, path):
        """Handle WebSocket client connection"""
        client_ip = websocket.remote_address[0]
        logger.info(f"New client connected: {client_ip}")
        # Create recognizer for this client
        recognizer = KaldiRecognizer(self.model, self.sample_rate)
        try:
            await websocket.send(json.dumps({
                "type": "status",
                "message": "Connected to Vosk STT Server",
                "server_info": {
                    "sample_rate": self.sample_rate,
                    "has_ffmpeg": self.has_ffmpeg,
                    "model_path": self.model_path
                }
            }))
            async for message in websocket:
                try:
                    # Handle binary audio data
                    if isinstance(message, bytes):
                        await self.process_audio_chunk(websocket, recognizer, message)
                    # Handle text messages (commands, etc.)
                    elif isinstance(message, str):
                        await self.handle_text_message(websocket, recognizer, message)
                except Exception as e:
                    logger.error(f"Error processing message: {e}")
                    await websocket.send(json.dumps({
                        "type": "error",
                        "message": str(e)
                    }))
        except websockets.exceptions.ConnectionClosed:
            logger.info(f"Client disconnected: {client_ip}")
        except Exception as e:
            logger.error(f"Error handling client {client_ip}: {e}")
    async def process_audio_chunk(self, websocket, recognizer, audio_data):
        """Process incoming audio chunk with Vosk"""
        try:
            # Convert audio to PCM format for Vosk
            pcm_data = await self.convert_to_pcm(audio_data)
            if pcm_data:
                # Feed audio to recognizer
                if recognizer.AcceptWaveform(pcm_data):
                    # Final result
                    result = json.loads(recognizer.Result())
                    if result.get('text', '').strip():
                        await websocket.send(json.dumps({
                            "type": "transcription",
                            "text": result['text'],
                            "final": True,
                            "confidence": result.get('confidence', 0.0),
                            "timestamp": asyncio.get_event_loop().time()
                        }))
                        logger.info(f"Final: {result['text']}")
                else:
                    # Partial result
                    partial_result = json.loads(recognizer.PartialResult())
                    if partial_result.get('partial', '').strip():
                        await websocket.send(json.dumps({
                            "type": "transcription",
                            "text": partial_result['partial'],
                            "final": False,
                            "confidence": 0.0,
                            "timestamp": asyncio.get_event_loop().time()
                        }))
        except Exception as e:
            logger.error(f"Error processing audio: {e}")
    async def convert_to_pcm(self, audio_data):
        """
        Convert various audio formats to PCM format using FFmpeg
        """
        if not self.has_ffmpeg:
            # Fallback: assume audio is already in compatible format
            return audio_data
        try:
            # Create temporary files
            with tempfile.NamedTemporaryFile(suffix='.webm', delete=False) as input_file:
                input_file.write(audio_data)
                input_path = input_file.name
            with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as output_file:
                output_path = output_file.name
            # Use FFmpeg to convert to PCM WAV format
            cmd = [
                'ffmpeg',
                '-i', input_path,
                '-acodec', 'pcm_s16le',  # 16-bit PCM
                '-ac', '1',              # Mono
                '-ar', str(self.sample_rate),  # Sample rate
                '-f', 'wav',
                '-y',                    # Overwrite output
                output_path
            ]
            # Run conversion asynchronously
            process = await asyncio.create_subprocess_exec(
                *cmd,
                stdout=asyncio.subprocess.PIPE,
                stderr=asyncio.subprocess.PIPE
            )
            stdout, stderr = await process.communicate()
            if process.returncode == 0:
                # Read converted audio
                with open(output_path, 'rb') as f:
                    wav_data = f.read()
                # Extract PCM data (skip WAV header - 44 bytes)
                pcm_data = wav_data[44:]
                # Cleanup
                os.unlink(input_path)
                os.unlink(output_path)
                return pcm_data
            else:
                logger.error(f"FFmpeg conversion failed: {stderr.decode()}")
                # Cleanup
                os.unlink(input_path)
                if os.path.exists(output_path):
                    os.unlink(output_path)
                return None
        except Exception as e:
            logger.error(f"Audio conversion error: {e}")
            return None
    async def handle_text_message(self, websocket, recognizer, message):
        """Handle text-based commands from client"""
        try:
            data = json.loads(message)
            command = data.get('command')
            if command == 'ping':
                await websocket.send(json.dumps({
                    "type": "pong",
                    "timestamp": asyncio.get_event_loop().time()
                }))
            elif command == 'reset':
                # Reset recognizer
                recognizer.Reset()
                await websocket.send(json.dumps({
                    "type": "status",
                    "message": "Recognizer reset"
                }))
            elif command == 'get_info':
                await websocket.send(json.dumps({
                    "type": "server_info",
                    "sample_rate": self.sample_rate,
                    "has_ffmpeg": self.has_ffmpeg,
                    "model_path": self.model_path
                }))
        except json.JSONDecodeError:
            logger.error("Invalid JSON message received")
    async def start_server(self, host="0.0.0.0", port=5000):
        """Start the WebSocket server"""
        logger.info(f"Starting Vosk STT WebSocket server on {host}:{port}")
        logger.info(f"Using model: {self.model_path}")
        logger.info(f"Sample rate: {self.sample_rate}")
        logger.info(f"FFmpeg available: {self.has_ffmpeg}")
        try:
            async with websockets.serve(self.handle_client, host, port):
                logger.info("Server started successfully!")
                logger.info("Waiting for client connections...")
                logger.info("Press Ctrl+C to stop the server")
                # Keep server running
                await asyncio.Future()  # run forever
        except Exception as e:
            logger.error(f"Server error: {e}")
            raise
 def main():
    """Main entry point"""
    import argparse
    parser = argparse.ArgumentParser(description='Improved Vosk STT WebSocket Server')
    parser.add_argument('--host', default='0.0.0.0', help='Host to bind to')
    parser.add_argument('--port', type=int, default=8765, help='Port to bind to')
    parser.add_argument('--model', default='vosk-model-small-en-us-0.15',
                       help='Path to Vosk model directory')
    parser.add_argument('--sample-rate', type=int, default=16000,
                       help='Audio sample rate')
    args = parser.parse_args()
    try:
        # Create and start server
        server = ImprovedVoskSTTServer(model_path=args.model, sample_rate=args.sample_rate)
        asyncio.run(server.start_server(host=args.host, port=args.port))
    except KeyboardInterrupt:
        logger.info("Server stopped by user")
    except Exception as e:
        logger.error(f"Server failed to start: {e}")
        return 1
    return 0
 if __name__ == "__main__":
    exit(main())
--- a/model/README
+++ b/model/README
@@ -0,0 +1,9 @@
 US English model for mobile Vosk applications
 Copyright 2020 Alpha Cephei Inc
 Accuracy: 10.38 (tedlium test) 9.85 (librispeech test-clean)
 Speed: 0.11xRT (desktop)
 Latency: 0.15s (right context)
--- a/model/am/final.mdl
+++ b/model/am/final.mdl
--- a/model/conf/mfcc.conf
+++ b/model/conf/mfcc.conf
@@ -0,0 +1,7 @@
 --sample-frequency=16000
 --use-energy=false
 --num-mel-bins=40
 --num-ceps=40
 --low-freq=20
 --high-freq=7600
 --allow-downsample=true
--- a/model/conf/model.conf
+++ b/model/conf/model.conf
@@ -0,0 +1,10 @@
 --min-active=200
 --max-active=3000
 --beam=10.0
 --lattice-beam=2.0
 --acoustic-scale=1.0
 --frame-subsampling-factor=3
 --endpoint.silence-phones=1:2:3:4:5:6:7:8:9:10
 --endpoint.rule2.min-trailing-silence=0.5
 --endpoint.rule3.min-trailing-silence=0.75
 --endpoint.rule4.min-trailing-silence=1.0
--- a/model/graph/Gr.fst
+++ b/model/graph/Gr.fst
--- a/model/graph/HCLr.fst
+++ b/model/graph/HCLr.fst
--- a/model/graph/disambig_tid.int
+++ b/model/graph/disambig_tid.int
@@ -0,0 +1,17 @@
 10015
 10016
 10017
 10018
 10019
 10020
 10021
 10022
 10023
 10024
 10025
 10026
 10027
 10028
 10029
 10030
 10031
--- a/model/graph/phones/word_boundary.int
+++ b/model/graph/phones/word_boundary.int
@@ -0,0 +1,166 @@
 1 nonword
 2 begin
 3 end
 4 internal
 5 singleton
 6 nonword
 7 begin
 8 end
 9 internal
 10 singleton
 11 begin
 12 end
 13 internal
 14 singleton
 15 begin
 16 end
 17 internal
 18 singleton
 19 begin
 20 end
 21 internal
 22 singleton
 23 begin
 24 end
 25 internal
 26 singleton
 27 begin
 28 end
 29 internal
 30 singleton
 31 begin
 32 end
 33 internal
 34 singleton
 35 begin
 36 end
 37 internal
 38 singleton
 39 begin
 40 end
 41 internal
 42 singleton
 43 begin
 44 end
 45 internal
 46 singleton
 47 begin
 48 end
 49 internal
 50 singleton
 51 begin
 52 end
 53 internal
 54 singleton
 55 begin
 56 end
 57 internal
 58 singleton
 59 begin
 60 end
 61 internal
 62 singleton
 63 begin
 64 end
 65 internal
 66 singleton
 67 begin
 68 end
 69 internal
 70 singleton
 71 begin
 72 end
 73 internal
 74 singleton
 75 begin
 76 end
 77 internal
 78 singleton
 79 begin
 80 end
 81 internal
 82 singleton
 83 begin
 84 end
 85 internal
 86 singleton
 87 begin
 88 end
 89 internal
 90 singleton
 91 begin
 92 end
 93 internal
 94 singleton
 95 begin
 96 end
 97 internal
 98 singleton
 99 begin
 100 end
 101 internal
 102 singleton
 103 begin
 104 end
 105 internal
 106 singleton
 107 begin
 108 end
 109 internal
 110 singleton
 111 begin
 112 end
 113 internal
 114 singleton
 115 begin
 116 end
 117 internal
 118 singleton
 119 begin
 120 end
 121 internal
 122 singleton
 123 begin
 124 end
 125 internal
 126 singleton
 127 begin
 128 end
 129 internal
 130 singleton
 131 begin
 132 end
 133 internal
 134 singleton
 135 begin
 136 end
 137 internal
 138 singleton
 139 begin
 140 end
 141 internal
 142 singleton
 143 begin
 144 end
 145 internal
 146 singleton
 147 begin
 148 end
 149 internal
 150 singleton
 151 begin
 152 end
 153 internal
 154 singleton
 155 begin
 156 end
 157 internal
 158 singleton
 159 begin
 160 end
 161 internal
 162 singleton
 163 begin
 164 end
 165 internal
 166 singleton
--- a/model/ivector/final.dubm
+++ b/model/ivector/final.dubm
--- a/model/ivector/final.ie
+++ b/model/ivector/final.ie
--- a/model/ivector/final.mat
+++ b/model/ivector/final.mat
--- a/model/ivector/global_cmvn.stats
+++ b/model/ivector/global_cmvn.stats
@@ -0,0 +1,3 @@
 [
  1.682383e+11 -1.1595e+10 -1.521733e+10 4.32034e+09 -2.257938e+10 -1.969666e+10 -2.559265e+10 -1.535687e+10 -1.276854e+10 -4.494483e+09 -1.209085e+10 -5.64008e+09 -1.134847e+10 -3.419512e+09 -1.079542e+10 -4.145463e+09 -6.637486e+09 -1.11318e+09 -3.479773e+09 -1.245932e+08 -1.386961e+09 6.560655e+07 -2.436518e+08 -4.032432e+07 4.620046e+08 -7.714964e+07 9.551484e+08 -4.119761e+08 8.208582e+08 -7.117156e+08 7.457703e+08 -4.3106e+08 1.202726e+09 2.904036e+08 1.231931e+09 3.629848e+08 6.366939e+08 -4.586172e+08 -5.267629e+08 -3.507819e+08 1.679838e+09 
  1.741141e+13 8.92488e+11 8.743834e+11 8.848896e+11 1.190313e+12 1.160279e+12 1.300066e+12 1.005678e+12 9.39335e+11 8.089614e+11 7.927041e+11 6.882427e+11 6.444235e+11 5.151451e+11 4.825723e+11 3.210106e+11 2.720254e+11 1.772539e+11 1.248102e+11 6.691599e+10 3.599804e+10 1.207574e+10 1.679301e+09 4.594778e+08 5.821614e+09 1.451758e+10 2.55803e+10 3.43277e+10 4.245286e+10 4.784859e+10 4.988591e+10 4.925451e+10 5.074584e+10 4.9557e+10 4.407876e+10 3.421443e+10 3.138606e+10 2.539716e+10 1.948134e+10 1.381167e+10 0 ]
--- a/model/ivector/online_cmvn.conf
+++ b/model/ivector/online_cmvn.conf
@@ -0,0 +1 @@
 # configuration file for apply-cmvn-online, used in the script ../local/run_online_decoding.sh
--- a/model/ivector/splice.conf
+++ b/model/ivector/splice.conf
@@ -0,0 +1,2 @@
 --left-context=3
 --right-context=3
--- a/todo.md
+++ b/todo.md
@@ -0,0 +1,28 @@
 # Audio STT Streaming Project Todos
 ## Frontend Tasks
 - [ ] Create audio capture interface with start/stop recording
 - [ ] Implement WebSocket connection to server
 - [ ] Stream audio data in real-time to server
 - [ ] Display incoming transcribed text from server
 - [ ] Add audio visualization (optional)
 - [ ] Handle connection errors and reconnection
 ## Backend Tasks
 - [ ] Set up WebSocket server (Node.js/Python)
 - [ ] Integrate Vosk STT engine
 - [ ] Handle incoming audio stream processing
 - [ ] Stream transcribed text back to client
 - [ ] Add error handling and logging
 - [ ] Create deployment documentation
 ## Server Setup
 - [ ] Create Python server with Vosk integration
 - [ ] Add WebSocket support for real-time communication
 - [ ] Configure audio format handling (WAV/PCM)
 - [ ] Test with different audio sample rates
 ## Deployment
 - [ ] Create VPS deployment guide
 - [ ] Add environment configuration
 - [ ] Test end-to-end functionality
		`@@ -0,0 +1,17 @@`
							`10015`
							`10016`
							`10017`
							`10018`
							`10019`
							`10020`
							`10021`
							`10022`
							`10023`
							`10024`
							`10025`
							`10026`
							`10027`
							`10028`
							`10029`
							`10030`
							`10031`
		`@@ -0,0 +1 @@`
							`# configuration file for apply-cmvn-online, used in the script ../local/run_online_decoding.sh`