init

2025-06-26 15:17:11 +00:00
commit 263e9aa209
4 changed files with 116 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@@ -0,0 +1,4 @@
 data
 model
 piper
--- a/readme.txt
+++ b/readme.txt
@@ -0,0 +1,15 @@
 uv venv .venv
 source .venv/bin/activate.fish
 uv pip install flask
 uv pip freeze > requirements.txt
 get piper binary https://github.com/rhasspy/piper
 tar -xvf piper_linux_aarch64.tar.gz
 wget https://huggingface.co/rhasspy/piper-voices/resolve/main/en/en_US/amy/medium/en_US-amy-medium.onnx
 https://huggingface.co/rhasspy/piper-voices/tree/v1.0.0/en/en_US/amy/medium
 echo 'Welcome to the world of speech synthesis!' | \
  ./piper/piper --model en_US-lessac-medium.onnx --output_file welcome.wav
 or run any script
--- a/requirements.txt
+++ b/requirements.txt
@@ -0,0 +1,7 @@
 blinker==1.9.0
 click==8.2.1
 flask==3.1.1
 itsdangerous==2.2.0
 jinja2==3.1.6
 markupsafe==3.0.2
 werkzeug==3.1.3
--- a/stt_piper.py
+++ b/stt_piper.py
@@ -0,0 +1,90 @@
 from flask import Flask, request, Response
 import subprocess
 import os
 import time
 import random
 from datetime import datetime
 app = Flask(__name__)
 # Ensure storage directories exist
 os.makedirs('texts', exist_ok=True)
 os.makedirs('audio', exist_ok=True)
 def generate_filename():
    """Generate timestamp + random number filename"""
    timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
    random_num = random.randint(1000, 9999)
    return f"{timestamp}_{random_num}"
@app.route('/tts', methods=['POST'])
 def tts():
    # Validate input
    if not request.is_json:
        return {"error": "Request must be JSON"}, 400
    text = request.json.get('text', '').strip()
    if not text:
        return {"error": "No text provided"}, 400
    if len(text) > 1000:
        return {"error": "Text too long (max 1000 characters)"}, 400
    # Generate unique filename
    base_filename = generate_filename()
    text_filename = f"data/texts/{base_filename}.txt"
    wav_filename = f"data/audio/{base_filename}.wav"
    try:
        # Save the input text
        with open(text_filename, 'w') as f:
            f.write(text)
        # Generate WAV audio with Piper - directly to file first
        piper_cmd = [
            'echo', f'"{text}"', '|',
            './piper/piper',
            '--model', './model/en_US-amy-medium.onnx',
            '--output_file', wav_filename
        ]
        # Run the command
        process = subprocess.run(
            ' '.join(piper_cmd),
            shell=True,
            check=True,
            stdout=subprocess.PIPE,
            stderr=subprocess.PIPE
        )
        # Verify the output file was created
        if not os.path.exists(wav_filename):
            raise Exception("Piper failed to create audio file")
        # Get file size for logging
        file_size = os.path.getsize(wav_filename)
        # Read the generated audio
        with open(wav_filename, 'rb') as f:
            audio_data = f.read()
        # Log the successful generation
        print(f"Generated TTS: {len(text)} chars -> {file_size} bytes audio")
        # Return WAV audio directly
        return Response(
            audio_data,
            mimetype='audio/wav',
            headers={'Content-Disposition': f'attachment; filename={base_filename}.wav'}
        )
    except subprocess.CalledProcessError as e:
        error_msg = f"Piper TTS failed: {e.stderr.decode().strip()}"
        print(error_msg)
        return {"error": "TTS generation failed", "details": error_msg}, 500
    except Exception as e:
        error_msg = f"Unexpected error: {str(e)}"
        print(error_msg)
        return {"error": "TTS processing failed", "details": error_msg}, 500
 if __name__ == '__main__':
    app.run(host='0.0.0.0', port=4005, debug=True)