Initial commit: add Trading Studio voice-over pipeline for quant trading review videos.

Co-authored-by: Cursor <cursoragent@cursor.com>
2026-06-12 13:19:44 +08:00
commit 5e95d3af2f
10 changed files with 1862 additions and 0 deletions
@@ -0,0 +1,46 @@
 # Python 虚拟环境
 venv/
 .venv/
 env/
 # 模型权重与音色文件（体积大，不入库）
 *.pt
 *.pth
 *.onnx
 *.bin
 *.safetensors
 # 音频产物
 *.wav
 *.mp3
 *.flac
 *.ogg
 *.m4a
 # 日志
 *.log
 # 运行时目录
 uploads/
 outputs/
 __pycache__/
 *.py[cod]
 *$py.class
 .Python
 # IDE
 .idea/
 .vscode/
 *.swp
 *.swo
 # 系统文件
 .DS_Store
 Thumbs.db
 # 环境变量与密钥
 .env
 .env.*
 # Gradio 临时
 gradio_cached_examples/
@@ -0,0 +1,488 @@
 # Trading Studio 部署指南 (DEPLOY.md)
 本文档面向 **Ubuntu 物理服务器**（搭载 RTX 3060 Ti，已锁定 120W 功耗墙）的完整环境配置与 PM2 常驻部署流程。适用于首次安装或迁移重装场景。
 **Git 仓库：** https://git.bz121.com/dekun/Trading_Studio.git
 ---
 ## 目录
 1. [硬件与系统前提](#1-硬件与系统前提)
 2. [3060 Ti 120W 功耗墙配置](#2-3060-ti-120w-功耗墙配置)
 3. [NVIDIA 驱动与 CUDA](#3-nvidia-驱动与-cuda)
 4. [Python 虚拟环境](#4-python-虚拟环境)
 5. [PyTorch CUDA 12.1 安装](#5-pytorch-cuda-121-安装)
 6. [项目依赖安装](#6-项目依赖安装)
 7. [远程 Ollama 节点配置](#7-远程-ollama-节点配置)
 8. [首次运行与验证](#8-首次运行与验证)
 9. [PM2 进程守护](#9-pm2-进程守护)
 10. [迁移与故障排查](#10-迁移与故障排查)
 ---
 ## 1. 硬件与系统前提
 | 项目 | 要求 |
 |------|------|
 | GPU | NVIDIA RTX 3060 Ti 8GB |
 | 功耗墙 | 120W（推荐锁定，见下文） |
 | 系统 | Ubuntu 22.04 / 24.04 LTS |
 | 内存 | ≥ 16GB |
 | 磁盘 | ≥ 30GB 可用（含模型缓存） |
 | 网络 | 局域网可访问 `192.168.8.64:11434` |
 ```bash
 # 基础工具
 sudo apt update && sudo apt upgrade -y
 sudo apt install -y git curl wget build-essential \
    python3 python3-venv python3-dev \
    ffmpeg libsndfile1 portaudio19-dev
 ```
 > 若 `python3-venv` 包名报错，使用 `python3-venv`。
 ---
 ## 2. 3060 Ti 120W 功耗墙配置
 锁定 GPU 功耗有助于稳定 7×24 运行、降低散热压力，避免 Whisper + ChatTTS 并发时触发功耗波动。
 ### 2.1 安装 nvidia-smi 功耗管理工具
 驱动安装后自带 `nvidia-smi`。确认 GPU 可见：
 ```bash
 nvidia-smi
 ```
 ### 2.2 临时设置 120W 功耗上限
 ```bash
 # 查看支持的功耗范围
 nvidia-smi -q -d POWER | grep -A3 "Power Limit"
 # 设置最大功耗为 120W（需 root）
 sudo nvidia-smi -pl 120
 ```
 ### 2.3 开机持久化（推荐）
 创建 systemd 服务，每次启动自动应用：
 ```bash
 sudo tee /etc/systemd/system/nvidia-powerlimit.service << 'EOF'
 [Unit]
 Description=Set NVIDIA GPU Power Limit to 120W
 After=multi-user.target
 [Service]
 Type=oneshot
 ExecStart=/usr/bin/nvidia-smi -pl 120
 RemainAfterExit=yes
 [Install]
 WantedBy=multi-user.target
 EOF
 sudo systemctl daemon-reload
 sudo systemctl enable nvidia-powerlimit.service
 sudo systemctl start nvidia-powerlimit.service
 # 验证
 nvidia-smi --query-gpu=power.limit --format=csv
 ```
 ---
 ## 3. NVIDIA 驱动与 CUDA
 ### 3.1 安装驱动（推荐 535+ 或 550+）
 ```bash
 # Ubuntu 自动安装推荐驱动
 sudo ubuntu-drivers devices
 sudo ubuntu-drivers autoinstall
 # 或指定版本: sudo apt install nvidia-driver-550
 sudo reboot
 ```
 重启后验证：
 ```bash
 nvidia-smi
 nvcc --version   # 若未安装 nvcc 不影响 PyTorch，可选
 ```
 ### 3.2 cuDNN（Faster-Whisper / PyTorch 需要）
 PyTorch cu121 wheel 通常自带运行时库。若 Whisper 报 cuDNN 错误：
 ```bash
 # 参考 NVIDIA 官方文档安装 cuDNN for CUDA 12.x
 # https://developer.nvidia.com/cudnn
 ```
 ---
 ## 4. Python 虚拟环境
 ```bash
 # 克隆项目
 cd ~
 git clone https://git.bz121.com/dekun/Trading_Studio.git
 cd Trading_Studio
 # 创建虚拟环境（必须使用 venv，与 PM2 interpreter 路径一致）
 python3 -m venv venv
 # 激活
 source venv/bin/activate
 # 升级 pip
 pip install --upgrade pip setuptools wheel
 ```
 **重要：** PM2 配置中 `interpreter` 指向 `./venv/bin/python`，请确保在项目根目录创建 `venv/`。
 ---
 ## 5. PyTorch CUDA 12.1 安装
 **必须先于其他 GPU 依赖安装**，避免 pip 拉取 CPU 版 torch。
 ```bash
 source venv/bin/activate
 pip install torch torchvision torchaudio \
    --index-url https://download.pytorch.org/whl/cu121
 ```
 验证 CUDA 可用：
 ```bash
 python -c "
 import torch
 print('PyTorch:', torch.__version__)
 print('CUDA available:', torch.cuda.is_available())
 print('GPU:', torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'N/A')
 "
 ```
 期望输出类似：
 ```
 PyTorch: 2.x.x+cu121
 CUDA available: True
 GPU: NVIDIA GeForce RTX 3060 Ti
 ```
 ---
 ## 6. 项目依赖安装
 ```bash
 source venv/bin/activate
 cd ~/Trading_Studio
 # 安装其余依赖
 pip install -r requirements.txt
 ```
 ### 6.1 Faster-Whisper
 随 `requirements.txt` 安装。首次运行会自动下载 `small` 模型（约 500MB）至 HuggingFace 缓存。
 ### 6.2 ChatTTS
 从 GitHub 源码安装（已在 requirements.txt 中指定）：
 ```bash
 pip install ChatTTS @ git+https://github.com/2noise/ChatTTS.git
 ```
 首次 `save_fixed_speaker` 或 `generate_voice` 时会下载模型权重（数 GB），请确保网络畅通或提前配置 HuggingFace 镜像：
 ```bash
 export HF_ENDPOINT=https://hf-mirror.com   # 可选，国内加速
 ```
 ### 6.3 Gradio
 ```bash
 pip install gradio>=4.44.0
 ```
 ---
 ## 7. 远程 Ollama 节点配置
 Trading Studio 的 LLM 润色模块连接局域网 Ollama，**不在本机运行大模型**。
 | 配置项 | 值 |
 |--------|-----|
 | 地址 | `http://192.168.8.64:11434` |
 | API | `POST /api/chat` |
 | 模型 | `huihui_ai/gemma-4-abliterated:e4b` |
 | 流式 | `stream: false` |
 ### 7.1 在 Ollama 节点（192.168.8.64）上
 ```bash
 # 安装 Ollama（若未安装）
 curl -fsSL https://ollama.com/install.sh | sh
 # 拉取模型
 ollama pull huihui_ai/gemma-4-abliterated:e4b
 # 允许局域网访问（编辑 systemd 或环境变量）
 sudo systemctl edit ollama
 ```
 添加：
 ```ini
 [Service]
 Environment="OLLAMA_HOST=0.0.0.0:11434"
 ```
 ```bash
 sudo systemctl daemon-reload
 sudo systemctl restart ollama
 ```
 ### 7.2 在本机（Trading Studio 服务器）验证
 ```bash
 curl http://192.168.8.64:11434/api/tags
 curl http://192.168.8.64:11434/api/chat -d '{
  "model": "huihui_ai/gemma-4-abliterated:e4b",
  "messages": [{"role": "user", "content": "ping"}],
  "stream": false
 }'
 ```
 ---
 ## 8. 首次运行与验证
 ```bash
 source venv/bin/activate
 cd ~/Trading_Studio
 # 前台启动（调试）
 python app.py
 ```
 浏览器访问：
 ```
 http://<本机局域网IP>:5683
 ```
 ### 8.1 验证清单
 - [ ] 页面加载，Ollama 状态显示在线
 - [ ] 上传 10-30s 参考人声 → 音色锁定成功，生成 `speaker_emb.pt`
 - [ ] 上传复盘录音 → Whisper 识别出中文文本
 - [ ] 点击润色 → 返回 Gemma4 处理后的文稿
 - [ ] 点击合成 → `outputs/` 下生成 24kHz wav
 ### 8.2 日志位置
 - 应用日志：`trading_studio.log`（项目根目录）
 - PM2 日志：`logs/pm2-out.log`、`logs/pm2-error.log`
 ```bash
 mkdir -p logs
 ```
 ---
 ## 9. PM2 进程守护
 Trading Studio 原生支持 PM2 常驻管理，确保 Gradio 服务崩溃后自动重启、开机自启。
 ### 9.1 安装 Node.js 与 PM2
 ```bash
 # 安装 Node.js 20 LTS
 curl -fsSL https://deb.nodesource.com/setup_20.x | sudo -E bash -
 sudo apt install -y nodejs
 # 全局安装 PM2
 sudo npm install -g pm2
 ```
 ### 9.2 方式 A：使用 ecosystem.config.js（推荐）
 项目已内置 `ecosystem.config.js`：
 ```javascript
 module.exports = {
  apps: [{
    name: "trading_studio",
    script: "app.py",
    interpreter: "./venv/bin/python",
    cwd: __dirname,
    instances: 1,
    autorestart: true,
    max_memory_restart: "6G",
    env: {
      PYTHONUNBUFFERED: "1",
      CUDA_VISIBLE_DEVICES: "0",
    },
  }],
 };
 ```
 启动：
 ```bash
 cd ~/Trading_Studio
 mkdir -p logs
 pm2 start ecosystem.config.js
 pm2 status
 pm2 logs trading_studio --lines 50
 ```
 ### 9.3 方式 B：直接命令行
 ```bash
 cd ~/Trading_Studio
 pm2 start app.py \
    --name "trading_studio" \
    --interpreter ./venv/bin/python
 pm2 save
 ```
 ### 9.4 开机自启
 ```bash
 pm2 startup
 # 按提示执行输出的 sudo 命令
 pm2 save
 ```
 ### 9.5 常用运维命令
 ```bash
 pm2 restart trading_studio    # 重启（改代码后）
 pm2 stop trading_studio       # 停止
 pm2 delete trading_studio     # 移除
 pm2 monit                     # 实时监控 CPU/内存
 ```
 ### 9.6 更新代码后重新部署
 ```bash
 cd ~/Trading_Studio
 git pull
 source venv/bin/activate
 pip install -r requirements.txt   # 若有新依赖
 pm2 restart trading_studio
 ```
 ---
 ## 10. 迁移与故障排查
 ### 10.1 迁移到新机器
 1. 复制 `speaker_emb.pt`（音色文件，在 `.gitignore` 中，需手动备份）
 2. 新机器按本文档完整部署
 3. 将 `speaker_emb.pt` 放回项目根目录
 4. `pm2 restart trading_studio`
 ### 10.2 CUDA / 显存问题
 ```bash
 # 查看显存占用
 nvidia-smi
 # 若 OOM，确保无其他 GPU 进程
 fuser -v /dev/nvidia*
 ```
 Whisper 与 ChatTTS 不会同时常驻最大显存，但首次加载模型时峰值较高。建议：
 - 锁定 120W 功耗墙
 - `max_memory_restart: "6G"` 已在 PM2 配置中设置
 ### 10.3 Whisper CUDA 报错
 ```
 错误: CUDA initialization failed / out of memory
 ```
 处理：
 1. 重启 PM2 进程释放显存
 2. 确认 `compute_type="float16"`（已在 config.py 配置）
 3. 降级模型为 `base`（修改 `config.py` 中 `WHISPER_MODEL_SIZE`）
 ### 10.4 Ollama 超时
 ```
 连接 Ollama 超时（>60s）
 ```
 处理：
 1. 确认 Ollama 节点模型已预加载：`ollama run huihui_ai/gemma-4-abliterated:e4b`
 2. 增大 `config.py` 中 `OLLAMA_TIMEOUT`
 3. 检查防火墙：`sudo ufw allow from 192.168.8.0/24 to any port 11434`（在 Ollama 节点）
 ### 10.5 ChatTTS 音色文件损坏
 ```bash
 rm speaker_emb.pt
 # 重新在 Web UI「音色锁定」上传参考人声
 ```
 ### 10.6 端口 5683 被占用
 ```bash
 sudo lsof -i :5683
 # 或
 ss -tlnp | grep 5683
 ```
 ---
 ## 附录：防火墙（本机 Gradio）
 若需局域网其他设备访问 Web UI：
 ```bash
 sudo ufw allow 5683/tcp
 sudo ufw reload
 ```
 访问地址：`http://<服务器局域网IP>:5683`
 ---
 ## 附录：config.py 关键常量速查
 ```python
 HOST = "0.0.0.0"
 PORT = 5683
 OLLAMA_URL = "http://192.168.8.64:11434/api/chat"
 MODEL_NAME = "huihui_ai/gemma-4-abliterated:e4b"
 WHISPER_MODEL_SIZE = "small"
 WHISPER_DEVICE = "cuda"
 WHISPER_COMPUTE_TYPE = "float16"
 SPEAKER_EMB_PATH = "speaker_emb.pt"
 TTS_SAMPLE_RATE = 24000
 ```
 ---
 **部署完成后，请先在「音色锁定」模块完成首次音色提取，再进行日常复盘配音生产。**
@@ -0,0 +1,197 @@
 # Trading Studio
 **本地量化交易复盘 → B 站长视频配音生产流水线**
 Trading Studio 是一套运行在 Ubuntu 物理服务器（RTX 3060 Ti）上的自动化配音系统，专为数字资产量化交易员设计。通过「盲录碎碎念 → 本地 GPU 识别 → 局域网大模型严厉润色 → 本地 GPU 声音克隆」的闭环，高效产出 B 站反思类长视频配音，辅助交易纪律的自我进化。
 **Git 仓库：** https://git.bz121.com/dekun/Trading_Studio.git
 ---
 ## 系统定位
 | 环节 | 技术栈 | 运行位置 |
 |------|--------|----------|
 | 碎碎念录音转写 | Faster-Whisper (CUDA float16) | 本地 3060 Ti |
 | 纪律审判式润色 | Gemma4 Abliterated @ Ollama | 局域网 `192.168.8.64` |
 | 固定音色配音 | ChatTTS (CUDA) | 本地 3060 Ti |
 | Web 中控 | Gradio | 端口 **5683** |
 ---
 ## 架构说明
 ```
 ┌─────────────────────────────────────────────────────────────┐
 │                    Gradio 中控 (app.py:5683)                 │
 ├──────────────┬──────────────────────┬───────────────────────┤
 │  音色锁定     │   音频识别            │   润色 + 合成          │
 │ tts_service  │  whisper_service     │ llm_service           │
 │              │                      │ tts_service           │
 └──────┬───────┴──────────┬───────────┴──────────┬────────────┘
       │                  │                      │
       ▼                  ▼                      ▼
  speaker_emb.pt    Faster-Whisper          Ollama HTTP
  (本地持久化)       CUDA / small            192.168.8.64:11434
                                            gemma-4-abliterated
 ```
 ### 模块解耦
 | 文件 | 职责 |
 |------|------|
 | `config.py` | Ollama 地址、模型名、Prompt、路径等全局配置 |
 | `whisper_service.py` | Faster-Whisper CUDA 转写 |
 | `llm_service.py` | 远程 Ollama HTTP 非流式润色 |
 | `tts_service.py` | ChatTTS 音色提取与 wav 合成 |
 | `app.py` | Gradio 前端与流程编排 |
 ---
 ## 快速开始
 > 完整环境配置请参阅 [DEPLOY.md](./DEPLOY.md)
 ```bash
 # 1. 克隆仓库
 git clone https://git.bz121.com/dekun/Trading_Studio.git
 cd Trading_Studio
 # 2. 创建虚拟环境并安装依赖（详见 DEPLOY.md）
 python3 -m venv venv
 source venv/bin/activate
 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
 pip install -r requirements.txt
 # 3. 启动中控
 python app.py
 # 浏览器访问: http://<服务器IP>:5683
 ```
 ---
 ## 使用流程
 ### 首次使用：锁定音色
 1. 进入 **「音色锁定」** 标签页
 2. 上传 10-30 秒干净人声参考（你的碎碎念盲录样本）
 3. （可选）填写参考音频的精确转写，提升 zero-shot 还原度
 4. 点击 **锁定音色** → 生成 `speaker_emb.pt`
 ### 日常生产
 **方式 A — 分步操作：**
 1. **音频极速识别**：上传复盘录音 → Whisper 转写
 2. **Gemma4 纪律审判**：一键润色，生成逻辑清晰、语气严厉的反思稿
 3. **ChatTTS 合成**：输出 24kHz `.wav` 成品配音
 **方式 B — 一键生产：**
 上传录音后点击 **启动全流程**，系统自动串联三步。
 ---
 ## 核心配置（config.py）
 | 配置项 | 默认值 |
 |--------|--------|
 | 中控端口 | `5683`（`0.0.0.0` 局域网可访问） |
 | Ollama 地址 | `http://192.168.8.64:11434` |
 | 模型名称 | `huihui_ai/gemma-4-abliterated:e4b` |
 | Whisper 模型 | `small` / CUDA / float16 |
 | 音色文件 | `speaker_emb.pt` |
 | 音频输出 | `outputs/` 目录 |
 ---
 ## PM2 守护运行
 ```bash
 # 方式 1：ecosystem 配置
 pm2 start ecosystem.config.js
 # 方式 2：直接命令
 pm2 start app.py --name "trading_studio" --interpreter ./venv/bin/python
 # 常用管理
 pm2 status
 pm2 logs trading_studio
 pm2 restart trading_studio
 pm2 save && pm2 startup   # 开机自启
 ```
 ---
 ## .gitignore 配置
 提交 Git 时请确保忽略以下产物（已在 `.gitignore` 中预设）：
 ```gitignore
 venv/
 *.wav
 *.pt
 *.log
 uploads/
 outputs/
 ```
 **说明：**
 - `venv/` — Python 虚拟环境，每台机器独立创建
 - `*.wav` — 录音与合成音频，体积大且含隐私
 - `*.pt` — ChatTTS 音色 Embedding 与模型权重
 - `*.log` — 运行日志
 ---
 ## 目录结构
 ```
 Trading_Studio/
 ├── app.py                 # Gradio 主入口
 ├── config.py              # 全局配置
 ├── whisper_service.py     # Whisper CUDA 识别
 ├── llm_service.py         # Ollama 远程润色
 ├── tts_service.py         # ChatTTS 音色与合成
 ├── ecosystem.config.js    # PM2 守护配置
 ├── requirements.txt       # Python 依赖
 ├── README.md              # 本文件
 ├── DEPLOY.md              # 部署指南
 ├── .gitignore
 ├── speaker_emb.pt         # 音色文件（运行时生成，不入库）
 ├── uploads/               # 上传临时目录
 └── outputs/               # 合成 wav 输出
 ```
 ---
 ## 硬件要求
 - **GPU：** NVIDIA RTX 3060 Ti（8GB 显存，建议锁定 120W 功耗墙）
 - **系统：** Ubuntu 22.04 / 24.04 LTS
 - **CUDA：** 12.1+（与 PyTorch cu121 匹配）
 - **局域网：** 可访问 `192.168.8.64:11434` 的 Ollama 节点
 ---
 ## 常见问题
 **Q: Whisper 报 CUDA 错误？**  
 A: 确认 `nvidia-smi` 正常，且未同时运行其他占显存任务。Whisper 使用 `float16` 已针对 8GB 优化。
 **Q: Ollama 连接失败？**  
 A: 在服务器上执行 `curl http://192.168.8.64:11434/api/tags` 验证连通性，确认模型已 `ollama pull`。
 **Q: TTS 音色不稳定？**  
 A: 重新锁定音色，填写参考音频精确转写，并保持 `temperature=0.3` 低随机性。
 **Q: 合成音频为空或噪声？**  
 A: 检查润色文本长度（过短可能导致异常），确认 `speaker_emb.pt` 存在且有效。
 ---
 ## License
 Private — 仅供个人量化交易复盘使用。
@@ -0,0 +1,378 @@
 """
 Trading Studio — 自动化交易复盘视频配音系统
 Gradio Web 中控：音色锁定 → Whisper 识别 → Gemma4 润色 → ChatTTS 合成
 """
 from __future__ import annotations
 import logging
 import shutil
 import sys
 import uuid
 from pathlib import Path
 import gradio as gr
 from config import (
    GIT_REPO_URL,
    HOST,
    MODEL_NAME,
    OLLAMA_URL,
    PORT,
    SPEAKER_EMB_PATH,
    UPLOAD_DIR,
 )
 from llm_service import check_ollama_health, polish_text
 from tts_service import generate_voice, save_fixed_speaker, speaker_is_ready
 from whisper_service import transcribe_audio
 # ---------------------------------------------------------------------------
 # 日志
 # ---------------------------------------------------------------------------
 logging.basicConfig(
    level=logging.INFO,
    format="%(asctime)s [%(levelname)s] %(name)s: %(message)s",
    handlers=[
        logging.StreamHandler(sys.stdout),
        logging.FileHandler("trading_studio.log", encoding="utf-8"),
    ],
 )
 logger = logging.getLogger("trading_studio")
 # ---------------------------------------------------------------------------
 # 全局 UI 状态（Gradio State）
 # ---------------------------------------------------------------------------
 # raw_transcript / polished_script 在流水线中传递
 def _save_upload(upload_file) -> str | None:
    """将 Gradio 上传文件复制到本地 uploads 目录，返回持久化路径。"""
    if upload_file is None:
        return None
    src = Path(upload_file)
    if not src.exists():
        return None
    dest = UPLOAD_DIR / f"{uuid.uuid4().hex}_{src.name}"
    shutil.copy2(src, dest)
    return str(dest)
 # ---------------------------------------------------------------------------
 # 模块 1：音色锁定
 # ---------------------------------------------------------------------------
 def ui_lock_speaker(audio_file, sample_transcript: str) -> str:
    """【音色锁定】从参考人声提取并保存 Speaker Embedding。"""
    path = _save_upload(audio_file)
    if not path:
        return "请上传 10-30 秒干净参考人声（wav/mp3 均可）。"
    ok, msg = save_fixed_speaker(path, sample_transcript or "")
    return msg if ok else f"❌ {msg}"
 def ui_speaker_status() -> str:
    """刷新音色状态。"""
    ok, msg = speaker_is_ready()
    return f"✅ {msg}" if ok else f"⚠️ {msg}"
 # ---------------------------------------------------------------------------
 # 模块 2：音频极速识别
 # ---------------------------------------------------------------------------
 def ui_transcribe(audio_file) -> tuple[str, str]:
    """【Whisper 识别】返回 (转写文本, 状态日志)。"""
    path = _save_upload(audio_file)
    if not path:
        return "", "请上传待识别的碎碎念录音。"
    ok, result = transcribe_audio(path)
    if ok:
        return result, f"✅ 识别完成，共 {len(result)} 字。"
    return "", f"❌ {result}"
 # ---------------------------------------------------------------------------
 # 模块 3：Gemma4 纪律审判
 # ---------------------------------------------------------------------------
 def ui_polish(raw_text: str) -> tuple[str, str]:
    """【LLM 润色】对转写稿进行严厉自我反思式润色。"""
    if not raw_text or not raw_text.strip():
        return "", "请先完成语音识别或手动粘贴转写文本。"
    ok, result = polish_text(raw_text)
    if ok:
        return result, f"✅ Gemma4 润色完成，共 {len(result)} 字。"
    return "", f"❌ {result}"
 def ui_check_ollama() -> str:
    """检测远程 Ollama 节点状态。"""
    ok, msg = check_ollama_health()
    return f"✅ {msg}" if ok else f"❌ {msg}"
 # ---------------------------------------------------------------------------
 # 模块 4：ChatTTS 音频合成
 # ---------------------------------------------------------------------------
 def ui_synthesize(polished_text: str) -> tuple[str | None, str]:
    """【TTS 合成】生成最终 wav 配音文件。"""
    if not polished_text or not polished_text.strip():
        return None, "请先完成 Gemma4 润色。"
    ok, msg, wav_path = generate_voice(polished_text)
    if ok and wav_path:
        return wav_path, f"✅ {msg}"
    return None, f"❌ {msg}"
 # ---------------------------------------------------------------------------
 # 一键流水线
 # ---------------------------------------------------------------------------
 def ui_full_pipeline(
    audio_file,
    skip_polish: bool,
    manual_raw: str,
 ) -> tuple[str, str, str | None, str]:
    """
    串联执行：识别 → 润色（可跳过）→ 合成。
    返回 (raw, polished, wav_path, log)
    """
    logs: list[str] = []
    # Step 1: 识别
    if manual_raw and manual_raw.strip():
        raw = manual_raw.strip()
        logs.append(f"使用手动输入转写稿（{len(raw)} 字）。")
    else:
        path = _save_upload(audio_file)
        if not path:
            return "", "", None, "❌ 请上传录音或手动填写转写文本。"
        ok, result = transcribe_audio(path)
        if not ok:
            return "", "", None, f"❌ 识别失败: {result}"
        raw = result
        logs.append(f"✅ Whisper 识别完成（{len(raw)} 字）。")
    # Step 2: 润色
    if skip_polish:
        polished = raw
        logs.append("已跳过 LLM 润色，直接使用原文。")
    else:
        ok, result = polish_text(raw)
        if not ok:
            return raw, "", None, f"❌ 润色失败: {result}\n" + "\n".join(logs)
        polished = result
        logs.append(f"✅ Gemma4 润色完成（{len(polished)} 字）。")
    # Step 3: 合成
    ok, msg, wav_path = generate_voice(polished)
    if not ok:
        return raw, polished, None, f"❌ 合成失败: {msg}\n" + "\n".join(logs)
    logs.append(f"✅ {msg}")
    return raw, polished, wav_path, "\n".join(logs)
 # ---------------------------------------------------------------------------
 # Gradio 界面
 # ---------------------------------------------------------------------------
 CUSTOM_CSS = """
 /* 硬核暗黑科技风 */
 .gradio-container {
    background: linear-gradient(160deg, #0a0a0f 0%, #12121a 40%, #0d0d12 100%) !important;
    color: #c8c8d0 !important;
 }
 .dark-panel {
    border: 1px solid #2a2a35;
    border-radius: 8px;
    padding: 16px;
    background: rgba(18, 18, 26, 0.85);
    margin-bottom: 12px;
 }
 h1, h2, h3 { color: #e8e8f0 !important; letter-spacing: 0.05em; }
 .status-bar {
    font-family: 'Consolas', 'Monaco', monospace;
    font-size: 0.85em;
    color: #7a7a90;
 }
 footer { visibility: hidden; }
 """
 def build_app() -> gr.Blocks:
    """构建 Gradio 主界面。"""
    theme = gr.themes.Monochrome(
        primary_hue="slate",
        secondary_hue="gray",
        neutral_hue="slate",
        font=[gr.themes.GoogleFont("Inter"), "system-ui", "sans-serif"],
        font_mono=[gr.themes.GoogleFont("JetBrains Mono"), "Consolas", "monospace"],
    ).set(
        body_background_fill="#0a0a0f",
        body_background_fill_dark="#0a0a0f",
        block_background_fill="#12121a",
        block_background_fill_dark="#12121a",
        block_border_color="#2a2a35",
        block_label_text_color="#9090a0",
        input_background_fill="#1a1a24",
        button_primary_background_fill="#3a3a50",
        button_primary_background_fill_hover="#4a4a60",
    )
    with gr.Blocks(
        title="Trading Studio | 交易复盘配音中控",
        theme=theme,
        css=CUSTOM_CSS,
    ) as demo:
        gr.Markdown(
            f"""
 # ⚡ Trading Studio
 **本地量化交易复盘 → B 站配音生产流水线**
 `Whisper(CUDA)` → `Gemma4 @ {OLLAMA_URL}` → `ChatTTS(CUDA)`
 > 仓库: [{GIT_REPO_URL}]({GIT_REPO_URL})
            """,
            elem_classes=["dark-panel"],
        )
        with gr.Row():
            ollama_status = gr.Textbox(
                label="Ollama 节点",
                value=f"模型: {MODEL_NAME}",
                interactive=False,
                scale=3,
                elem_classes=["status-bar"],
            )
            speaker_status = gr.Textbox(
                label="音色状态",
                value="检测中...",
                interactive=False,
                scale=2,
                elem_classes=["status-bar"],
            )
            refresh_btn = gr.Button("🔄 刷新状态", scale=1)
        refresh_btn.click(
            fn=lambda: (ui_check_ollama(), ui_speaker_status()),
            outputs=[ollama_status, speaker_status],
        )
        with gr.Tabs():
            # ---- Tab 1: 音色锁定 ----
            with gr.Tab("🎙️ 音色锁定"):
                gr.Markdown(
                    "上传 **10-30 秒** 干净人声样本，系统将提取 Speaker Embedding "
                    f"并保存至 `{SPEAKER_EMB_PATH.name}`，后续合成 100% 还原音色。"
                )
                with gr.Row():
                    spk_audio = gr.Audio(
                        label="参考人声（碎碎念盲录样本）",
                        type="filepath",
                        sources=["upload", "microphone"],
                    )
                    spk_transcript = gr.Textbox(
                        label="参考音频精确转写（可选，提升还原度）",
                        placeholder="尽量与参考音频内容完全一致...",
                        lines=6,
                    )
                lock_btn = gr.Button("🔒 锁定音色", variant="primary")
                lock_log = gr.Textbox(label="锁定结果", lines=4, interactive=False)
                lock_btn.click(ui_lock_speaker, [spk_audio, spk_transcript], lock_log)
            # ---- Tab 2: 分步操作 ----
            with gr.Tab("🔧 分步流水线"):
                with gr.Row():
                    with gr.Column(scale=1):
                        gr.Markdown("### Step 1 · 音频极速识别")
                        rec_audio = gr.Audio(
                            label="交易复盘碎碎念录音",
                            type="filepath",
                            sources=["upload", "microphone"],
                        )
                        transcribe_btn = gr.Button("⚡ Faster-Whisper 识别", variant="primary")
                        transcribe_log = gr.Textbox(label="识别日志", lines=2, interactive=False)
                    with gr.Column(scale=1):
                        gr.Markdown("### Step 2 · Gemma4 纪律审判")
                        raw_text = gr.Textbox(
                            label="转写原文（可编辑）",
                            lines=10,
                            placeholder="识别结果将显示在此，也可手动粘贴...",
                        )
                        polish_btn = gr.Button("⚖️ 远程 Gemma4 严厉润色", variant="primary")
                        polish_log = gr.Textbox(label="润色日志", lines=2, interactive=False)
                    with gr.Column(scale=1):
                        gr.Markdown("### Step 3 · ChatTTS 配音合成")
                        polished_text = gr.Textbox(
                            label="润色配音稿（可编辑）",
                            lines=10,
                            placeholder="润色结果将显示在此...",
                        )
                        synth_btn = gr.Button("🔊 合成配音 WAV", variant="primary")
                        synth_log = gr.Textbox(label="合成日志", lines=2, interactive=False)
                        output_audio = gr.Audio(label="成品配音", type="filepath")
                transcribe_btn.click(ui_transcribe, rec_audio, [raw_text, transcribe_log])
                polish_btn.click(ui_polish, raw_text, [polished_text, polish_log])
                synth_btn.click(ui_synthesize, polished_text, [output_audio, synth_log])
            # ---- Tab 3: 一键生产 ----
            with gr.Tab("🚀 一键生产"):
                gr.Markdown(
                    "上传碎碎念录音，系统自动完成 **识别 → 润色 → 合成** 全流程。"
                )
                with gr.Row():
                    pipe_audio = gr.Audio(
                        label="复盘录音",
                        type="filepath",
                        sources=["upload", "microphone"],
                    )
                    pipe_manual = gr.Textbox(
                        label="或手动输入转写（跳过识别）",
                        lines=4,
                        placeholder="若已有转写文本，可直接粘贴，留空则走 Whisper 识别",
                    )
                skip_polish_cb = gr.Checkbox(
                    label="跳过 Gemma4 润色（仅测试 TTS）",
                    value=False,
                )
                pipeline_btn = gr.Button("▶ 启动全流程", variant="primary", size="lg")
                pipeline_log = gr.Textbox(label="流水线日志", lines=6, interactive=False)
                with gr.Row():
                    pipe_raw = gr.Textbox(label="转写原文", lines=6)
                    pipe_polished = gr.Textbox(label="润色稿", lines=6)
                pipe_output = gr.Audio(label="成品配音", type="filepath")
                pipeline_btn.click(
                    ui_full_pipeline,
                    [pipe_audio, skip_polish_cb, pipe_manual],
                    [pipe_raw, pipe_polished, pipe_output, pipeline_log],
                )
        demo.load(
            fn=lambda: (ui_check_ollama(), ui_speaker_status()),
            outputs=[ollama_status, speaker_status],
        )
    return demo
 def main() -> None:
    """主入口：启动 Gradio 服务。"""
    logger.info("Trading Studio 启动中... HOST=%s PORT=%s", HOST, PORT)
    app = build_app()
    app.launch(
        server_name=HOST,
        server_port=PORT,
        share=False,
        show_error=True,
        allowed_paths=[str(Path(__file__).resolve().parent / "outputs")],
    )
 if __name__ == "__main__":
    main()
@@ -0,0 +1,82 @@
 """
 Trading Studio 全局配置模块
 统一存放局域网节点、模型名称、固定 Prompt 及本地路径。
 """
 from pathlib import Path
 # ---------------------------------------------------------------------------
 # 网络与服务
 # ---------------------------------------------------------------------------
 # 远程 Ollama 节点（局域网大模型审查润色）
 OLLAMA_HOST = "192.168.8.64"
 OLLAMA_PORT = 11434
 OLLAMA_URL = f"http://{OLLAMA_HOST}:{OLLAMA_PORT}/api/chat"
 # 指定无限制版 Gemma4 模型
 MODEL_NAME = "huihui_ai/gemma-4-abliterated:e4b"
 # Gradio 中控固定端口（硬性死规则）
 HOST = "0.0.0.0"
 PORT = 5683
 # HTTP 请求超时（秒）
 OLLAMA_TIMEOUT = 60
 # ---------------------------------------------------------------------------
 # LLM 系统 Prompt
 # ---------------------------------------------------------------------------
 SYSTEM_PROMPT = (
    "你是一个冷静、极其严格的数字资产量化交易员。"
    "请把下面这段口语化、包含结巴和逻辑混乱的交易复盘录音转写，"
    "润色成一段逻辑清晰、行文通顺的 B 站长视频反思配音稿。"
    "语气要内向、克制、严谨。"
    "如果原视频中有由于心态不好、违背交易纪律（如手贱乱开仓、提前平仓）"
    "导致少赚或亏损的部分，请用冷酷、严厉的语气狠狠地自我吐槽、反思该点。"
    "去掉所有无意义的口头禅，字数不做删减。"
 )
 # ---------------------------------------------------------------------------
 # Faster-Whisper 配置
 # ---------------------------------------------------------------------------
 WHISPER_MODEL_SIZE = "small"
 WHISPER_DEVICE = "cuda"
 WHISPER_COMPUTE_TYPE = "float16"
 WHISPER_LANGUAGE = "zh"
 # ---------------------------------------------------------------------------
 # ChatTTS 配置
 # ---------------------------------------------------------------------------
 # 项目根目录
 BASE_DIR = Path(__file__).resolve().parent
 # 固定音色 Embedding 存储路径
 SPEAKER_EMB_PATH = BASE_DIR / "speaker_emb.pt"
 # 合成音频输出目录
 OUTPUT_DIR = BASE_DIR / "outputs"
 OUTPUT_DIR.mkdir(parents=True, exist_ok=True)
 # ChatTTS 采样率（Hz）
 TTS_SAMPLE_RATE = 24000
 # 音色样本时长建议（秒）
 SPEAKER_SAMPLE_MIN_SEC = 10
 SPEAKER_SAMPLE_MAX_SEC = 30
 # TTS 推理默认参数（低 temperature 有助于音色稳定）
 TTS_TEMPERATURE = 0.3
 TTS_TOP_P = 0.7
 TTS_TOP_K = 20
 TTS_SPEED_PROMPT = "[speed_5]"
 # ---------------------------------------------------------------------------
 # 上传临时文件目录
 # ---------------------------------------------------------------------------
 UPLOAD_DIR = BASE_DIR / "uploads"
 UPLOAD_DIR.mkdir(parents=True, exist_ok=True)
 # ---------------------------------------------------------------------------
 # Git 仓库（文档引用）
 # ---------------------------------------------------------------------------
 GIT_REPO_URL = "https://git.bz121.com/dekun/Trading_Studio.git"
@@ -0,0 +1,26 @@
 /**
 * PM2 进程守护配置
 * 用法: pm2 start ecosystem.config.js
 */
 module.exports = {
  apps: [
    {
      name: "trading_studio",
      script: "app.py",
      interpreter: "./venv/bin/python",
      cwd: __dirname,
      instances: 1,
      autorestart: true,
      watch: false,
      max_memory_restart: "6G",
      env: {
        PYTHONUNBUFFERED: "1",
        CUDA_VISIBLE_DEVICES: "0",
      },
      error_file: "./logs/pm2-error.log",
      out_file: "./logs/pm2-out.log",
      log_date_format: "YYYY-MM-DD HH:mm:ss",
      merge_logs: true,
    },
  ],
 };
@@ -0,0 +1,162 @@
 """
 远程 Ollama LLM 润色服务
 通过局域网 HTTP 请求 Gemma4 模型，对交易复盘转写稿进行纪律审判式润色。
 """
 from __future__ import annotations
 import logging
 from typing import Tuple
 import requests
 from config import MODEL_NAME, OLLAMA_TIMEOUT, OLLAMA_URL, SYSTEM_PROMPT
 logger = logging.getLogger(__name__)
 def _build_payload(raw_text: str) -> dict:
    """构造 Ollama /api/chat 非流式请求体。"""
    return {
        "model": MODEL_NAME,
        "messages": [
            {"role": "system", "content": SYSTEM_PROMPT},
            {
                "role": "user",
                "content": (
                    "以下是我的交易复盘录音转写原文，请严格按系统要求润色：\n\n"
                    f"{raw_text}"
                ),
            },
        ],
        "stream": False,
        "options": {
            "temperature": 0.7,
            "num_predict": 4096,
        },
    }
 def _extract_content(response_json: dict) -> str:
    """从 Ollama 响应 JSON 中提取 assistant 文本。"""
    # /api/chat 标准格式
    message = response_json.get("message")
    if isinstance(message, dict):
        content = message.get("content", "").strip()
        if content:
            return content
    # 兼容 /api/generate 格式（部分旧版或代理）
    if "response" in response_json:
        content = str(response_json["response"]).strip()
        if content:
            return content
    raise ValueError(f"无法从 Ollama 响应中解析文本内容: {response_json}")
 def polish_text(raw_text: str) -> Tuple[bool, str]:
    """
    调用远程 Ollama 对原始转写文本进行润色。
    Args:
        raw_text: Whisper 转写得到的原始口语文本
    Returns:
        (success, polished_text_or_error_message)
    """
    if not raw_text or not raw_text.strip():
        return False, "润色输入为空，请先完成语音识别。"
    payload = _build_payload(raw_text.strip())
    try:
        logger.info("正在请求 Ollama: %s, model=%s", OLLAMA_URL, MODEL_NAME)
        response = requests.post(
            OLLAMA_URL,
            json=payload,
            timeout=OLLAMA_TIMEOUT,
        )
        response.raise_for_status()
        data = response.json()
        polished = _extract_content(data)
        if not polished:
            return False, "Ollama 返回内容为空，请检查模型是否正常加载。"
        logger.info("润色完成，输出字数: %d", len(polished))
        return True, polished
    except requests.exceptions.ConnectTimeout:
        err = (
            f"连接 Ollama 超时（>{OLLAMA_TIMEOUT}s）。"
            f"请确认 {OLLAMA_URL} 可达且 Ollama 服务已启动。"
        )
        logger.error(err)
        return False, err
    except requests.exceptions.ReadTimeout:
        err = (
            f"Ollama 响应超时（>{OLLAMA_TIMEOUT}s）。"
            "模型可能正在加载或生成长度过长，请稍后重试。"
        )
        logger.error(err)
        return False, err
    except requests.exceptions.ConnectionError as exc:
        err = (
            f"无法连接到 Ollama 节点 ({OLLAMA_URL})。"
            "请检查局域网连通性、防火墙及 Ollama 是否监听 0.0.0.0:11434。\n"
            f"详情: {exc}"
        )
        logger.error(err)
        return False, err
    except requests.exceptions.HTTPError as exc:
        status = exc.response.status_code if exc.response is not None else "?"
        body = exc.response.text[:500] if exc.response is not None else ""
        err = (
            f"Ollama HTTP 错误 ({status})。"
            f"请确认模型 `{MODEL_NAME}` 已通过 ollama pull 下载。\n"
            f"响应片段: {body}"
        )
        logger.error(err)
        return False, err
    except ValueError as exc:
        logger.error("Ollama 响应解析失败: %s", exc)
        return False, str(exc)
    except requests.exceptions.RequestException as exc:
        err = f"Ollama 请求异常: {exc}"
        logger.exception(err)
        return False, err
    except Exception as exc:
        err = f"润色过程发生未知错误: {exc}"
        logger.exception(err)
        return False, err
 def check_ollama_health() -> Tuple[bool, str]:
    """
    快速检测 Ollama 节点是否在线（不触发完整推理）。
    Returns:
        (online, message)
    """
    base_url = OLLAMA_URL.rsplit("/api/", 1)[0]
    try:
        resp = requests.get(f"{base_url}/api/tags", timeout=10)
        resp.raise_for_status()
        tags = resp.json().get("models", [])
        model_names = [m.get("name", "") for m in tags]
        if any(MODEL_NAME.split(":")[0] in name for name in model_names):
            return True, f"Ollama 在线，已检测到模型: {MODEL_NAME}"
        return True, (
            f"Ollama 在线，但未找到模型 {MODEL_NAME}，"
            f"请执行: ollama pull {MODEL_NAME}"
        )
    except Exception as exc:
        return False, f"Ollama 不可达: {exc}"
@@ -0,0 +1,23 @@
 # Trading Studio 依赖清单
 # CUDA 版 PyTorch 请按 DEPLOY.md 单独安装（cu121），此处不重复指定
 # Web 中控
 gradio>=4.44.0
 # 语音识别（CUDA 加速）
 faster-whisper>=1.0.0
 # 远程 LLM 通信
 requests>=2.31.0
 # 语音合成
 ChatTTS @ git+https://github.com/2noise/ChatTTS.git
 torchaudio>=2.1.0
 scipy>=1.11.0
 numpy>=1.24.0
 librosa>=0.10.0
 # 音频处理辅助
 soundfile>=0.12.0
 # PM2 通过 Node.js 全局安装，不在 pip 范围内
@@ -0,0 +1,305 @@
 """
 ChatTTS 本地语音合成服务
 支持从参考人声提取 Speaker Embedding 并固定音色合成配音。
 """
 from __future__ import annotations
 import logging
 import traceback
 import uuid
 from datetime import datetime
 from pathlib import Path
 from typing import Any, Dict, Optional, Tuple
 import numpy as np
 import torch
 from scipy.io import wavfile
 from config import (
    OUTPUT_DIR,
    SPEAKER_EMB_PATH,
    SPEAKER_SAMPLE_MAX_SEC,
    SPEAKER_SAMPLE_MIN_SEC,
    TTS_SAMPLE_RATE,
    TTS_SPEED_PROMPT,
    TTS_TEMPERATURE,
    TTS_TOP_K,
    TTS_TOP_P,
 )
 logger = logging.getLogger(__name__)
 # 全局 ChatTTS 实例
 _chat = None
 _chat_error: Optional[str] = None
 def _load_audio_for_chattts(audio_path: str, sample_rate: int = TTS_SAMPLE_RATE) -> np.ndarray:
    """
    加载音频并重采样到 ChatTTS 所需采样率。
    优先使用 ChatTTS 自带工具，回退到 librosa。
    """
    try:
        from ChatTTS.utils import load_audio
        return load_audio(audio_path, sample_rate)
    except ImportError:
        pass
    try:
        from tools.audio import load_audio
        return load_audio(audio_path, sample_rate)
    except ImportError:
        pass
    import librosa
    audio, _ = librosa.load(audio_path, sr=sample_rate, mono=True)
    return audio
 def _get_audio_duration_sec(audio: np.ndarray, sample_rate: int) -> float:
    """计算音频时长（秒）。"""
    if audio is None or len(audio) == 0:
        return 0.0
    return len(audio) / float(sample_rate)
 def get_chattts_instance():
    """
    获取或初始化 ChatTTS 模型。
    启用 GPU 加速，compile=False 以兼容 3060 Ti 8GB 显存。
    """
    global _chat, _chat_error
    if _chat is not None:
        return _chat, None
    if _chat_error is not None:
        return None, _chat_error
    try:
        import ChatTTS
        logger.info("正在加载 ChatTTS 模型...")
        chat = ChatTTS.Chat()
        # 兼容不同版本 API：load_models（旧版）/ load（新版）
        if hasattr(chat, "load_models"):
            chat.load_models(compile=False)
        elif hasattr(chat, "load"):
            chat.load(compile=False)
        else:
            raise RuntimeError("当前 ChatTTS 版本缺少 load / load_models 方法。")
        _chat = chat
        logger.info("ChatTTS 模型加载成功。")
        return _chat, None
    except ImportError as exc:
        _chat_error = (
            "未安装 ChatTTS，请参考 DEPLOY.md 安装。\n"
            f"原始错误: {exc}"
        )
        logger.exception("ChatTTS 导入失败")
        return None, _chat_error
    except Exception as exc:
        _chat_error = f"ChatTTS 模型加载失败: {exc}\n{traceback.format_exc()}"
        logger.exception("ChatTTS 初始化异常")
        return None, _chat_error
 def _encode_spk_emb(chat, tensor_or_str: Any) -> str:
    """将 Speaker Embedding 编码为 ChatTTS 可用的字符串格式。"""
    if isinstance(tensor_or_str, str):
        return tensor_or_str
    if hasattr(chat, "_encode_spk_emb"):
        return chat._encode_spk_emb(tensor_or_str)
    # 兜底：直接转字符串（部分版本可接受 tensor）
    return tensor_or_str
 def save_fixed_speaker(
    audio_sample_path: str,
    sample_transcript: str = "",
 ) -> Tuple[bool, str]:
    """
    从 10-30 秒干净人声中提取 Speaker Embedding 并序列化保存。
    Args:
        audio_sample_path: 参考人声 wav/mp3 等路径
        sample_transcript: 参考音频的精确转写（可选，有助于 zero-shot 音色还原）
    Returns:
        (success, message)
    """
    if not audio_sample_path:
        return False, "未提供音色参考音频。"
    chat, init_err = get_chattts_instance()
    if chat is None:
        return False, init_err or "ChatTTS 不可用。"
    try:
        audio = _load_audio_for_chattts(audio_sample_path, TTS_SAMPLE_RATE)
        duration = _get_audio_duration_sec(audio, TTS_SAMPLE_RATE)
        if duration < SPEAKER_SAMPLE_MIN_SEC:
            return False, (
                f"参考音频过短（{duration:.1f}s），建议 {SPEAKER_SAMPLE_MIN_SEC}-"
                f"{SPEAKER_SAMPLE_MAX_SEC} 秒干净人声。"
            )
        if duration > SPEAKER_SAMPLE_MAX_SEC + 5:
            logger.warning("参考音频超过建议时长 %.1fs，将截取前 %ds", duration, SPEAKER_SAMPLE_MAX_SEC)
            max_samples = SPEAKER_SAMPLE_MAX_SEC * TTS_SAMPLE_RATE
            audio = audio[:max_samples]
        # 从参考音频提取音色特征
        spk_smp = chat.sample_audio_speaker(audio)
        # 同时保存编码后的 spk_emb 字符串，便于 infer 时直接使用
        spk_emb = _encode_spk_emb(chat, spk_smp)
        payload: Dict[str, Any] = {
            "spk_emb": spk_emb,
            "spk_smp": spk_smp,
            "txt_smp": sample_transcript.strip(),
            "created_at": datetime.now().isoformat(),
            "source_audio": str(audio_sample_path),
        }
        torch.save(payload, SPEAKER_EMB_PATH)
        msg = (
            f"音色已锁定并保存至 {SPEAKER_EMB_PATH}\n"
            f"参考时长: {duration:.1f}s"
        )
        if not sample_transcript.strip():
            msg += "\n提示：填写参考音频精确转写可进一步提升音色还原度。"
        logger.info("Speaker Embedding 保存成功: %s", SPEAKER_EMB_PATH)
        return True, msg
    except Exception as exc:
        err = f"音色提取失败: {exc}\n{traceback.format_exc()}"
        logger.exception("save_fixed_speaker 失败")
        return False, err
 def _load_speaker_payload() -> Tuple[Optional[Dict[str, Any]], Optional[str]]:
    """加载本地 speaker_emb.pt。"""
    if not SPEAKER_EMB_PATH.exists():
        return None, (
            f"未找到固定音色文件 `{SPEAKER_EMB_PATH.name}`。"
            "请先在【音色锁定】模块上传 10-30 秒参考人声。"
        )
    try:
        payload = torch.load(SPEAKER_EMB_PATH, map_location="cpu", weights_only=False)
        # 兼容旧版仅保存 tensor 的文件
        if isinstance(payload, torch.Tensor):
            chat, err = get_chattts_instance()
            if chat is None:
                return None, err
            return {
                "spk_emb": _encode_spk_emb(chat, payload),
                "spk_smp": None,
                "txt_smp": "",
            }, None
        if not isinstance(payload, dict):
            return None, "speaker_emb.pt 格式无效，请重新锁定音色。"
        return payload, None
    except Exception as exc:
        return None, f"读取 speaker_emb.pt 失败: {exc}"
 def speaker_is_ready() -> Tuple[bool, str]:
    """检查固定音色是否已配置。"""
    payload, err = _load_speaker_payload()
    if payload is None:
        return False, err or "音色未配置。"
    return True, f"已加载固定音色: {SPEAKER_EMB_PATH}"
 def generate_voice(refined_text: str) -> Tuple[bool, str, Optional[str]]:
    """
    使用 ChatTTS 将润色后的文稿合成为 wav 配音。
    Args:
        refined_text: LLM 润色后的配音稿
    Returns:
        (success, message, output_wav_path_or_none)
    """
    if not refined_text or not refined_text.strip():
        return False, "合成文本为空，请先完成润色。", None
    chat, init_err = get_chattts_instance()
    if chat is None:
        return False, init_err or "ChatTTS 不可用。", None
    payload, spk_err = _load_speaker_payload()
    if payload is None:
        return False, spk_err or "请先锁定音色。", None
    try:
        import ChatTTS
        spk_emb = payload.get("spk_emb")
        spk_smp = payload.get("spk_smp")
        txt_smp = payload.get("txt_smp", "")
        params_infer_code = ChatTTS.Chat.InferCodeParams(
            prompt=TTS_SPEED_PROMPT,
            spk_emb=spk_emb,
            spk_smp=spk_smp if spk_smp else None,
            txt_smp=txt_smp if txt_smp else None,
            temperature=TTS_TEMPERATURE,
            top_P=TTS_TOP_P,
            top_K=TTS_TOP_K,
        )
        # 内向克制语气：降低 oral 强度
        params_refine_text = ChatTTS.Chat.RefineTextParams(
            prompt="[oral_2][laugh_0][break_4]",
        )
        wavs = chat.infer(
            refined_text.strip(),
            skip_refine_text=False,
            params_refine_text=params_refine_text,
            params_infer_code=params_infer_code,
        )
        if not wavs or len(wavs) == 0:
            return False, "ChatTTS 未生成有效音频。", None
        wav_array = np.asarray(wavs[0], dtype=np.float32)
        # 归一化并转 int16
        peak = np.max(np.abs(wav_array)) or 1.0
        wav_int16 = (wav_array / peak * 32767).astype(np.int16)
        timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
        filename = f"voiceover_{timestamp}_{uuid.uuid4().hex[:6]}.wav"
        output_path = OUTPUT_DIR / filename
        wavfile.write(str(output_path), TTS_SAMPLE_RATE, wav_int16)
        msg = f"配音合成成功: {output_path}"
        logger.info(msg)
        return True, msg, str(output_path)
    except Exception as exc:
        err = f"语音合成失败: {exc}\n{traceback.format_exc()}"
        logger.exception("generate_voice 失败")
        return False, err, None
@@ -0,0 +1,155 @@
 """
 Faster-Whisper CUDA 语音识别服务
 封装本地 GPU 加速的音频转写逻辑，适配 RTX 3060 Ti 8GB 显存。
 """
 from __future__ import annotations
 import logging
 import traceback
 from typing import Optional, Tuple
 from config import (
    WHISPER_COMPUTE_TYPE,
    WHISPER_DEVICE,
    WHISPER_LANGUAGE,
    WHISPER_MODEL_SIZE,
 )
 logger = logging.getLogger(__name__)
 # 全局懒加载模型实例，避免 Gradio 重复初始化占用显存
 _model = None
 _model_error: Optional[str] = None
 def _is_cuda_error(exc: BaseException) -> bool:
    """判断异常是否与 CUDA/GPU 相关。"""
    msg = str(exc).lower()
    cuda_keywords = (
        "cuda",
        "cudnn",
        "cublas",
        "gpu",
        "out of memory",
        "no kernel image",
        "device-side assert",
    )
    return any(k in msg for k in cuda_keywords)
 def get_whisper_model():
    """
    获取或初始化 Faster-Whisper 模型。
    强制 device=cuda, compute_type=float16。
    """
    global _model, _model_error
    if _model is not None:
        return _model, None
    if _model_error is not None:
        return None, _model_error
    try:
        from faster_whisper import WhisperModel
        logger.info(
            "正在加载 Whisper 模型: size=%s, device=%s, compute_type=%s",
            WHISPER_MODEL_SIZE,
            WHISPER_DEVICE,
            WHISPER_COMPUTE_TYPE,
        )
        _model = WhisperModel(
            WHISPER_MODEL_SIZE,
            device=WHISPER_DEVICE,
            compute_type=WHISPER_COMPUTE_TYPE,
        )
        logger.info("Whisper 模型加载成功。")
        return _model, None
    except ImportError as exc:
        _model_error = (
            "未安装 faster-whisper，请执行: pip install faster-whisper\n"
            f"原始错误: {exc}"
        )
        logger.exception("faster-whisper 导入失败")
        return None, _model_error
    except Exception as exc:
        if _is_cuda_error(exc):
            _model_error = (
                "CUDA 初始化失败，请检查 NVIDIA 驱动、CUDA 运行时及 cuDNN 是否正确安装。\n"
                f"错误详情: {exc}\n"
                f"{traceback.format_exc()}"
            )
        else:
            _model_error = f"Whisper 模型加载失败: {exc}\n{traceback.format_exc()}"
        logger.exception("Whisper 模型加载异常")
        return None, _model_error
 def transcribe_audio(audio_path: str) -> Tuple[bool, str]:
    """
    将音频文件转写为中文文本。
    Args:
        audio_path: 本地音频文件绝对或相对路径
    Returns:
        (success, text_or_error_message)
    """
    if not audio_path:
        return False, "未提供音频文件路径。"
    model, init_error = get_whisper_model()
    if model is None:
        return False, init_error or "Whisper 模型不可用。"
    try:
        segments, info = model.transcribe(
            audio_path,
            language=WHISPER_LANGUAGE,
            beam_size=5,
            vad_filter=True,
        )
        text_parts = []
        for segment in segments:
            text_parts.append(segment.text.strip())
        result_text = "".join(text_parts).strip()
        if not result_text:
            return False, (
                "识别结果为空，请检查音频是否有效、音量是否足够，"
                f"或尝试更换格式。检测到语言: {getattr(info, 'language', 'unknown')}"
            )
        logger.info(
            "转写完成: 语言=%s, 概率=%.2f, 字数=%d",
            getattr(info, "language", "?"),
            getattr(info, "language_probability", 0.0),
            len(result_text),
        )
        return True, result_text
    except Exception as exc:
        if _is_cuda_error(exc):
            err = (
                "CUDA 推理异常：显存可能不足或 GPU 状态异常。"
                "建议关闭其他占用显存的进程后重试。\n"
                f"错误详情: {exc}"
            )
        else:
            err = f"音频转写失败: {exc}\n{traceback.format_exc()}"
        logger.exception("transcribe_audio 失败")
        return False, err
 def reset_whisper_model() -> None:
    """释放模型引用（用于调试或显存回收）。"""
    global _model, _model_error
    _model = None
    _model_error = None