Init repo

2026-02-19 03:21:21 +03:00 · 2026-02-19 03:21:21 +03:00 · 3400a8070a
commit 3400a8070a
2 changed files with 122 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -0,0 +1,12 @@
 .venv/
 __pycache__/
 *.pyc
 .env
 output/
 chunks/
 *_processed.wav
 *.egg-info/
 dist/
 build/
 .idea/
 .vscode/
--- a/README.md
+++ b/README.md
@ -0,0 +1,110 @@
 # Speech-to-Text + Speaker Diarization Pipeline
 Локальная система транскрипции аудио с автоматическим разделением спикеров.
 ## Возможности
 - Распознавание речи (faster-whisper, модель large-v3)
 - Диаризация спикеров (pyannote.audio 3.1)
 - Поддержка форматов: `.m4a`, `.mp3`, `.wav`, `.aac`
 - Аудио до 3 часов / 2 ГБ
 - Автоматический чанкинг для длинных записей (>30 мин)
 - Предобработка: нормализация громкости, удаление DC offset, конвертация в mono 16kHz
 - Экспорт в `.txt` и `.json`
 - Полностью локальный запуск на GPU
 ## Требования
 - Python 3.10+
 - ffmpeg (установлен и доступен в PATH)
 - CUDA-совместимая GPU (или CPU для тестов)
 - HuggingFace токен с доступом к моделям pyannote
 ## Установка
 ```bash
 python -m venv .venv
 source .venv/bin/activate  # Linux/Mac
 # .venv\Scripts\activate   # Windows
 pip install -r requirements.txt
 ```
 Создайте `.env` в корне проекта:
 ```
 HF_TOKEN=hf_your_token_here
 ```
 > Для получения токена: https://huggingface.co/settings/tokens
 > Необходимо принять условия использования моделей:
 > - https://huggingface.co/pyannote/speaker-diarization-3.1
 > - https://huggingface.co/pyannote/segmentation-3.0
 ## Использование
 ```bash
 # Базовый запуск (GPU, large-v3)
 python transcriber.py interview.m4a --output ./result --format txt json
 # Локальный тест (CPU, маленькая модель)
 python transcriber.py test.wav --output ./result --model tiny --device cpu
 # С ограничением спикеров
 python transcriber.py meeting.mp3 --max-speakers 3 --min-speakers 2
 # Подробный лог
 python transcriber.py audio.aac -v
 ```
 ## Параметры CLI
 | Параметр | По умолчанию | Описание |
 |---|---|---|
 | `input` | — | Путь к аудиофайлу |
 | `--output` | `./output` | Директория для результатов |
 | `--model` | `large-v3` | Модель Whisper (`tiny`, `base`, `small`, `medium`, `large-v3`) |
 | `--device` | `cuda` | Устройство (`cuda`, `cpu`) |
 | `--language` | `ru` | Язык распознавания |
 | `--beam-size` | `5` | Ширина beam search |
 | `--vad` | `on` | VAD фильтрация (`on`, `off`) |
 | `--max-speakers` | авто | Максимум спикеров |
 | `--min-speakers` | авто | Минимум спикеров |
 | `--format` | `txt json` | Форматы экспорта |
 | `--pause-threshold` | `1.5` | Макс. пауза для объединения сегментов (сек) |
 | `--chunk-duration` | `1800` | Макс. длина чанка (сек) |
 | `--hf-token` | из `.env` | HuggingFace токен |
 | `-v` | — | Подробное логирование |
 ## Форматы вывода
 **TXT** — читаемый диалог:
 ```
 [Speaker 1]
 Здравствуйте, расскажите о себе.
 [Speaker 2]
 Добрый день, меня зовут Иван...
 ```
 **JSON** — структурированные данные:
 ```json
 [
  {
    "speaker": "Speaker 1",
    "start": 0.52,
    "end": 3.18,
    "text": "Здравствуйте, расскажите о себе."
  }
 ]
 ```
 ## Архитектура
 ```
 Input → Preprocess (ffmpeg) → Chunking → ASR (Whisper) → Diarization (pyannote) → Alignment → Merge → Export
 ```
 ## Производительность
 На GPU уровня RTX 3090: ~20 мин на 1.5 часа аудио. VRAM ≤ 8GB, RAM ≤ 16GB.