first version

2026-02-19 03:22:04 +03:00 · 2026-02-19 03:22:04 +03:00 · de07a045ce
parent 3400a8070a
commit de07a045ce
18 changed files with 712 additions and 0 deletions
--- a/requirements.txt
+++ b/requirements.txt
@ -0,0 +1,5 @@
 faster-whisper
 pyannote.audio
 python-dotenv
 pydub
 tqdm
--- a/transcriber.py
+++ b/transcriber.py
@ -0,0 +1,4 @@
 from transcriber.main import main
 if __name__ == "__main__":
    main()
--- a/transcriber/init.py
+++ b/transcriber/init.py
--- a/transcriber/asr/init.py
+++ b/transcriber/asr/init.py
--- a/transcriber/asr/whisper_engine.py
+++ b/transcriber/asr/whisper_engine.py
@ -0,0 +1,93 @@
 import logging
 from dataclasses import dataclass, field
 from faster_whisper import WhisperModel
 logger = logging.getLogger(__name__)
@dataclass
 class WordInfo:
    """Single word with timing and confidence."""
    word: str
    start: float
    end: float
    probability: float
@dataclass
 class Segment:
    """ASR segment with text, timing, and optional word-level detail."""
    start: float
    end: float
    text: str
    words: list[WordInfo] = field(default_factory=list)
 class WhisperEngine:
    """Speech recognition engine based on faster-whisper."""
    def __init__(self, model_name: str, device: str, compute_type: str):
        logger.info("Loading Whisper model: %s on %s (%s)", model_name, device, compute_type)
        self._model = WhisperModel(model_name, device=device, compute_type=compute_type)
    def transcribe(
        self,
        audio_path: str,
        language: str | None = None,
        beam_size: int = 5,
        vad_filter: bool = True,
    ) -> list[Segment]:
        """Transcribe audio file and return list of segments.
        Args:
            audio_path: Path to WAV file.
            language: Language code or None for auto-detection.
            beam_size: Beam search width.
            vad_filter: Whether to enable VAD filtering.
        Returns:
            List of transcription segments with word-level timestamps.
        """
        logger.info("Transcribing: %s", audio_path)
        segments_gen, info = self._model.transcribe(
            audio_path,
            language=language,
            beam_size=beam_size,
            word_timestamps=True,
            vad_filter=vad_filter,
            vad_parameters={"min_silence_duration_ms": 500},
            temperature=0.0,
            condition_on_previous_text=False,
            no_speech_threshold=0.6,
            log_prob_threshold=-1.0,
        )
        logger.info(
            "Detected language: %s (%.2f), duration: %.1fs",
            info.language, info.language_probability, info.duration,
        )
        results = []
        for seg in segments_gen:
            words = [
                WordInfo(
                    word=w.word.strip(),
                    start=w.start,
                    end=w.end,
                    probability=w.probability,
                )
                for w in (seg.words or [])
            ]
            results.append(Segment(
                start=seg.start,
                end=seg.end,
                text=seg.text.strip(),
                words=words,
            ))
        logger.info("Transcription complete: %d segments", len(results))
        return results
--- a/transcriber/audio/init.py
+++ b/transcriber/audio/init.py
--- a/transcriber/audio/chunking.py
+++ b/transcriber/audio/chunking.py
@ -0,0 +1,82 @@
 import logging
 import subprocess
 from dataclasses import dataclass
 from pathlib import Path
 logger = logging.getLogger(__name__)
@dataclass
 class ChunkInfo:
    """Metadata for a single audio chunk."""
    path: str
    start_offset: float
    duration: float
 def get_audio_duration(wav_path: str) -> float:
    """Get duration of audio file in seconds using ffprobe."""
    cmd = [
        "ffprobe", "-v", "quiet",
        "-show_entries", "format=duration",
        "-of", "csv=p=0",
        wav_path,
    ]
    result = subprocess.run(cmd, capture_output=True, text=True, timeout=30)
    if result.returncode != 0:
        raise RuntimeError(f"ffprobe failed: {result.stderr[:300]}")
    return float(result.stdout.strip())
 def chunk_audio(wav_path: str, max_duration_sec: int = 1800) -> list[ChunkInfo]:
    """Split audio into chunks if longer than max_duration_sec.
    Args:
        wav_path: Path to the preprocessed WAV file.
        max_duration_sec: Maximum chunk duration in seconds (default 30 min).
    Returns:
        List of ChunkInfo with paths and timing metadata.
    """
    total_duration = get_audio_duration(wav_path)
    logger.info("Audio duration: %.1f sec", total_duration)
    if total_duration <= max_duration_sec:
        return [ChunkInfo(path=wav_path, start_offset=0.0, duration=total_duration)]
    chunks = []
    src = Path(wav_path)
    chunk_dir = src.parent / "chunks"
    chunk_dir.mkdir(exist_ok=True)
    offset = 0.0
    idx = 0
    while offset < total_duration:
        chunk_path = str(chunk_dir / f"{src.stem}_chunk{idx:03d}.wav")
        remaining = total_duration - offset
        duration = min(max_duration_sec, remaining)
        cmd = [
            "ffmpeg", "-y",
            "-ss", str(offset),
            "-i", wav_path,
            "-t", str(duration),
            "-c", "copy",
            chunk_path,
        ]
        result = subprocess.run(cmd, capture_output=True, text=True, timeout=300)
        if result.returncode != 0:
            raise RuntimeError(f"Chunk {idx} failed: {result.stderr[:300]}")
        chunks.append(ChunkInfo(
            path=chunk_path,
            start_offset=offset,
            duration=duration,
        ))
        logger.info("Chunk %d: %.1fs - %.1fs", idx, offset, offset + duration)
        offset += duration
        idx += 1
    return chunks
--- a/transcriber/audio/preprocess.py
+++ b/transcriber/audio/preprocess.py
@ -0,0 +1,54 @@
 import logging
 import subprocess
 from pathlib import Path
 logger = logging.getLogger(__name__)
 SUPPORTED_FORMATS = {".m4a", ".mp3", ".wav", ".aac"}
 def preprocess_audio(input_path: str, output_dir: str) -> str:
    """Convert audio to mono 16kHz PCM WAV with normalization and DC offset removal.
    Args:
        input_path: Path to the source audio file.
        output_dir: Directory for the processed file.
    Returns:
        Path to the processed WAV file.
    Raises:
        FileNotFoundError: If input file does not exist.
        ValueError: If file format is not supported.
        RuntimeError: If ffmpeg processing fails.
    """
    src = Path(input_path)
    if not src.exists():
        raise FileNotFoundError(f"Audio file not found: {input_path}")
    if src.suffix.lower() not in SUPPORTED_FORMATS:
        raise ValueError(
            f"Unsupported format: {src.suffix}. Supported: {SUPPORTED_FORMATS}"
        )
    out = Path(output_dir) / f"{src.stem}_processed.wav"
    out.parent.mkdir(parents=True, exist_ok=True)
    cmd = [
        "ffmpeg", "-y", "-i", str(src),
        "-ac", "1",
        "-ar", "16000",
        "-sample_fmt", "s16",
        "-af", "highpass=f=10,loudnorm=I=-16:TP=-1.5:LRA=11",
        str(out),
    ]
    logger.info("Preprocessing: %s -> %s", src.name, out.name)
    result = subprocess.run(
        cmd, capture_output=True, text=True, timeout=600
    )
    if result.returncode != 0:
        raise RuntimeError(f"ffmpeg failed: {result.stderr[:500]}")
    logger.info("Preprocessing complete: %s", out.name)
    return str(out)
--- a/transcriber/config.py
+++ b/transcriber/config.py
@ -0,0 +1,38 @@
 import os
 from dataclasses import dataclass, field
 from pathlib import Path
 from dotenv import load_dotenv
@dataclass
 class TranscriberConfig:
    """Configuration for the transcription pipeline."""
    input_path: str = ""
    output_dir: str = "./output"
    model: str = "large-v3"
    device: str = "cuda"
    compute_type: str = "float16"
    language: str = "ru"
    beam_size: int = 5
    vad: bool = True
    max_speakers: int | None = None
    min_speakers: int | None = None
    formats: list[str] = field(default_factory=lambda: ["txt", "json"])
    pause_threshold: float = 1.5
    chunk_duration: int = 1800
    hf_token: str = ""
    def __post_init__(self):
        load_dotenv()
        if not self.hf_token:
            self.hf_token = os.getenv("HF_TOKEN", "")
        if not self.hf_token:
            raise ValueError(
                "HF_TOKEN is required for pyannote diarization. "
                "Set it in .env or pass via --hf-token"
            )
        if self.device == "cpu":
            self.compute_type = "int8"
        Path(self.output_dir).mkdir(parents=True, exist_ok=True)
--- a/transcriber/diarization/init.py
+++ b/transcriber/diarization/init.py
--- a/transcriber/diarization/pyannote_engine.py
+++ b/transcriber/diarization/pyannote_engine.py
@ -0,0 +1,69 @@
 import logging
 from dataclasses import dataclass
 import torch
 from pyannote.audio import Pipeline
 from pyannote.audio.pipelines.utils.hook import ProgressHook
 logger = logging.getLogger(__name__)
@dataclass
 class SpeakerTurn:
    """A single speaker turn with timing."""
    start: float
    end: float
    speaker: str
 class DiarizationEngine:
    """Speaker diarization engine based on pyannote.audio."""
    def __init__(self, hf_token: str, device: str):
        logger.info("Loading diarization pipeline on %s", device)
        self._pipeline = Pipeline.from_pretrained(
            "pyannote/speaker-diarization-3.1",
            token=hf_token,
        )
        self._device = torch.device(device)
        self._pipeline.to(self._device)
    def diarize(
        self,
        audio_path: str,
        min_speakers: int | None = None,
        max_speakers: int | None = None,
    ) -> list[SpeakerTurn]:
        """Run speaker diarization on audio file.
        Args:
            audio_path: Path to WAV file.
            min_speakers: Minimum expected number of speakers.
            max_speakers: Maximum expected number of speakers.
        Returns:
            List of speaker turns sorted by start time.
        """
        logger.info("Diarizing: %s", audio_path)
        kwargs = {}
        if min_speakers is not None:
            kwargs["min_speakers"] = min_speakers
        if max_speakers is not None:
            kwargs["max_speakers"] = max_speakers
        with ProgressHook() as hook:
            diarization = self._pipeline(audio_path, hook=hook, **kwargs)
        turns = []
        for turn, _, speaker in diarization.itertracks(yield_label=True):
            turns.append(SpeakerTurn(
                start=turn.start,
                end=turn.end,
                speaker=speaker,
            ))
        speaker_set = {t.speaker for t in turns}
        logger.info("Diarization complete: %d turns, %d speakers", len(turns), len(speaker_set))
        return turns
--- a/transcriber/export/init.py
+++ b/transcriber/export/init.py
--- a/transcriber/export/json_writer.py
+++ b/transcriber/export/json_writer.py
@ -0,0 +1,34 @@
 import json
 from pathlib import Path
 from transcriber.merge.aligner import MergedSegment
 def write_json(segments: list[MergedSegment], output_path: str) -> str:
    """Export merged segments as a structured JSON file.
    Args:
        segments: List of merged speaker segments.
        output_path: Path to the output .json file.
    Returns:
        Path to the written file.
    """
    path = Path(output_path)
    path.parent.mkdir(parents=True, exist_ok=True)
    data = [
        {
            "speaker": seg.speaker,
            "start": round(seg.start, 2),
            "end": round(seg.end, 2),
            "text": seg.text,
        }
        for seg in segments
    ]
    path.write_text(
        json.dumps(data, ensure_ascii=False, indent=2),
        encoding="utf-8",
    )
    return str(path)
--- a/transcriber/export/txt_writer.py
+++ b/transcriber/export/txt_writer.py
@ -0,0 +1,26 @@
 from pathlib import Path
 from transcriber.merge.aligner import MergedSegment
 def write_txt(segments: list[MergedSegment], output_path: str) -> str:
    """Export merged segments as a readable dialogue text file.
    Args:
        segments: List of merged speaker segments.
        output_path: Path to the output .txt file.
    Returns:
        Path to the written file.
    """
    path = Path(output_path)
    path.parent.mkdir(parents=True, exist_ok=True)
    lines = []
    for seg in segments:
        lines.append(f"[{seg.speaker}]")
        lines.append(seg.text)
        lines.append("")
    path.write_text("\n".join(lines), encoding="utf-8")
    return str(path)
--- a/transcriber/main.py
+++ b/transcriber/main.py
@ -0,0 +1,70 @@
 import argparse
 import logging
 import sys
 from transcriber.config import TranscriberConfig
 from transcriber.pipeline import TranscriptionPipeline
 def parse_args() -> argparse.Namespace:
    """Parse command-line arguments."""
    parser = argparse.ArgumentParser(
        description="Transcribe audio with speaker diarization",
    )
    parser.add_argument("input", help="Path to audio file (.m4a, .mp3, .wav, .aac)")
    parser.add_argument("--output", default="./output", help="Output directory (default: ./output)")
    parser.add_argument("--model", default="large-v3", help="Whisper model name (default: large-v3)")
    parser.add_argument("--device", default="cuda", choices=["cuda", "cpu"], help="Device (default: cuda)")
    parser.add_argument("--compute-type", default="float16", help="Compute type (default: float16)")
    parser.add_argument("--language", default="ru", help="Language code (default: ru)")
    parser.add_argument("--beam-size", type=int, default=5, help="Beam search size (default: 5)")
    parser.add_argument("--vad", default="on", choices=["on", "off"], help="VAD filter (default: on)")
    parser.add_argument("--max-speakers", type=int, default=None, help="Maximum number of speakers")
    parser.add_argument("--min-speakers", type=int, default=None, help="Minimum number of speakers")
    parser.add_argument("--format", nargs="+", default=["txt", "json"], help="Output formats (default: txt json)")
    parser.add_argument("--pause-threshold", type=float, default=1.5, help="Max pause for merging (default: 1.5s)")
    parser.add_argument("--chunk-duration", type=int, default=1800, help="Max chunk duration in sec (default: 1800)")
    parser.add_argument("--hf-token", default="", help="HuggingFace token (default: from .env)")
    parser.add_argument("--verbose", "-v", action="store_true", help="Enable debug logging")
    return parser.parse_args()
 def main() -> None:
    """Entry point for the transcription CLI."""
    args = parse_args()
    logging.basicConfig(
        level=logging.DEBUG if args.verbose else logging.INFO,
        format="%(asctime)s [%(levelname)s] %(name)s: %(message)s",
        datefmt="%H:%M:%S",
    )
    config = TranscriberConfig(
        input_path=args.input,
        output_dir=args.output,
        model=args.model,
        device=args.device,
        compute_type=args.compute_type,
        language=args.language,
        beam_size=args.beam_size,
        vad=args.vad == "on",
        max_speakers=args.max_speakers,
        min_speakers=args.min_speakers,
        formats=args.format,
        pause_threshold=args.pause_threshold,
        chunk_duration=args.chunk_duration,
        hf_token=args.hf_token,
    )
    pipeline = TranscriptionPipeline(config)
    try:
        exported = pipeline.run()
        for path in exported:
            print(f"Saved: {path}")
    except Exception:
        logging.exception("Pipeline failed")
        sys.exit(1)
 if __name__ == "__main__":
    main()
--- a/transcriber/merge/init.py
+++ b/transcriber/merge/init.py
--- a/transcriber/merge/aligner.py
+++ b/transcriber/merge/aligner.py
@ -0,0 +1,101 @@
 import logging
 from dataclasses import dataclass
 from transcriber.asr.whisper_engine import Segment
 from transcriber.diarization.pyannote_engine import SpeakerTurn
 logger = logging.getLogger(__name__)
@dataclass
 class MergedSegment:
    """Final segment with speaker label and merged text."""
    speaker: str
    start: float
    end: float
    text: str
 def _compute_overlap(seg_start: float, seg_end: float, turn_start: float, turn_end: float) -> float:
    """Compute temporal overlap between two intervals in seconds."""
    overlap_start = max(seg_start, turn_start)
    overlap_end = min(seg_end, turn_end)
    return max(0.0, overlap_end - overlap_start)
 def _assign_speaker(segment: Segment, speaker_turns: list[SpeakerTurn]) -> str:
    """Assign speaker to ASR segment by maximum overlap."""
    best_speaker = "Unknown"
    best_overlap = 0.0
    for turn in speaker_turns:
        if turn.end < segment.start:
            continue
        if turn.start > segment.end:
            break
        overlap = _compute_overlap(segment.start, segment.end, turn.start, turn.end)
        if overlap > best_overlap:
            best_overlap = overlap
            best_speaker = turn.speaker
    return best_speaker
 def _normalize_speaker_labels(segments: list[MergedSegment]) -> list[MergedSegment]:
    """Replace raw pyannote labels (SPEAKER_00) with sequential Speaker 1, Speaker 2."""
    label_map: dict[str, str] = {}
    counter = 1
    for seg in segments:
        if seg.speaker not in label_map and seg.speaker != "Unknown":
            label_map[seg.speaker] = f"Speaker {counter}"
            counter += 1
    for seg in segments:
        seg.speaker = label_map.get(seg.speaker, seg.speaker)
    return segments
 def align_and_merge(
    asr_segments: list[Segment],
    speaker_turns: list[SpeakerTurn],
    pause_threshold: float = 1.5,
 ) -> list[MergedSegment]:
    """Align ASR segments with speaker turns and merge adjacent same-speaker segments.
    Args:
        asr_segments: Segments from Whisper ASR.
        speaker_turns: Speaker turns from diarization (sorted by start).
        pause_threshold: Max pause between segments to merge (seconds).
    Returns:
        List of merged segments with speaker labels.
    """
    if not asr_segments:
        return []
    aligned = []
    for seg in asr_segments:
        speaker = _assign_speaker(seg, speaker_turns)
        aligned.append(MergedSegment(
            speaker=speaker,
            start=seg.start,
            end=seg.end,
            text=seg.text,
        ))
    merged: list[MergedSegment] = [aligned[0]]
    for seg in aligned[1:]:
        prev = merged[-1]
        gap = seg.start - prev.end
        if seg.speaker == prev.speaker and gap <= pause_threshold:
            prev.end = seg.end
            prev.text = f"{prev.text} {seg.text}"
        else:
            merged.append(seg)
    merged = _normalize_speaker_labels(merged)
    logger.info("Alignment complete: %d ASR segments -> %d merged", len(asr_segments), len(merged))
    return merged
--- a/transcriber/pipeline.py
+++ b/transcriber/pipeline.py
@ -0,0 +1,136 @@
 import logging
 from pathlib import Path
 from tqdm import tqdm
 from transcriber.asr.whisper_engine import Segment, WhisperEngine
 from transcriber.audio.chunking import ChunkInfo, chunk_audio
 from transcriber.audio.preprocess import preprocess_audio
 from transcriber.config import TranscriberConfig
 from transcriber.diarization.pyannote_engine import DiarizationEngine
 from transcriber.export.json_writer import write_json
 from transcriber.export.txt_writer import write_txt
 from transcriber.merge.aligner import MergedSegment, align_and_merge
 logger = logging.getLogger(__name__)
 EXPORTERS = {
    "txt": write_txt,
    "json": write_json,
 }
 class TranscriptionPipeline:
    """Orchestrates the full transcription pipeline: preprocess -> ASR -> diarize -> merge -> export."""
    def __init__(self, config: TranscriberConfig):
        self._config = config
        self._asr: WhisperEngine | None = None
        self._diarizer: DiarizationEngine | None = None
    def _init_engines(self) -> None:
        """Lazily initialize ASR and diarization engines."""
        if self._asr is None:
            self._asr = WhisperEngine(
                model_name=self._config.model,
                device=self._config.device,
                compute_type=self._config.compute_type,
            )
        if self._diarizer is None:
            self._diarizer = DiarizationEngine(
                hf_token=self._config.hf_token,
                device=self._config.device,
            )
    def _transcribe_chunks(self, chunks: list[ChunkInfo], progress: tqdm) -> list[Segment]:
        """Run ASR on each chunk, adjusting timestamps by chunk offset."""
        all_segments: list[Segment] = []
        for chunk in chunks:
            progress.set_description(f"ASR chunk {chunk.start_offset:.0f}s")
            segments = self._asr.transcribe(
                audio_path=chunk.path,
                language=self._config.language,
                beam_size=self._config.beam_size,
                vad_filter=self._config.vad,
            )
            for seg in segments:
                seg.start += chunk.start_offset
                seg.end += chunk.start_offset
                for w in seg.words:
                    w.start += chunk.start_offset
                    w.end += chunk.start_offset
            all_segments.extend(segments)
            progress.update(1)
        return all_segments
    def _export(self, segments: list[MergedSegment], stem: str) -> list[str]:
        """Export segments to requested formats."""
        output_dir = Path(self._config.output_dir)
        exported = []
        for fmt in self._config.formats:
            exporter = EXPORTERS.get(fmt)
            if exporter is None:
                logger.warning("Unknown export format: %s (skipped)", fmt)
                continue
            out_path = str(output_dir / f"{stem}.{fmt}")
            exporter(segments, out_path)
            exported.append(out_path)
            logger.info("Exported: %s", out_path)
        return exported
    def run(self) -> list[str]:
        """Execute the full pipeline and return list of exported file paths.
        Returns:
            List of paths to exported files.
        Raises:
            FileNotFoundError: If input file does not exist.
            RuntimeError: If any pipeline stage fails.
        """
        cfg = self._config
        stem = Path(cfg.input_path).stem
        total_steps = 7
        progress = tqdm(total=total_steps, desc="Pipeline", unit="step")
        progress.set_description("Preprocessing")
        wav_path = preprocess_audio(cfg.input_path, cfg.output_dir)
        progress.update(1)
        progress.set_description("Chunking")
        chunks = chunk_audio(wav_path, cfg.chunk_duration)
        progress.update(1)
        progress.set_description("Loading models")
        self._init_engines()
        progress.update(1)
        asr_progress = tqdm(total=len(chunks), desc="ASR", unit="chunk", leave=False)
        asr_segments = self._transcribe_chunks(chunks, asr_progress)
        asr_progress.close()
        progress.update(1)
        progress.set_description("Diarizing")
        speaker_turns = self._diarizer.diarize(
            audio_path=wav_path,
            min_speakers=cfg.min_speakers,
            max_speakers=cfg.max_speakers,
        )
        progress.update(1)
        progress.set_description("Aligning")
        merged = align_and_merge(
            asr_segments=asr_segments,
            speaker_turns=speaker_turns,
            pause_threshold=cfg.pause_threshold,
        )
        progress.update(1)
        progress.set_description("Exporting")
        exported = self._export(merged, stem)
        progress.update(1)
        progress.close()
        logger.info("Pipeline complete. Files: %s", exported)
        return exported