30 lines (24 loc) · 1.08 KB

Changelog

[1.1.0] - 2025-12-12

Added

--preprocess CLI flag for FFmpeg audio preprocessing
--beam <size> CLI flag for beam search size (1-5)
Auto-detect language option in interactive mode
Speed presets in interactive mode: "fast" (beam=1) and "quality" (beam=5 + ffmpeg)

Changed

Simplified interactive UI to FZF-style single-column list pickers
Audio files can now be converted to 16kHz mono WAV before transcription
Preprocessed temp files are automatically cleaned up after transcription

Fixed

Compiled binary now correctly locates Python scripts and venv
Path resolution works for both dev mode and compiled binary

[1.0.0] - 2025-12-10

Added

Initial release
Word-level transcription with timestamps
Adaptive timing buffers based on complexity
Intelligent segmentation (2-15 words per segment)
Interactive CLI mode with file picker
Support for multiple audio formats (MP3, WAV, M4A, FLAC, OGG, WebM, MP4)
Multiple Whisper model sizes (tiny, base, small, medium, large)
Multi-language support (en, pt, es, fr, de, it, ja, zh, ru, ko)