
STT - 强大的离线语音识别转文字工具
STT是一款功能强大的本地语音识别转文字工具,基于fast-whisper开源模型开发,可以将视频和音频中的人声识别并转换为文字。它支持多种输出格式,包括JSON、带时间戳的SRT字幕以及纯文本格式,为用户提供了灵活的选择。
主要特点
完全离线运行,保护隐私支持多种语言识别识别准确率高,可媲美OpenAI官方API多种输出格式:JSON、SRT字幕、纯文本内置base模型,可自行下载更大模型提升效果

使用方法
从GitHub Releases页面下载预编译版本解压后运行start.exe,等待浏览器自动打开上传音视频文件,选择语言和输出格式点击"立即开始识别"即可获得转换结果
高级功能
支持CUDA加速,提高识别速度提供API接口,方便集成到其他系统可自定义模型,balance效果和资源消耗
学习资源
项目GitHub地址详细使用文档API接口说明
STT为用户提供了一个强大而灵活的离线语音识别解决方案,无论是个人使用还是企业部署,都是一个值得尝试的工具。欢迎大家下载使用,如有问题可在GitHub提issue讨论。