语音转写主机

2024-05-11

image.png

语音转写功能介绍:

1.支持多个语种语音识别能力:根据需要提供中文、英文、日语、韩语等语种,支持藏语、维语两种少数民族语言,支持四川方言、粤语的语音识别能力。

2.支持命令词识别的能力,基于语法规则和结果置信度,准确识别指令转写结果,可用于语音控制。

3.支持录音文件转写能力:要能够实现对中文普通话、英文等语种的音频文件转写文字功能,支持 MP3 、WAV、PCM 、M4A 、WMA 、MP4 、OPUS 、AMR 、3GP、AAC 、FLAC 等音频文件格式;。

4.上传音视频转文字:可以上传录制的音视频文件,然后对音视频转文字,形成对应的 AI 字幕文件。

5.支持语气词过滤,可手动添加语气词过滤规则,开启语气词过滤后在识别结果中自动删去匹配的语气词。

6.实时识别支持自定义说话人,可配置说话人信息用于角色分离功能开发。

7.语音增强:系统要具备高效的语音增强能力,以满足在多种环境中应用,引擎要内置降噪模块,要能够降低一定范围内噪音对识别的干扰。

8.支持实时语音识别能力:通过调音台、声卡等设备采集实时音频流,并实时转写成文字。

9.支持一句话语音识别能力:支持不超过一分钟的音频流转成文本。

10.支持自动智能标点,智能判断对识别的文本添加标点。

11.支持敏感词过滤:可手动配置敏感词,可用于敏感词进行屏蔽、标注或删除等功能开发。

12.转写支持自动关键词提取:对中文普通话语种,上传录音文件时指定关键词数量上限,系统将自动提取不超过该数量的关键词,并可根据相关性和词频进行排序。

13.字幕编辑功能:能够对视频字幕进行人工微调修正,形成正确的字幕文件。

14.支持开启词级别的对齐结果,可以用于音字同步精确到毫秒(ms)级别。

15.视频与文字同步功能,可以根据展示的字幕结果,选中具体的字幕,然后视频跳转到对应位置。

16.录音文件转写支持文稿模式和字幕模式两种输出格式。

18.实时字幕:可以实时语音转文字,并形成实时的字幕功能。

17.智能化检索:可以在所有视频中检索知识点和重点内容,实现知识点在视频中的精准定位。

18.视频播放字幕功能:视频播放的时候, 自动加载 AI 字幕。

19.支持语音检出(VAD)能力:系统要能够对输入的录音文件进行分析,能够确定音频的起始和终止的处理过程。

20.支持逆文本标准化,将语音识别结果中的日期、数字等对象以标准化格式展示。

21.支持 16kHz/8kHz 采样率,16bit 位深,单通道音频。

22.识别热词管理:中文热词导入及编辑,例如涉及到人名、地名、公司名等特殊易错的词汇,可以作为热词直接替换并提供热词接口。

23.录制音视频转文字:可以对录制的音视频进行语音转文字,并自动生成字幕。

24.敏感词管理:可根据引擎开发敏感词相关功能,例如敏感词屏蔽、报警等。

25.热词管理:可在界面开发热词设定功能,对热词进行效果加强。

26.数据分析:可以根据字幕文件,对教学视频内容进行处理和分析。

27.语气词管理:可根据引擎开发出语气词管理和过滤功能。

性能参数:

语音识别的引擎正确率(可提供第三方权威机构出具的相关检测报告复印件,并加盖制造厂商公章):

    (1)中文语音识别(标准普通话)正确率:标准测试集≥98.5%;

    (2)英文(美式)语音识别正确率:标准测试集≥97%;

    (3) 日语语音识别正确率:91.0%;

    (4)韩语语音识别正确率:93.8%;

    (5)俄语语音识别正确率:标准测试集≥94.69%;

    (6)泰语语语音识别正确率:标准测试集≥95.2%;

    (7)越南语语音识别正确率:标准测试集≥93.77%;

    (8)维语语语音识别正确率:标准测试集≥92.00%;

    (9)藏语语语音识别正确率:康巴方言 96.87% ,安多方言 96.66% ,卫藏方言94.86% ,平均 96.13%;

    (10)四川方言语语音识别正确率:标准测试集≥92.00%

    (11)印地语:86.84%

    (12)阿拉伯语:84.78%

识别结果响应时间标准测试集≤500 毫秒。

部署要求:为了保证数据安全性和相应速度,可提供所有的 AI 引擎、后台软件本地离线部署和使用,所使用的技术和软件自主可控。



相关案例