itc语音转写系统

概述

itc语音转写系统是广东保伦电子股份有限公司(itc)自主研发、生产、设计的利用人工智能技术将语音内容转换为文本的系统。


系统介绍

itc语音转写系统提供实时语音识别和录音文件识别能力,实现语音实时转写、实时字幕、实时上屏、快速编辑语音转写纪要,并具有角色分离、录音转写导出、纪要导出等功能,配合传统会议室系统使用。


系统功能

实时语音转写

可将会议现场参会人员的发言内容实时快速转写成文字,并且可以进行文字同步编辑,在会议结束后可以快速的整理出会议记录或纪要,让记录人员的录入效率从以往最高每分钟输入120~150个字提升到当前每分钟输入250~350个字,缩短记录时长。



历史音频转写

会议结束后,记录人员可将会议结束后的历史录音文件针直接导入系统进行转写进行文字转写,确保会议记录的准确性。系统支持wma/wav/mp3/m4a/pcm/avi等多种格式音频,转写结果支持录音文字同步调听矫正,可快速完成文字校核。一次性支持上传50条数据,数据总大小不超过5G,单条音频时长不超过18小时。




实时上屏展示

可将文字转写内容通过大屏显示给现场人员观看,通过展板上屏、展示实时语音转写结果,字体颜色和展板背景颜色支持根据实际情况需要进行调整,实现参会人员视听结合。



关键词优化

针对会议的转写过程中,某些个性化或者生僻的词语(例如人名、公司名、地名等)可能出现错误的情况,后台记录员可以提前输入一些关键词来优化语言识别模型,以便在后面的实时转写过程中,系统自动修正这些文字的转写结果,提高识别准确率。



语气词过滤

使用超大规模的语言模型,对识别结果语句智能预测其对话语境,提供智能断句和标点符号的预测。能够在实时语音转写开始前或者进行文稿整理时,根据需要选择是否开启“语气词过滤”功能,若开启则能将参会人员语气词和多余的词汇去除,以保证文稿的规整。



禁忌词屏蔽

系统管理人员可将不适宜展示的敏感词添加禁忌词列表中,屏蔽此禁忌词,当识别到此类词汇时,系统提供不显示、*号和空格三种显示方式供选择。



重点内容标记

当发言遇到一些重要的信息时后台工作人员可对内容进行重点标记,同时对领导的一些决策也可以进行重点标记,便于会议结束后的记录查询等。

系统支持在实时语音转写过程、对转写文本结果进行编辑,对一些有疑问的内容重点标记高亮显示,已标记的文本也可以进行修改和标记取消,方便整理会议纪要,会议结束会后即可或直接成稿。



音频文字双向对应

在会议过程会议结束后,若对会议当时的记录存在异议,可对当时的历史音频文件进行回放并再次转写,转写过程可以任意拖动进度条,并会显示当前进度条所转写的语音文字区域实现双向对应,方便记录人员复查会议记录内容。

播放器、时间轴及文本区互相同步定位,更方便找到录音时间对应的文本对照修改。语音文字双向交互,既可通过文字定位到语音,也可通过语音定位到文字,方便进行问题针对性的查看及修改。



角色分离

通过接入不同音频通道实现角色自动分离,每个通道对应发言角色。实现在会议过程中参会人员各方发言的内容进行角色分离并自动实时识别成文字。



快速会后纪要

在会议中记录人员需要仔细听现场参会人员的发言,并记录他们发言内容,在会议过后并整理存档,可使用语音转写结果进行编辑会议纪要,复制语音转写文本内容到会议纪要中。会议结束后,自动归档会议纪要文件。管理人员可前往历史会议中查看会议纪要文件,下载会议纪要文件。



会议录音

可实时录制参会人员发言的现场音频,方便记录员回听录音。可对照转写文本回听录音,追根溯源。速记员在会议记录过程中,因记录不及时、发言人语速过快的情况,通过转写过程中打点标记相应的位置,在闭会时,可以通过回听会议音频,再快速修正记录内容。



系统特征

依托核心语音技术,准确率最高可达95%以上。

整段录音全自动机器转写,1小时音频最快5分钟出稿。

采用独立专业服务器,不需联网,避免会议内容和信息的外泄。

采用先进声学模型和语言模型训练,。

基于有限状态机的解码网络,支持语音流实时输出。实时转写,200ms内返回结果。

实现在会议过程中对会议的发起方、参与方、主席、主持人、秘书等将各方发言的内容进行角色分离并自动实时识别成文字。

通过提取上下文相关的语义特征,同时结合停顿、基频信息等语音特征,来进行子句与段落的划分;综合运用上下文相关语义特征和语音学特征,解决分句与分段问题。

通过使用泛化特征并结合上下文相关语义特征和语音学特征,剔除转写结果中的停顿词、语气词、重复词。

会议室的会议音响系统可与智能会议语音转写系统统一结合、协同使用,直接对接。

会议发言、音频扩声、会议语音实时转写多项模块灵活叠加组合,满足不同行业、不同会议场景的多功能会议需求。


应用场景

适用于办公会议、工作报告、学术讲座、培训、采访等多种场景