搜狗推出语音文字转写工具 透露智能硬件领域布局

2017年08月08日 20:06 新浪科技

微博 微信 空间

添加喜爱
搜狗语音交互技术中心总经理王砚峰搜狗语音交互技术中心总经理王砚峰

  新浪科技讯 8月8日晚间消息,搜狗推出语音转写文字工具“搜狗听写”,基于搜狗知音引擎的长时语音听写技术,可实现小时级文字转写功能,文本语音同时保存。现已上线Android、iOS移动端和Web版本,提供“听写”和“转写”两种模式,服务免费,主要面向记者、编辑、作家等文字工作者。

  活动现场,搜狗方面表示,后期将重点推进人工智能技术的落地,并透露将在可穿戴、车载、客厅等场景领域自主研发硬件。搜狗方面透露,搜狗将于近期推出一款面向家庭和儿童的机器人产品。

  据介绍,搜狗语音输入法错误率已经下降到3.8%,语音识别服务每日请求PV为2.6亿次,每天产生语料22万小时。基于规模性的用户语音数据,听写产品将搜狗的语音识别、自然语言理解等技术进一步延展落地。

  传统语音转录产品主要包括两大类,录音类、语音输入法+备忘录。前者只能录音不能实现文字转写,不能标注重点;后者无法长时语音输入,可能被打断,无法保存原始录音。搜狗认为语音转录产品具备刚性需求。基于上述痛点,搜狗听写提供听写和转写模式,听写模式可边收音边展现识别结果,转写模型支持离线上传文件给出识别结果。

  在功能设计上,搜狗听写提供语音和文字无缝对齐,方便重点内容定位;支持重点标注,对应的文本和语音可同时标注。产品可在手机端边听边写,实现手机端和网页端内容同步。此外,搜狗听写还提供外接蓝牙键,与手机配对,方便用户录音过程中实时标注。搜狗听写还可根据语义自动添加标点,标点正确率高达96%,标点类型在满足逗号、句号、问号、叹号的基础上,还率先扩充了书名号。

  在应用场景上,搜狗听写针对用户的使用场景,如开会,写小说等场景进行优化。识别效果较通用效果提升15%以上;还针对不便于大声说话而又有使用语音的场景,提供了耳语识别技术,在人的说话音量低至30分贝以下的情况下,依然可以准确识别。

  相较于此前的输入法语音识别,搜狗听写的使用场景更加复杂,在算法模型层面,搜狗进行了优化。据介绍,听写模式采用业内领先的端到端深度神经网络技术Deep LC-CLDNN+CTC技术,转写模式使用了Deep CNN+CTC的方式,语言模型基于T级海量输入法文本数据使用神经网络进行建模,语音识别准确率高达97%。

  在语音文字转写工具领域,科大讯飞已经推出录音宝、讯飞听见等产品。当谈到搜狗听写的差异性,搜狗语音交互技术中心总经理王砚峰认为,搜狗听写的优势在于可支持长时录音,转写服务免费。在功能设计上,搜狗更看重垂直场景的体验提升,比如加入蓝牙键,提供改写、标注、发摘要等在线编辑功能。(侯迪憬)

推荐阅读
聚焦
关闭评论