同样在今天,微软为CRIS语音输入技术开放了两个API端口,开发者将可以通过该项技术了解到谁在进行语音录入并且讲义视频的形式呈现出来,包括说话者识别和视频 API,以及自定义识别智能服务,都是微软 Project Oxford 人工智能功能的一部分。
其中:
- 说话者识别 API 提供了语音验证、说话者识别功能,前者可以用于身份验证,后者可以在一群说话者中识别说话个体
- 视频 API 通过微软视频处理算法,能够脸部追踪、动作检测、视频稳定,主要来自Microsoft Hyperlapse 技术
- 自定义识别智能服务,适合在吵杂的环境,或者不标准语音的识别(比如非母语带严重口音的)
以上所有的技术均来自微软的Project Oxford项目,该项目为微软在数年前建立用于为第三方开发者提供人工智能研究的项目途径。
此外,微软还表示语音识别输入系统的测试版将在年底向公众开放。
相关阅读