当前位置：首页 > news >正文

（转）微软牛津计划介绍——屌爆了的自然数据处理解决方案(人脸/语音识别，计算机视觉与语言理解)...

news 来源：原创 2024/4/25 3:45:04

微软牛津计划介绍——屌爆了的自然数据处理解决方案(人脸/语音识别，计算机视觉与语言理解)

微软在机器学习与自然语言处理方面积累了大量的资料，同时近1年来，也逐步开放了大量的在线资源。例如在我博客前几个月介绍的Infer.NET项目就是其中1个项目。今天给大家介绍的是"微软牛津计划".

.NET开源文章目录：【目录】本博客其他.NET开源项目文章目录

本文原始地址链接：微软牛津计划介绍——屌爆了的自然数据处理解决方案(人脸/语音识别，计算机视觉与语言理解)

1.微软牛津计划介绍

微软牛津计划(网址：https://cn.projectoxford.ai/#) 提供了一组基于Rest架构的API和SDK工具包，帮助开发者轻轻松松使用微软的自然数据理解能力为自己的解决方案增加智能服务。利用微软牛津计划构建你自己的解决方案，支持任意语言及任意开发平台。主要提供了4个自然语言处理方面的核心问题解决方案：

1）人脸识别：微软最先进的人脸算法，以云平台为基础，检测和识别图片中的人脸。为您的移动应用和桌面应用提供人脸算法的技术支持。

2）语音识别：Speech API为开发者提供最先进的语音处理算法。通过这些API，开发者可以轻松地为自己的应用添加语音操作功能。在一定条件下，这些API还可以实现与用户之间的实时交互。

3）计算机视觉：Computer Vision APIs为开发者提供最顶尖的图像处理算法。通过这些API你可以获得基于图像视觉内容的各种信息并生成理想的缩略图。

4）语言理解智能服务：语言理解智能服务(LUIS)用快速有效的方式帮助开发者在应用中增加语言理解能力。通过LUIS你可以使用已经构建好的世界顶级模型。如果你有专门的需求，LUIS也可以指导你快速创建自己的模型。

SDK下载地址：https://cn.projectoxford.ai/sdk

上面是基本介绍，每一个应用微软都提供了SDK工具包，包括文档和例子演示呢。其应用场景有：

下面稍微介绍一些每个功能的一些细节把。需要详细了解和应用的，去官网查看资料，有中文版官网。

2.人脸识别(Face APIs)介绍

人脸识别特指利用分析比较人脸视觉特征信息进行身份鉴别的计算机技术。人脸识别是一项热门的计算机技术研究领域，可以将人脸明暗侦测，自动调整动态曝光补偿，人脸追踪侦测，自动调整影像放大；它属于生物特征识别技术，是对生物体（一般特指人）本身的生物特征来区分生物体个体。

微软的Face APIs提供了人脸识别领域主要的应用场景，如：

1）人脸检测:检测图片中的人脸，以方框标记脸部位置，识别包括人脸特征点、姿势、性别、年龄等在内的人脸属性。Face API 提供高精度的人脸定位检测，在一张图片里，最多可以检测到64张人脸。进行人脸检测，只需上传一整张JPEG图片，或提供网页JPEG图片对应的URL即可。检测到的人脸会被标记上方框（左侧、顶部、宽度和高度），用像素点标明脸部在图片中的位置。根据需要，人脸检测还可以从每张人脸上提取诸如姿势、性别、年龄等一系列与脸部有关的属性。如下图所以的例子：

通常来讲，人脸识别就是从被测的许多人脸中自动辨识或验证某一个人的功能。 Face API 提供4种识别功能：人脸验证、相似人脸搜索、人脸自动分组和身份确认。现在人脸识别已广泛用于安全系统、名人识别和相片标签等应用。

2）人脸验证:核对两张人脸是否属于同一个人，并给出置信度评分。

3）相似人脸搜索:从多张人脸中找出一些与所查人脸相似的人脸。

4）人脸分组:基于脸部相似程度，将多张人脸划分成不同的组。

5）人脸辨识:查询某张人脸，看其与用户提供的人脸数据中的何人相匹配。

这里有适用与C#的Face API入门教程：https://cn.projectoxford.ai/doc/face/Get-Started/csharp

人脸检测演示网址：https://cn.projectoxford.ai/demo/face#detection

人脸验证演示网址：https://cn.projectoxford.ai/demo/face#verification

3.语音识别(Speech APIs)介绍

二十年前，微软为 Windows 95 的用户发布了首个 Speech API (SAPI 1.0)。如今，微软带来一个新的公开 Speech API (Beta)，通过 Azure, 基于云计算平台，并成为牛津计划的一部分。牛津计划是为开发者提供 Speech 和 Vision API 的云平台，支持广泛的多通道智能服务和应用程序，尤其是针对使用语音转换文本和文本转换语音这两种功能。此外, LUIS (语言理解智能服务) 也提供给开发者访问最先进的语言理解能力。根据牛津计划，Windows Speech API 更新后也适用于 Windows 10。两者结合后, 牛津计划和 Windows 10 将形成一个完整并且全面的平台，为具有任意背景的开发者提供和支持广泛的语音场景和应用程序。微软的Speech APIs提供了完整语音识别，语意识别和语音合成功能。

1）语音识别：语音转换文本该 API 可以直接打开并识别来自麦克风的实时语音，或者是其他来源的实时语音以及从文件内获取的音频。在任何情况下，都可以通过实时流将语音传送到服务器，服务器再将部分识别结果传送回来。

2）语音意图识别：将语音转换为意图该功能与语音转换为文本相似。区别在于语音意图识别功能除了可以从语音输入返回识别的文字，服务器还可以返回关于语音输入的结构化信息，这样应用程序便可以轻松地解析说话者的意图，以驱动下一步操作。用于意图识别的训练模型是由牛津计划 LUIS 服务提供的。

3）语音合成:将文本转换成语音。当应用程序需要对用户 “说话“时，此API可以将该应用程序产生的文本转换为语音，然后播放给用户。

语音与文本转换演示：https://cn.projectoxford.ai/demo/speech#recognition

语音识别 API 入门:https://cn.projectoxford.ai/doc/speech/Get-Started/csharp

4.计算机视觉(Computer Vision APIs)介绍

计算机视觉是一门研究如何使机器"看"的科学，更进一步的说，就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。Computer Vision APIs为开发者提供最顶尖的图像处理算法。通过这些API你可以获得基于图像视觉内容的各种信息并生成理想的缩略图。主要应用方面有：

1）图像分析：本模块将基于所输入图像的视觉内容分析出图像的视觉特征——图像类别，色情检测，主色调等等。使用adult和racy特征属性可以自动限制色情内容，保护你的用户。使用图像的类别检测，可以为图像添加标签，进而把图像分成不同群组。如下面的特征分析例子：