Azure Kinect有哪些功能？

传感器SDK和身体追踪SDK

Azure Kinect 面向开发者提供了深度，视觉，声音和方向四大类传感器SDK，包括100万像素TOF深度摄像头、1200万像素RGB高清摄像头，7麦克风圆形阵列和惯性测量单元IMU，并提供了多种控制访问模式和自定义安装方式，可以为Azure Kinect 设备配置和硬件传感流提供跨平台的底层访问。

深度摄像头在控制访问时可以选择宽或窄两种FOV视野，所以在实际空间内获取的数据将会更为精准。当我们利用深度摄像头进行房间环境识别的时候，TOF的技术能够近乎实时的捕捉到周围环境信息。基于扫描到的深度数据，可以将捕捉到的人或物的画面以深度摄像画面和三维点云效果来表现。正如下列视频中所描述，当我们切换到点云(右上黄绿色的部分)模式时，Azure Kinect 已将物体和人进行了实时建模，所以房间中的基本信息都能在画面中准确识别。而且基于对环境的实时扫描，可以切换到不同角度进行轮廓观察，并且还可以通过缩小和放大来观测这些空间数据的细节画面。

RGB高清摄像头在控制访问时，可以鉴别出物体的边界范围，以此来辅助深度摄像头获得物体的尺寸数据。通过控制图像分辨率和时间戳等相机帧元数据，可以同步深度摄像头和RGB高清摄像头之间的相机流和配置延迟，进而使深度数据更为准确。

此外我们还可以通过Azure Kinect Viewer看到麦克风阵列的7条轨道，他们作用于敏锐的360度环绕空间声音的捕捉和收集。(如下图右边部分)而通过对惯性测量单元IMU的控制和自定义调优，可以精确地计算三轴信息加速度来确定人物空间坐标位置。

身体跟踪SDK允许Azure Kinect 以3D的方式追踪移动或处于固定位置的人体。身体跟踪SDK可以提供实例分割，2D关键点以及观察到的或者估算的3D关节和关键点等功能，从而获得完整清晰和唯一性鉴别的多骨骼身体跟踪能力，继而能够对动作进行准确追踪，同时还能识别画面中的多个物体。另外根据7麦克风圆形音频阵列捕捉到的声音，Azure Kinect可以较为准确分辨出人群中不同人物的位置。

Azure Kinect+Azure 认知服务

视觉

Azure Kinect搭载了100万像素深度摄像头和1200万像素高清摄像头，可以对物体，场景和动作进行识别。当结合本地计算和Azure认知服务后，就能够对人脸进行准确识别；同时借助身体跟踪和动作识别的SDK，能对关键人物进行快速定位辨别，此外Azure认知服务还能准确识别目标人物的情绪变化。视觉功能不但可以追踪物体和人物，凭借Azure认知服务图像识别功能，通过OCR可以将文本和手写体内容进行准确识别。

语音

Azure Kinect 的圆形麦克风阵列及传感器可以实时收集外界的声音，并通过Azure认知服务的的语音识别功能实时处理翻译成文字。与Azure结合，根据声音的关键特征，能够较为准确识别说话人的身份信息，加上Azure Kinect 的方向传感器，进而可以锁定说话人的位置。

语言

通过Azure语言认知服务，Azure Kinect 可以在发现语言符号信息后，对其文本所要表达的含义进行分析并采用实体文本抽取方式，加以理解。

通过以上这些功能，Azure赋予了Azure Kinect 企业所需的能力，而采集到的深度信息又帮助Azure在企业服务时，更为准确与智能。

（文章转载自公众号：微软HoloLens）

传感器SDK和身体追踪SDK

Azure Kinect+Azure 认知服务

集英新闻

行业新闻