研究方向

语音识别及语音唤醒

面向家居、车载、办公室、公共空间、强噪声、近远场等复杂场景，研究多语言、多模态、端云一体的语音识别及唤醒技术，通过平台方式提供丰富的开发者定制模型自学习能力，让业务具备语音模型的自定制能力。
语音合成

研究高音质、高表现力的语音合成技术及个性化语音合成，说话人转换技术，主要应用于语音交互、信息播报和篇章朗读等场景。
声学及信号处理

研究声学器件、结构和硬件方案设计，基于物理建模和机器学习的声源定位、语音增强和分离技术、以及多模态和分布式信号处理等。
声纹识别与音频事件检测

研究文本相关/无关声纹识别、动态密码、近场/远场环境声纹识别、性别年龄画像、大规模声纹检索、语种方言识别、音频指纹检索、音频事件分析等。

产品及应用

语音识别及语音唤醒（虚拟文案）

致力于用最自然的人机语音交流方式，打造公共空间真实场景下的智能服务机器。主打业内首创的强噪声环境下的免唤醒语音交互、语音识别、流式多轮多意图口语识别等技术，已应用于交通行业和新零售行业。

1）地铁语音售票机：全球首台地铁语音售票机，用户能够用该机器进行语音站点查询、语音模糊地点查询并完成路径规划；用户购票时间由30秒下降至10秒。

2）快餐店语音点餐机：用户可以用人机交流式的语音交互方式，完成客制化点餐需求的快速下单。

语音识别及语音唤醒（虚拟文案）

2）快餐店语音点餐机：用户可以用人机交流式的语音交互方式，完成客制化点餐需求的快速下单。

团队成员

任小枫

实验负责人

华盛顿大学计算机科学与工程系客座教授，拥有加州大学伯克利分校博士学位。加入阿里巴巴之前，曾担任亚马逊资深主任科学家，负责Amazon Go计算机视觉算法的研发。相关论文被引用10,000次以上，是CVPR和ICCV会议的领域主席。

鄢志杰

语音实验室研究员

西安电子科技大学博士，曾在美国OGI从事博士后研究。在IEEE Trans等学术刊物及会议上发表论文近百篇。曾获中国科学院杰出科技成就奖（2014年）、中国语音产业联盟先进个人（2016年）。

高杰

语音实验室资深算法专家

德州大学达拉斯分校博士。拥有50篇会议和期刊论文。研究领域包括声纹识别、语种识别、音频检测、语音识别、机器翻译、自然语言理解、推荐系统等。曾任Facebook和SRI的研究科学家。

潘攀

视觉智能实验室资深算法专家

拥有伊利诺伊大学芝加哥分校博士学位。拍立淘以图搜图的创始人之一，研究领域包括深度学习、视觉搜索与识别和三维视觉等。曾先后在三菱美国研究院和富士通北京研发中心从事视觉技术工作。已发表20余篇论文，拥有多项授权专利。

刘铸

资深技术专家

纽约大学博士，研究领域包括视频内容理解和分析，三维视觉，机器学习。曾任AT&T科研实验室主任科学家，哥伦比亚大学和纽约大学的客座教授。拥有140多项美国专利，发表70余篇论文。曾获AT&T科技奖章。IEEE高级会员，IEEE TMM和SPL副主编。

学术成果

论文

Bin Wang, Pan Pan, Qinjie Xiao, Likang Luo, Xiaofeng Ren, Rong Jin, and Xiaogang Jin. Seamless Color Mapping for 3D Reconstruction with Consumer-Grade Scanning Devices. In: Proceedings of the 4th International Workshop on Recovering 6D Object Pose Organized at ECCV 2018, Munich, Germany, 2018

Bin Wang, Pan Pan, Qinjie Xiao, Likang Luo, Xiaofeng Ren, Rong Jin, and Xiaogang Jin. Seamless Color Mapping for 3D Reconstruction with Consumer-Grade Scanning Devices. In: Proceedings of the 4th International Workshop on Recovering 6D Object Pose Organized at ECCV 2018, Munich, Germany, 2018
Bin Wang, Pan Pan, Qinjie Xiao, Likang Luo, Xiaofeng Ren, Rong Jin, and Xiaogang Jin. Seamless Color Mapping for 3D Reconstruction with Consumer-Grade Scanning Devices. In: Proceedings of the 4th International Workshop on Recovering 6D Object Pose Organized at ECCV 2018, Munich, Germany, 2018
Bin Wang, Pan Pan, Qinjie Xiao, Likang Luo, Xiaofeng Ren, Rong Jin, and Xiaogang Jin. Seamless Color Mapping for 3D Reconstruction with Consumer-Grade Scanning Devices. In: Proceedings of the 4th International Workshop on Recovering 6D Object Pose Organized at ECCV 2018, Munich, Germany, 2018
Bin Wang, Pan Pan, Qinjie Xiao, Likang Luo, Xiaofeng Ren, Rong Jin, and Xiaogang Jin. Seamless Color Mapping for 3D Reconstruction with Consumer-Grade Scanning Devices. In: Proceedings of the 4th International Workshop on Recovering 6D Object Pose Organized at ECCV 2018, Munich, Germany, 2018

竞赛

2018 KITTI囊括三项道路场景分割任务第一。
2017ACM多媒体大会，大规模视频分类比赛（LSVC）冠军。

研究方向

产品及应用

语音识别及语音唤醒（虚拟文案）

语音识别及语音唤醒（虚拟文案）

团队成员

任小枫

华盛顿大学计算机科学与工程系客座教授，拥有加州大学伯克利分校博士学位。加入阿里巴巴之前，曾担任亚马逊资深主任科学家，负责Amazon Go计算机视觉算法的研发。相关论文被引用10,000次以上，是CVPR和ICCV会议的领域主席。

鄢志杰

西安电子科技大学博士，曾在美国OGI从事博士后研究。在IEEE Trans等学术刊物及会议上发表论文近百篇。曾获中国科学院杰出科技成就奖（2014年）、中国语音产业联盟先进个人（2016年）。

高 杰

德州大学达拉斯分校博士。拥有50篇会议和期刊论文。研究领域包括声纹识别、语种识别、音频检测、语音识别、机器翻译、自然语言理解、推荐系统等。曾任Facebook和SRI的研究科学家。

潘 攀

刘 铸

学术成果

论文

竞赛

高杰

潘攀

刘铸