研究方向
-
语音识别及语音唤醒
面向家居、车载、办公室、公共空间、强噪声、近远场等复杂场景,研究多语言、多模态、端云一体的语音识别及唤醒技术,通过平台方式提供丰富的开发者定制模型自学习能力,让业务具备语音模型的自定制能力。
-
语音合成
研究高音质、高表现力的语音合成技术及个性化语音合成,说话人转换技术,主要应用于语音交互、信息播报和篇章朗读等场景。
-
声学及信号处理
研究声学器件、结构和硬件方案设计,基于物理建模和机器学习的声源定位、语音增强和分离技术、以及多模态和分布式信号处理等。
-
声纹识别与音频事件检测
研究文本相关/无关声纹识别、动态密码、近场/远场环境声纹识别、性别年龄画像、大规模声纹检索、语种方言识别、音频指纹检索、音频事件分析等。
产品及应用
语音识别及语音唤醒(虚拟文案)
致力于用最自然的人机语音交流方式,打造公共空间真实场景下的智能服务机器。主打业内首创的强噪声环境下的免唤醒语音交互、语音识别、流式多轮多意图口语识别等技术,已应用于交通行业和新零售行业。
1)地铁语音售票机:全球首台地铁语音售票机,用户能够用该机器进行语音站点查询、语音模糊地点查询并完成路径规划;用户购票时间由30秒下降至10秒。
2)快餐店语音点餐机:用户可以用人机交流式的语音交互方式,完成客制化点餐需求的快速下单。
语音识别及语音唤醒(虚拟文案)
致力于用最自然的人机语音交流方式,打造公共空间真实场景下的智能服务机器。主打业内首创的强噪声环境下的免唤醒语音交互、语音识别、流式多轮多意图口语识别等技术,已应用于交通行业和新零售行业。
1)地铁语音售票机:全球首台地铁语音售票机,用户能够用该机器进行语音站点查询、语音模糊地点查询并完成路径规划;用户购票时间由30秒下降至10秒。
2)快餐店语音点餐机:用户可以用人机交流式的语音交互方式,完成客制化点餐需求的快速下单。
团队成员
任小枫
实验负责人
华盛顿大学计算机科学与工程系客座教授,拥有加州大学伯克利分校博士学位。加入阿里巴巴之前,曾担任亚马逊资深主任科学家,负责Amazon Go计算机视觉算法的研发。相关论文被引用10,000次以上,是CVPR和ICCV会议的领域主席。
鄢志杰
语音实验室研究员
西安电子科技大学博士,曾在美国OGI从事博士后研究。在IEEE Trans等学术刊物及会议上发表论文近百篇。曾获中国科学院杰出科技成就奖(2014年)、中国语音产业联盟先进个人(2016年)。
高 杰
语音实验室资深算法专家
德州大学达拉斯分校博士。拥有50篇会议和期刊论文。研究领域包括声纹识别、语种识别、音频检测、语音识别、机器翻译、自然语言理解、推荐系统等。曾任Facebook和SRI的研究科学家。
潘 攀
视觉智能实验室资深算法专家
拥有伊利诺伊大学芝加哥分校博士学位。拍立淘以图搜图的创始人之一,研究领域包括深度学习、视觉搜索与识别和三维视觉等。曾先后在三菱美国研究院和富士通北京研发中心从事视觉技术工作。已发表20余篇论文,拥有多项授权专利。
刘 铸
资深技术专家
纽约大学博士,研究领域包括视频内容理解和分析,三维视觉,机器学习。曾任AT&T科研实验室主任科学家,哥伦比亚大学和纽约大学的客座教授。拥有140多项美国专利,发表70余篇论文。曾获AT&T科技奖章。IEEE高级会员,IEEE TMM和SPL副主编。
学术成果
论文
- Bin Wang, Pan Pan, Qinjie Xiao, Likang Luo, Xiaofeng Ren, Rong Jin, and Xiaogang Jin. Seamless Color Mapping for 3D Reconstruction with Consumer-Grade Scanning Devices. In: Proceedings of the 4th International Workshop on Recovering 6D Object Pose Organized at ECCV 2018, Munich, Germany, 2018
- Bin Wang, Pan Pan, Qinjie Xiao, Likang Luo, Xiaofeng Ren, Rong Jin, and Xiaogang Jin. Seamless Color Mapping for 3D Reconstruction with Consumer-Grade Scanning Devices. In: Proceedings of the 4th International Workshop on Recovering 6D Object Pose Organized at ECCV 2018, Munich, Germany, 2018
- Bin Wang, Pan Pan, Qinjie Xiao, Likang Luo, Xiaofeng Ren, Rong Jin, and Xiaogang Jin. Seamless Color Mapping for 3D Reconstruction with Consumer-Grade Scanning Devices. In: Proceedings of the 4th International Workshop on Recovering 6D Object Pose Organized at ECCV 2018, Munich, Germany, 2018
- Bin Wang, Pan Pan, Qinjie Xiao, Likang Luo, Xiaofeng Ren, Rong Jin, and Xiaogang Jin. Seamless Color Mapping for 3D Reconstruction with Consumer-Grade Scanning Devices. In: Proceedings of the 4th International Workshop on Recovering 6D Object Pose Organized at ECCV 2018, Munich, Germany, 2018
- Bin Wang, Pan Pan, Qinjie Xiao, Likang Luo, Xiaofeng Ren, Rong Jin, and Xiaogang Jin. Seamless Color Mapping for 3D Reconstruction with Consumer-Grade Scanning Devices. In: Proceedings of the 4th International Workshop on Recovering 6D Object Pose Organized at ECCV 2018, Munich, Germany, 2018
竞赛
- 2018 KITTI囊括三项道路场景分割任务第一。
- 2017ACM多媒体大会,大规模视频分类比赛(LSVC)冠军。