百度 AI 开发者大会百度大脑论坛： PaddlePaddle 升级至 3.0，开放更多语音语义技术

雷锋网 • 6年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

雷锋网 (公众号：雷锋网) AI 研习社按，百度 AI 开发者大会于 2018 年 7 月 4 日正式开幕，在当天下午的百度大脑分论坛上，来自百度视觉技术部、百度语音技术部、百度 AI 技术生态部、百度大数据部的多位负责人带来了一场开发者的视听盛宴。这里有对百度语音语义技术的详细解读，有对 PaddlePaddle3.0 的更多介绍，还有各种各样的开放竞赛，相信在场观众必定受益匪浅，而雷锋网 AI 研习社也第一时间提取出大会亮点，以飨读者。

视觉语义、语音语义和知识图谱

论坛伊始，百度视觉技术部、人脸技术部、增强现实技术部总监吴中勤为大家介绍了视觉语义化的作用——可以让机器从看清到看懂视频，并提炼出结构化语义知识。他表示，视觉语义化技术首先识别人、物体和场景，同时捕捉它们之间的行为和关系，通过时序化、数字化、结构化的方式形成语义知识，最终进行智慧推理，落地应用。

他描述了百度语义化平台的技术架构。首先是底层依赖，这里包括数据采集、光学传感器、嵌入式芯片、云端计算服务，上层是识别算法，包括人体/人脸分析、物体检测/识别/分割、文字识别、场景分析，再往上是语义分析层，包括动作检测/识别、视频跟踪、事件分析，接下来是产品方案层，包括智慧分析与推理、可视化展现等，最上层是丰富的应用场景。

百度 AI 开发者大会百度大脑论坛： PaddlePaddle 升级至 3.0，开放更多语音语义技术

他表示，未来，百度视觉语义化技术也将开放给开发者使用。

除了视觉语义化，语音语义一体化也非常重要。

百度语音技术部总监高亮表示，百度目前在远场语音语义上有三个最新技术突破，一是语音语义一体化，二是多语种混合声学建模，三是将传统拼接技术与 WaveNet 融合。他表示，语音语义一体化将远场交互中高频 Query 识别准确率提升 10 个点，并保持普通 Query 识别率不降。他也具体介绍了如何解决远场交互的高频 Query，可以看到其中涉及到语言模型、声学模型、高频知识库、语义纠错等多个方面。

百度 AI 开发者大会百度大脑论坛： PaddlePaddle 升级至 3.0，开放更多语音语义技术

2017 年，百度推出 Deep Peak2 建模技术，这一技术适合多语种建模的上下文无关的音素组合建模，无需考虑音素组合的前后音连，大幅提升了中英文混合 Query 识别准确率。

另外，远场语音技术低成本解决方案「度小云」也在此时发布，这一方案基于 Deep Peak V2 语音识别技术，以及面向高频 Query 优化的语音语义一体化技术和 LSTM-VAD 深度学习语音切分技术等，据悉，未来开发者可以直接一站式获取这一远场语音能力。

除了前面提到的视觉语义和语音语义，将语言变成知识也非常重要。百度 AI 技术平台体系执行总监吴甜对百度语言与知识技术布局进行了全面解读，这其中包括计算、推理、知识图谱、语言理解、语言生成等多层技术。

百度 AI 开发者大会百度大脑论坛： PaddlePaddle 升级至 3.0，开放更多语音语义技术

她在现场介绍了百度多元语义知识图谱，其中包含实体图谱、行业知识图谱、事件图谱、关注点图谱、多媒体图谱，目前，实体图谱已经能够满足 90% 用户需求，行业知识图谱也已经覆盖亿级专业资源，多媒体图谱包含十亿张图片与音视频语义标签，能精准关联 95% 热门实体。

她表示，百度理解与交互技术平台 UNIT 发布至今，已经有 1 万名开发者参与其中，累计创建了 1.3 万条技能，发起 33 万次启发式训练，8 万次模型训练。目前，UNIT 升级至 2.0，进一步增强了冷启动能力，能像人一样在实践中学习。

从百度语言与知识开放技术蓝图中可以看到，目前百度的实体标注、文本纠错、评论观点定制化、对话情绪识别等多种功能已经正式开放。

吴甜表示，未来，百度将会开放实体属性填充、长文本实体标注、内容生成解决方案等多种技术。

PaddlePaddle3.0 以及各类比赛和工具

值得一提的是，在上午的主论坛上，王海峰正式发布 PaddlePaddle3.0，下午，百度 AI 技术生态部总经理喻友平对此进行了详细解读。

百度 AI 开发者大会百度大脑论坛： PaddlePaddle 升级至 3.0，开放更多语音语义技术

从 PaddlePaddle 的历史说起，2012 年 1 月，百度开始深度学习技术研发，2013 年，百度开始自研深度学习平台服务百度多项核心业务，2016 年 9 月，百度开源自研深度学习框架 PaddlePaddle，2017 年 11 月，发布新一代深度学习框架 PaddlePaddle Fluid，到今天，宣布 PaddlePaddle 升级为 3.0 版本。

PaddlePaddle3.0 的核心框架包括 PaddlePaddle Fluid、PaddlePaddle Serving、PaddlePaddle Mobile，以及 AI Studio 在线实训平台、AutoDL 网络结构自动化设计平台、EasyDL 快速应用平台。喻友平表示，目前百度已经开放部分训练好的常用模型，如 NLP（中文情感分析、中文词法分析）、语音（DeepASR）、视觉（图像分类、目标检测、人脸检测等）、强化学习（DQN）、AutoDL（模型设计、模型迁移、模型适配）等。

他也提到百度目前基于 PaddlePaddle 的多项比赛，今年下半年会有工信部首届生物特征识别技术开发者大赛、华大基因变异检测赛事、KG 知识抽取、交通预测、车道线识别等多项竞赛，大家现在就可以关注。

而百度大数据（北京）实验室主任浣军则详细介绍了 PaddlePaddle3.0 中的 AutoDL。他表示，有了 AutoDL，开发者无需特殊软硬件设备和特殊训练，可以快速得到定制化高质量的模型，能更高效自动搜索神经网络结构。AutoDL 支持设计全新深度学习网络结构，优化现有深度学习网络结构及参数，同时能够适配特定任务场景。

百度 AI 开发者大会百度大脑论坛： PaddlePaddle 升级至 3.0，开放更多语音语义技术