对话百度美研:解决最富有挑战的问题
DoNews 2月5日消息 美国硅谷,这个孕育全球互联网公司的地方已经诞生了包括Oracle、Facebook、Linkedin、Apple这样国际巨头,还包括Yelp、Airbnb这样的创新产品。
无论是市值过千亿的公司,亦或是诞生数月的初创公司,创新无疑已经成为了唯一的生存之道。
受百度之邀,DoNews记者探访了位于硅谷腹地的百度美国研究中心,Microsoft、Google、Amazon近在咫尺。正如百度美研高级技术总监吕厚昌介绍,百度美国研究中心所担负的任务是解决最富有挑战的问题。
那么,什么才是最富有挑战的问题呢?百度美研资深架构师James Peng透露,2014年百度颁发了6个百万美金大奖,其中有4个就被美研团队拿到了,这可以解释百度美研在百度整体架构的重要性,也完全有能力去解决最富有挑战性的问题。
数据与效能的平衡
百度美研资深架构师James Peng介绍称,大数据是目前百度美研最重要的项目之一。通俗的讲,大数据就是按照一定的规则将有效的数据中海量的数据中提取出来并加以处理和研究。
James Peng表示,目前百度已经可以获得基础的数据,但是数据量惊人,而处理这些海量数据的工作量就变得异常惊人,即便是通过大规模服务器集群来计算时间也变得非常长。
等计算机将有效的数据提取出来也早已失去了时效性,而百度美研正在处理这些棘手的问题,将大数据处理的质量和速度大幅度提升,从而真正的将大数据造福于用户。
打造绿色的数据中心
对于百度、Google、Facebook这样的巨头互联网公司,每天都会接受到全球数百亿、数千亿次的访问请求,而处理这些不同的服务请求就需要大规模的服务器集群来计算,简而言之,服务器数量越多,反馈给用户的速度就会越快,那问题也会随之而来,如何才能将大规模的服务器集群的计算效率变得更高?
百度美研高级技术总监吕厚昌表示,百度美研另一项最重要的工作就是打造全球最绿色的数据中心,百度位于山西阳泉的数据中心就由百度美研所参与。
阳泉数据中心是世界首个支持深度学习的GPU计算环境,中心拥有300万内核的计算能力以及4000PB的数据量。
最值得一提的就是PUE,阳泉数据中心的PUE小于1.3,吕厚昌详细解释了PUE<1.3的意义,1.3度电进入到机房,其中有1度电用户数据计算,0.3用于散热等基础设施,吕厚昌称,PUE<2在业内都在接受范围之内,假设PUE=2就意味着有50%的电能会被浪费掉。
深度学习的全球地位
Deep Text、Deep Image及Deep Speech是百度美研的三大深度学习项目,James Peng介绍道,目前全球的研究成果在Deep Text方面的差距都不大,Deep Image及Deep Speech由于收到客观因素的影响,各公司的研究成果就会存在差异,而百度在这两方面已经站在了世界前列。
Deep Speech主要是针对语音识别的研究项目,在无噪音环境下,包括Apple、Google在内的研究项目基本都差不多,噪音环境下的识别能力才是关键。
James Peng介绍,目前百度Deep Speech在噪音环境中的测试成绩已经能够超越同类研究项目,将识别错率降低到了20%以下。
人工智能的深度学习项目目前还处于实验室研究阶段,暂时还没有进入产品阶段。(完)