金山办公副总裁姚冬谈人工智能技术:应该重视工程化落地能力

砍柴网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

9 月 29 日,姚冬现身 InfoQ“大咖说”,妙语连珠,观点犀利,他既分享了他丰富多彩的职业生涯,也结合自身经验讲述了自己选择职业方向和技术方向的方法论。以下内容节选自当天的分享,InfoQ 做了不改变原意的编辑:

InfoQ:首先请您跟大家做一下自我介绍,包括您的职业经历、您一直以来关注哪些技术领域等等。

姚冬: 我目前在金山办公任副总裁,主管 AI 方向的研发,做程序员有 20 多年,从 97 年就开始在软件公司,98 年进入金山,如果小伙伴们不怕暴露年龄的话,可能也知道金山词霸、金山游侠。后来去过一些其他公司,比如诺基亚和 YY 语音,17 年的时候又重新回到金山办公,转型做 AI 方向的算法和工程产品。

InfoQ:您曾两进金山,您对金山办公的感受和看法有发生什么变化吗?

姚冬: 人都有这个“问题”,就是在一个组织里的时候,更容易发现这个组织有问题。因为这时候你是一个近距离的观察者,看了很多细节,会总觉得这儿也不好,那儿不好,这个不对,那也不对。但如果跳出这个领域成为一个旁观者,距离产生美,当你看不到一些琐碎的细节的时候,你更容易从一个全局的宏观视角去看待问题,这时候你会发现,原来的组织或许也没那么糟糕,甚至有些原来的一些亮点、一些优秀的地方是你以前是看不到的。

我在 2004 年的时候离开金山,你出来再看的时候,你会发现这家公司,尤其很多以前没有注意到的优点,比如这家公司充满了技术梦想,至今也是,仍然是一家技术驱动的、技术立业的公司。上次雷总在我们的年会上甚至还说着,在我们这里“程序员是老大”。

另外这家公司仍然坚持着它的梦想,30 年就坚持做一件事情。从创办的时候就做办公软件 WPS,现在还是,它可以把一件事情坚持到底。从 商业 的角度看,你会发现这并不是一件很赚钱的好生意,它更多的是承载了一代代程序员的情怀和梦想。

另外你会发现这家公司也很正派,一直都很奉公守法,本分经营。它是能守住一些底线,经营上属于比较本分正直,老老实实做自己专注的、喜欢的事情,特别是技术上的事情。

InfoQ:您回到金山办公之后负责 Al 这块,可以简单谈谈您现在的工作吗?

姚冬:我在金山办公主要是在组建 AI 的研发团队,包括算法、工程、产品,现在团队算是有一定的规模,而且有些产品和工程已经落地了。我现在做几件事情,一是推动算法改进,就是已经落地的一些产品,包括一些新的算法的改进。第二推动工程落地,就是算法、工程、技术这些,它是一定要落地到一个具体的产品和业务里的,要服务真正的客户,所以说要推动算法工程的落地。第三件事情就是关于发掘未来的两样东西,一个是优秀的人才,培养未来的有潜质的人才,人才梯队建设,还有一个就是挖掘未来的产品、技术和业务的新方向。

InfoQ:最开始对于如何将 AI 应用到办公软件,有没有哪些头绪或者想法?

姚冬: 这个我当时也大概花了几个月去摸索技术领域的一些东西,包括现有的一些算法、理论、工程,然后我当时给自己定了一个原则和方向,今天还是这个原则:既然我们做办公软件,那么我们处理最多的数据就是文本数据,就是文字,WPS 这三个字的缩写,当年就叫“Word Processing System”,翻译过来就是字处理系统,我们 30 年来主要是跟文字打交道。当然现在 WPS 的组建很丰富了,包括演示、表格、图片、视频、海报、思维导图等等,但至今文字还是非常重要的部分,所以我给自己定了一个方向就是 处理文字。

那么人类处理文字主要是几个事情,是“听、说、读、写”。对于机器来说,它处理文字大概也是这四件事情:“听”就是语音识别,说就是语音合成,叫 TTS(Text To Speech);“读”就是自然语言理解,如果这个字是印在一张纸上,你要先做 OCR、做扫描识别,如果这个字是英文或者其他语言,你听不懂,那么就先做机器翻译;还有自然语言生成,自然语言生成就是辅助写作,问答都属于自然语言生成。

人类做对于文字主要是做四件事——听说读写,我做 AI 也是瞄着这四个方向,怎么处理文字的听说读写,并且把这四个能力应用到办公场景去,跟我们的主产品 WPS 去结合。

比如说我们做了字符识别。那怎么样识别?扫描件或照片里的文字,我们可以把它读出来,提取出来。比如说我们做机器翻译,各国文字都可以把它翻译成中文,或者把中文翻译成外文。除此以外,我们也做各种自动美化、排版、检测识别功能,还做辅助写作,也做搜索,知识图谱...... 总之都是围绕着文字去做的事情。

InfoQ:金山办公做 AI 和其他公司有什么不同?要用几个形容词来形容的话您会选择什么?

姚冬:金山办公还是一个比较务实的公司,它是做什么技术都会考虑工程化、怎么落地,这是几十年来一贯的风格。公司从创始人开始就是做工程的,就是要做实实在在的产品,求总(求伯君)、雷总(雷军)也好,他们都不是学术圈出来的,他们是工程背景,都很在乎工程要落地,要服务客户,要变成产品。所以我们一向都是工程主导,无论做什么事情,都想着怎么把它落地,怎么变成一个功能、变成一个业务、变成一个产品,变成用户能用到的东西。

InfoQ:两个月前金山办公发布了 AI 深度学习推理框架 KSAI-lite 并开源出来,能否跟我们介绍下这个项目,以及您对它后续发展的期望。

姚冬:WPS 这个产品由于它的特性,是和很多产品不一样,可能中国跨平台跨的最多的产品就是 WPS,PC、IOS 和安卓都有,在浏览器里它有 Web Office,PC 上它支持 Mac、Linux、Windows,它可以在 X86 芯片上跑,它也可以在 ARM 芯片上跑,它甚至支持龙芯,它几乎支持所有的终端设备。

如此一来就给它带来一个问题:它如何做 AI 推理和算法的框架?

那这框架必须也支持所有的设备,所有的操作系统,所有的指令集的排列组合,这就是 WPS 一个非常特别的地方。你看别的产品,哪怕是一些大的企业,它的产品也不是跨所有平台,但是 WPS 就是这样的,你可以在所有你能想到的终端上看到 WPS。所以它的 AI 推理框架也必须支持所有的操作系统和所有的平台指令,那这件事只能说由我们自己来做。当然,我们不是从头做的,我们也是拿业界的开源框架,在上面去做移植、做优化。因为不同的指令集总是要做适配,不同操作系统要做一些针对性的优化,所以我们希望把这些成果开放出来,如果有其他的公司的企业产品业务也遇到这样的问题,可以考虑使用我们这套解决方案。

目前我们把 OCR 能力、文本校对的能力移植过来了,争取把机器翻译也移植上去,这样它就可以让这些 AI 深度学习算法在所有的终端上都能跑起来。

顺便说一下,我们为什么要让这些算法在终端上跑起来?这些算法在服务端的 GPU 上跑是没有问题的,为什么要在终端跑?是因为我们用户群体很大,有各种复杂的场景。比如说:有的场景可能网速很慢,甚至有很多办公场景是不联网的,或者政府和一些保密机构、大企业的核心部门是不联外网的,它希望能做本地处理,但是它需要这种能力怎么办?我们就能提供相应的解决方案。

随意打赏

提交建议
微信扫一扫,分享给好友吧。