从机器翻译到人工智能,中译语通想做驱动多产业发展的“专业引擎”
中译语通 CEO 于洋
【本文来自钛媒体特色栏目创业者说,最有钛度的创业者故事】
视频消费的时代,内容平台们每年要更新数以万计的剧集,花费动辄几亿元的版权投入。而版权剧的引进早已经不是“字幕组”这种传统方式能够匹配的了,字幕组“人肉翻译”的传奇时代,正随着机器翻译的成熟而被终结。
从2013年开始,一项基于多语种语音识别和机器翻译的视频翻译软件——字幕通(YeeCaption)拯救了那些花下重金采购版权的视频网站,将繁琐的视频字幕翻译制作工作最大程度的便捷化,成功实现从切分时间轴、字幕(语音)识别,到字幕翻译、字幕制作及成品导出的一站式操作。
机器翻译技术,不仅改变了国人追剧的方式,也改变了互联网视频巨头们的技术流程。
而这款神奇产品字幕通的母公司中译语通科技(北京)有限公司(以下简称“中译语通”),却一直身处行业幕后,为行业提供专业的语言服务。据钛媒体了解,目前中国的互联网用户消费的海外版权剧,有80%的机器翻译是基于中译语通的服务。
这家成立于2013年的公司,是中国对外翻译有限公司控股子公司、中国出版集团旗下优势品牌。在学术层面,中译语通多年同国内外高校(国内的中国人民大学、北京外国语大学、北京语言大学、中国政法大学、香港中文大学高校级别等,海外有奥地利维也纳大学、纽约州立大学、加拿大约克大学等)的计算机、翻译研究中心等语音识别和机器翻译展开实验级别的战略合作。
“语言不应该是人们沟通或获取信息的障碍”,这成了中译语通积极投入机器翻译技术研发的初衷。
今年6月,中译语通 CEO 于洋向钛媒体透露,自2013年至2016年三年间,中译语通在机器翻译和大数据研发方面投入很大,其中大数据研发每年投入资金超过1.5亿元。2017年,他们加强并扩大了对跨语言大数据的技术深挖,不仅全面提速机器翻译在垂直领域和语种数量的语料训练,而且在数据挖掘、各类算法的高质量数据分析和人工智能应用等方面进一步加大研发投入。
2016年,中译语通先后完成B轮2.5亿元融资和B+轮1.5亿融资,半年内连续获得的两轮融资(合计4亿元人民币)让这家公司备受关注。
深入应用场景的大数据服务
去年12月,在北京举行的译见大数据峰会上,中译语通正式对外宣布了B+轮融资,并发布了译见大数据分析平台的2.0版本。至此,一直期望摘掉“翻译公司”标签的中译语通,已经形成了成熟的语言科技生态“译云”和大数据分析“译见”两大平台产品矩阵,跨入了大数据与人工智能公司行列。如今,中译语通名入2016年中国大数据准独角兽企业榜单,并且从中国本土人工智能公司的融资额度排名来看,中译语通已跻身第四位。
中译语通从2015年开始切入大数据分析领域,正式提出了跨语言大数据概念,并后续推出了跨语言的应用产品译见大数据分析平台,面向多种垂直行业、全球企业机构和政府平台的大数据技术,让中译语通找到了商业模式的核心。
和国内众多大数据公司一样,译见大数据平台的应用场景主要在于为商业机构提供分析决策、市场研究、信息分析、精准营销及公共趋势预测等。用户在译见的数据平台上可以就任一主题或多个主题进行分析,例如“空气污染”、 “经济增长”、“城镇化”等关键词,系统能够绘制出指定时间范围内三者之间的内在联系和趋势预测,并通过可视化效果清晰地展示出来。
“现在我们看到的每一个数据源,我们有超过200万个独立网站数据源,超过65种语言,其实都是经过人工精确分类的。每个数据源进行单独的技术配置,获取的数据进行智能地结构化后,进行大数据分析。庞大的非结构化数据的知识图谱就是这样日复一日的建构起来的。”于洋在位于北京的办公室告诉钛媒体。
“译见”大数据平台某产品的可视化效果
人工智能+大数据的服务,通过各大合作伙伴也深入到了不同的垂直领域。中译语通承担了中国银联全球11个语言7x24小时的全球多语言呼叫中心,每个月超过几十万分钟的呼叫时长;为陕西省建设“一带一路”跨语言大数据分析平台;在2016年的云栖大会上成为阿里云的战略合作伙伴之一; 2017年初的德国汉诺威工业博览会上,中译语通还和海尔达成战略合作,一同助力工业企业的全球竞赛。
截止到2017年,中译语通的数据挖掘能力已经覆盖全球200多个国家,65种语言,超过200多万个独立数据源,同时拥有EB级全球互联网开放文本与社交数和千亿级的知识图谱。
也正是如此,有行业人士将中译语通对标为美国大数据公司Palantir。成立于2004年的 Palantir,是协助美国政府,为中央情报局(CIA)、美国国土安全局、美国联邦调查局(FBI)、美国国家安全局等关键部门提供有效的、可预见性大数据分析服务。
公开信息显示,Palantir最新公布的估值已达200亿美元。
中译语通在数据服务上的差异化,就是其提出的“跨语言大数据”概念,中译语通机器翻译功能已实现全球32个语种,992个语言方向的机器翻译。“如果去除了数据的语言标签,把搜索出来的英语、日语、法语、葡萄牙语等所有语言的大数据汇集起来,定性定量地分析,得到的结果的价值将远远超过我们之前所理解的大数据的价值。”于洋说。
大数据能力,直接决定了这家公司在机器翻译领域的竞争力。于洋告诉钛媒体,“机器翻译是人工智能和大数据中最为复杂的一项技术,大家把它称为‘皇冠上的明珠’。从最早研发机器翻译到后来快速的理解自然语言处理技术、机器学习的应用,才得以延展出今天的跨语言大数据搜索与分析,这也是中译语通跨语言大数据的‘基石’。”
惠及全球的语言大数据支持
“一带一路”战略的落地中,中译语通也是积极参与者这一。
2017年6月,译见大数据分析平台再次走向海外,基于丰富的海外资源,这家公司很早就启动了国际化。在俄罗斯及东欧独联体最大的科技创新盛会STARTUP VILLAGE上,中译语通分别与基金组织斯科尔科沃基金会、综合排名第一的莫斯科国立大学、俄罗斯知名移动互联网公司i-Free达成了战略合作。
中译语通在俄罗斯 STARTUP VILLAGE 展览上
中译语通公司副总裁张晓丹在大会上发表了主旨演讲,她向钛媒体介绍,未来中译语通将在莫斯科国立大学构建以俄语为中心的云语言服务平台,为俄罗斯及20多个周边国家提供语言服务及跨语言大数据智库服务;同时为i-Free人工智能平台的多领域场景化应用提供技术支持。
中国国家信息中心出具的一份《“一带一路”大数据报告(2016)》显示,中国与一带一路沿线64个国家之间国别合作情况中,中俄“国别合作指数”位于首位,这也是中译语通将2017年的海外拓展重点选在俄罗斯的一大背景。
为了让跨语言大数据能惠及全球,中译语通很早就向行业开放了自身的机器翻译及大数据技术,借此不断进行语料的训练和积累,同时进行技术升级,为获取更多的跨语言大数据提供了巨大能量和空间。
Powered by GTCOM
两百人的研发团队,撑起了中译语通的两大平台产品矩阵,过去一年,中译语通一直在致力于完成大数据产品的标准化。于洋向钛媒体透露,今年7月底,将再次推出重要产品,包括四个标准化的大数据产品、一个多语言搜索平台及算法平台。
于洋未向钛媒体透露目前拥有的核心算法团队,但他表示,中译语通上百种算法核心的背后只有少数几位顶尖人才,“算法需要的是对数据有想象力的人”。
“如果说大数据产业的1.0时代,竞争者们处在抓取和采集数据源、追求数据规模的时代;那么,2.0时代属于‘精准标签化’。3.0时代大数据应用更加成熟,也就是说,分类好的数据可以产生研判的价值,落地到不同的垂直领域。”于洋说。
中译语通想做各大垂直行业的“专业引擎”,并不容易。接下来的一年,中译语通将加快国际化步伐,加速大数据产品的迭代,扩展金融、医疗及资本市场等垂直领域的服务应用。
互联网发展到今天的阶段,人类已经进入了一个完全由数据驱动的世界:powered by data,Powered by AI,中译语通想成为其中的驱动力量之一。如果说上一个十年,科技创新是为了“改变语言沟通之路”,如今,这家公司正在转向一个全新的使命:开创一个 Powered by GTCOM 的新十年。(本文首发钛媒体)
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App