在惯性思维中我们所说的都是中文大数据,中译语通却想通过跨语言的方式为大数据新增一个维度
一提到大数据,我们想到的一般都是中文的大数据,就像一些做公开数据分析的公司往往也只做中文的大数据。但事实上,跨语言的数据整合也同样重要,一家名为中译语通的公司就想通过整合机器翻译、语义分析、智能采编等自然语言处理和大数据技术,做跨语言的数据整合。
其在今年七月三十日发布了大数据分析平台“译见”,其CEO于洋告诉36氪, 译见是跨语言大数据信息搜索与分析综合平台,平台了整合机器翻译、语义分析、智能采编、数据挖掘等十余种自然语言处理、大数据和人工智能技术。
通过资讯文本分析与挖掘,解构出时间、地域、人物、热度、情感、数量、类别和趋势等系列要素,建构起行业主题,事件类型、地理信息之间的可视化知识图谱。
既然说到文本,就如同上文所说,文本还会包含其他语言的文本,比如国内用户在Facebook或者twitter平台上发布的信息,因此译见平台支持英语、法语、俄语、西班牙语、葡萄牙语、阿拉伯语、德语、意大利语、韩语和日语等32种语言。
据悉,译见平台可以应用于资讯情报分析、行业调查研究、社会事件监测等众多场景,目前已经覆盖包括,国际机构、政府机构、事业单位、媒体公关、IT服务、能源、教育、运营商、医疗、旅游、金融、法律等诸多行业。
其实中译语通在发布译见大数据平台之前,已经推出过相关跨语言的产品,其中包括基于网络的语言服务云平台“译云”。该平台整合了翻译人员和用户,为用户随时提供语言服务。同时“译云”以语言服务为中心,针对不同行业,提供增值服务。
另外中译语通还有一款名为译库的产品,其区别于市面上翻译的产品,除了翻译功能之外,还提供包括机器翻译、CAT辅助翻译、平行文本、语言资产管理四大工具。其特点有以下四个方面:
1. 分领域多语机器翻译,译库为译者提供分专业领域的机器翻译,在专业语料大数据的支持下进一步提高翻译质量。与此同时,用户还可以修正机器翻译的结果,译库能够自动学习用户贡献的正确知识,在今后的翻译中提高翻译质量。
2. 开放式语言资产共享平行语料库、术语库、翻译记忆库等都是语言资产的管理的内容,互联网上并不缺乏这样的数据,但这些数据通常零散分布而无法得到有效的利用。译库整合了各种语料资源并进行专业加工,最终汇聚成一个亿级资源的专业语料库。
3. 开放式计算机辅助翻译(CAT),译库的CAT工具不同于单纯的人工翻译或机器翻译,它是在人机共同参与下完成翻译的整个项目,方便译者或学习者在翻译过程中,减少对文档本身的工作。用户在利用该工具进行在线翻译和翻译管理的同时,还可以在线调用开放式语言资产更优化翻译质量。
4. 平行文本,译库的平行文本把众多类似的语句搜集起来,主要是为了专业翻译人员用于更深入地理解原文和译文,或为学习者提供参考或学习之用。
除了上述提到的几款产品:找翻译、字幕通、网页翻译、多媒体呼叫中心、以及LITx。
在今年5月31日,中译语通B轮融资2.5亿元 投资方包括,中国图书进出口(集团)总公司、上海新华发行集团有限公司、上海智德简理投资管理有限公司、上海文化产业股权投资基金和上海朝乾资产管理有限公司等机构。