原标题:语料“螺丝钉”铆紧东盟链
8月6日,南宁市西乡塘区和德科创中心内,广西达译科技有限公司(简称达译科技)的语言工程师们正在电脑前忙碌。界面上,越南语、柬埔寨语、泰语等东南亚国家的语言热词、热句不断滚动,经实时清洗、标注后,汇入公司15亿句对的中文—东盟语言精加工语料库。
“每一条新入库的语料,都是未来翻译引擎里的一颗‘螺丝钉’。”达译科技总经理温家凯的话语里,藏着企业与东盟语料库建设的同频共振。
温家凯还是广西翻译协会副会长。他带领的达译科技自2009年成立起,就锚定东南亚语言处理技术领域。创业初期,团队从越南语、泰语入手尝试。“这是东南亚语言里语料相对多的两种语言,但当时只能靠纯人工拆分对齐,要投入大量人力逐字比对,耗时长,稍不留神还会因语序差异或语义模糊出现错漏。”温家凯回忆。
技术突破的种子由此埋下,语言工程团队提出了技术优化设想。温家凯介绍:“从2012年开始,我们持续摸索与研发,根据需求迭代了五六十种自动化处理程序,实现了篇章的精准对齐和智能断句拆句。”
而数据稀缺、语言资源分散、技术适配性差等行业共性难题接踵而至。为此,团队自主研发跨语言预训练模型,构建半自动化数据标注体系,令数据质量和处理效率大幅提升。
2024面向东盟人工智能合作会议上,达译科技实现了英语、越南语、泰语、印尼语、马来语、缅甸语、老挝语和柬埔寨语的AI实时翻译投屏显示,赢得现场嘉宾的一致好评。“在复杂环境下,我们的AI实时翻译投屏准确率能达到85%,理想环境下可以达到95%以上。”温家凯自豪地说。
达译科技的成长轨迹,正是广西构建面向东盟的语言“数字枢纽”的缩影。
今年以来,《广西“人工智能+制造”行动方案(2025—2027年)》等文件密集出台,助推人工智能技术在各领域场景广泛应用。广西积极构建“北上广研发+广西集成+东盟应用”的人工智能发展路径,把东盟语料库建设作为打造中国—东盟人工智能合作高地的一号基础工程加快推进,加强与东盟国家对接沟通。
如今,达译科技的初级语料库数据量达百亿级,产品服务已超200家国内企业,但在拓展东盟市场时仍面临挑战。温家凯坦言:“语言文化差异、技术标准不统一等问题仍阻碍着双方的大规模合作。”
而正火热进行的AI赋能千行百业超级联赛为破局带来了新契机。“这场聚焦人工智能、经济转型、东盟合作的赛事,会让AI大模型和东盟语料库建设碰撞出新火花,也为我们挖掘和培养人工智能人才提供了平台。”温家凯说。
从人工敲打到智能迭代,达译科技的15年探索,见证着广西以“语言+数字”路径打通中国—东盟合作脉络的决心。在合作的热土上,更多“螺丝钉”正不断嵌入区域协同的齿轮,让人工智能成为连接中国与东盟的桥梁,推动双方合作迈向更深层次。(记者 杨思悦 黄君栋 实习生 周爱梅 黄颖霞)