近日,一款看起来挺有文化的写稿机器人上线了。它叫小柯,由中国科学报社和北京大学科研团队共同研发。
小柯写的不是普通的稿子,而是中文科学新闻。据中国科学报副总编辑、项目负责人张明伟介绍,小柯以论文英文摘要为基础,能够快速写出中文科学新闻底稿,然后由专业人士和报社的编辑进行把关和信息完善,帮助科学家以中文方式快速获取全球高水平英文论文中的最新科研进展。
小柯的作品已经上线。人工智能的触角,也在伸向各个领域。
小柯:一个尽职的摘要翻译转写者
记者发现,7月5日,小柯机器人发出第一篇稿子,截止至8月14日记者统计时,小柯机器人共发稿350篇。初期更新时间距论文发表时间间隔一个月左右,现在可以做到当天或隔天更新,每天更新几到二十几篇左右不等。所选论文来自生命科学等领域,涉及《自然》《细胞》《新英格兰医学杂志》等期刊。
记者对照分析了小柯作品《单细胞测序揭示冠状动脉疾病保护机制》及其英文原文。新闻中,小柯先对论文主题、研究单位以及发表期刊进行简单介绍,后接英文原文摘要的翻译,大致反映原文内容;翻译时会对原文进行适当的语句简化,同时在对专业词语的翻译上也使用了如“血管平滑肌细胞”“保护性纤维帽”等专业表述。
不过,这也不全是小柯的功劳,因为稿件发出前,还有人工审校这一步骤。北京大学计算机科学技术研究所研究员万小军团队负责小柯的系统总体设计与联合技术攻关。他告诉记者,目前机器翻译系统的性能很大程度上依赖于其所使用的训练数据,即平行语料。目前的平行语料多为新闻语料,因此训练得到的机器翻译模型对于日常新闻的翻译效果较好。但学术文献(比如生物学术论文)与日常新闻在用词造句等方面都有较大差别,机器翻译系统对于学术文献翻译的效果并不理想。
这一次,他们通过融合领域知识进行语句智能筛选,选择适合大众理解的语句,并基于语句简化提升语句翻译质量。“英文学术论文摘要适合专业科研人员阅读,但摘要中的语句并不都适合写到科学新闻中面向大众传播,因此需要结合科学报编辑提供的先验知识,采用计算机算法对语句进行筛选,保留适合进行大众新闻传播的语句。”万小军说。
涉及到语言和文字的地方,自然语言处理都能发挥作用
研发小柯用了半年时间,万小军表示,和一般写稿机器人相比,一个好的跨语言科技新闻写稿机器人需要进行两次重要的信息转换过程:一次是不同语言的转换,将英文文本转换为中文文本;另一次是语言风格的转换,将学术型文字表达转换为大众能够接受的通俗文字表达。“这两次转换都具有较大的挑战性,目前并没有完全解决。后续还需要进一步积累数据,调整算法模型,才能取得更好的效果。”
接下来,团队还将继续优化小柯,让他写出的科学新闻内容更丰富,表达更生动。
当然,翻译撰写科技新闻稿件,只是自然语言处理等人工智能技术在学术交流中所能大显身手的领域之一。
“基本上,只要人类交流和工作过程中涉及到语言和文字的地方,自然语言处理技术都有可能发挥作用。”万小军说,在科研论文写作过程中,可以借助自然语言处理技术帮助推荐参考文献,并自动生成relatedwork等章节的文字;业界也有工作尝试基于自然语言处理技术自动编撰图书。“我个人也接触到很多很有意思也很有挑战的应用需求,但可惜的是不少需求都无法基于目前的自然语言处理技术进行实现。自然语言处理技术还需要进一步的发展和突破,我相信在未来将有更多的用武之地。”
精彩评论