今年以来,以ChatGPT为代表的生成式人工智能掀起新一轮科技热潮,国内一些大模型的发布引发广泛关注,海内外互联网企业也在应用层面加快布局。生成式人工智能成为社会各界广泛关注的话题。
近日,中国日报网就此采访清华大学新闻学院教授沈阳,以下为采访实录:
请您介绍一下目前国内外生成式人工智能的发展现状。
【资料图】
沈阳:目前看来,现状是高开快走、蓬勃发展。
第一个特点是高开快走:高开快走是指ChatGPT发布后,迅速将生成式人工智能应用的智能性能提升到一个新高度。基本上每周都有一些新动态出现。
第二个特点是开源领域发展迅速,如LLaMA模型(Large Language Model Meta AI,Facebook Meta AI推出的开源大模型)以及许多其他大语言模型出现。
对比国内和国外,目前国内发布的大模型与GPT-4.0仍存在差距。按照创新扩散理论,这个差距可能会扩大。因为在创新事物高速发展的过程中,也就是起飞期,领先者通常会扩大与第二名之间的差距。但目前,人工智能仍具有一定的争议性。我们认为,下一步中国通过开源模型的进一步迭代,完全有可能缩短与美国的差距。
对于新闻媒体行业来说,AIGC的出现以及大模型应用,可能会给内容生产带来哪些影响?
沈阳:首先是生产成本大幅度下降。过去很多内容需要人去编写,现在可能已经不需要这么多了。
第二点,从形态来看,可能会出现大量内容是真实的,但混杂了一小部分假的内容,这种形态可能比较普遍。这带来了一个严重问题,即辨识真相的难度增加,这个问题也很突出。
第三个情况是传播者有所变化。以前的传播者大多是人,但随着时间的推移,他们逐渐转变为AI账号。美国已经出现了一个纯AI账号的社区叫Chirper,这类网站中的AI账号是主流、是博主。因此,从传播源、传播渠道到传播者,都会发生很大的变化。
AI可以用于核查新闻事实吗?
沈阳:AI既是核查事实的工具,又是需要被核查的对象,它是一把双刃剑。一方面它通过多个信息渠道进行交叉验证,另一方面我们知道大语言模型具有幻觉和一本正经的胡说八道的特点。因此,有时候它内部产生的内容需要我们进一步核实。所以现在在搜索引擎加入大语言模型的版本里,它会提供原始链接。我们称之为溯源追查,但真正的溯源仍需回归现实,所以记者的作用仍然非常重要。
对于媒体机构和从业者,您认为生成式人工智能技术面临哪些风险和挑战?未来我们应该如何应对?
沈阳:首先,美国已经出现了无记者新闻。其次,大家对新闻交互性要求提高,出现了对话式新闻。第三点是,在阅读新闻过程中,对于新闻所涉及的有传播价值的敏感新闻点,它具有扩展阅读需求。这对新闻界带来了几个重大挑战。
首先,AIGC技能需要进一步提升。对于每个记者来说,要进一步提升AIGC技能,提升自己的生产力。因为我们的竞争对手并非AIGC本身,而是掌握AIGC技能的其他人。当整个社会的人员逐步掌握AIGC时,作为社会风险的洞察者,记者应该优先掌握高科技生产力的工具。这是第一个原因。
第二个方面是,记者对判断消息真假的能力要求更高。无记者新闻或者刚才提到的AI幻觉等现象,都可能导致信息变异和失真的程度在某些领域增加,并且传播速度更快。因此,记者的真实记录能力变得更加重要。
第三个方面是AI具有自动交互能力。原来的记者可能仅是发稿,现在可能需要培养合适的AI分身来进行交互。当人人都具有AI分身并进行交互时,记者的AI分身在这个过程中应该有哪些特点?这是我们需要先行尝试的。因此,我认为这对我们带来的挑战非常巨大。
我国网信部门也就生成式人工智能的服务管理向社会公开征求意见,您对此如何看待?您关注哪些条款?
沈阳:我个人认为,首先一定要精准治理,但不要过度治理或不治理。为了快速促进AIGC发展,日本最近的动作相当猛烈,他们将AIGC训练语料的版权全部放开。这对AIGC行业发展的影响会非常明显。因此,我们一方面要考虑技术发展逻辑,另一方面要考虑国际形势和各行业的劳动替代问题,这是一个均衡的结果,不应该偏废某一方面。
没有发展的治理,就谈不上治理。没有治理的发展也谈不上好的发展。因此,我认为一定要辩证地处理,这是我想谈的第一个大观点。
第二大观点是,我们需要促进生产力发展,同时提升生产力技术。在提升过程中,要避免对现有生产关系的冲击,实现平缓过渡。当我们不希望这些冲击对社会结构产生颠覆性影响时,我们应该采取措施。社会也需要适应冲击,因为没有风险就没有收益。我们要尽可能让冲击平缓,让大家可以承受,同时促进生产力发展。目前的状态是AI技术发展过快,这可能对社会结构产生很大冲击。因此,我们需要做好预判,并进行精准治理。
您认为当前大模型在训练提示词及生成方面,是否需要考虑版权问题?通过AI生产出的数据代码和图文等内容,版权应该如何界定?
沈阳:这是一个大家还在讨论的问题。首先是训练语料的版权问题。其次是训练完成后,与交互过程中提示词的版权问题,这是一个新出现的问题。第三个是生产内容的版权问题。
我们最近在研究一个课题叫做“最小版权识别单元”。对于文本来说,我们是否能在非篇章结构上进行版权保护,而是在最小版权识别单元上进行一些版权保护,这是我们最近在探讨的话题。
“最小版权识别单元”的意思是能识别出具有独创性的知识产权的最小单元。以“最小版权识别单元”为例,这8个字组成的词语从未被大家使用过,我将这部分保护起来。如果AI将这8个字连在一起,我们可能会怀疑它侵占了我们的独创性智慧。在这种情况下,如果他们连用这8个字,我们是不是应该询问他们要支付版税?
图像和视频的版权保护可能比文字处理更复杂,我们还在继续研究。大家都在思考这些问题。总的原则是,首先应该延续原有法律,能适用的尽量适用;其次,针对新出现的情况,我们应该如何调整。
关于大模型在媒体方面的应用,您最近了解到了哪些新进展?
沈阳:最近我们团队也在为媒体进行一些大模型研发工作,首先是优化内容生产过程。第二个方面是用于检查内容中的错误,这也是可以进行的。第三个是翻译。第四点是,我们是否能够自动化地形成更多报道角度,包括特定人物的评论风格。这些都是我们现在可以尝试的,最近我们也正在进行研发。
(编辑:王辉)