6月23日,由中国人工智能学会主办,CAAI 智能传媒专业委员会、中国传媒大学数据科学与智能媒体学院、媒体融合与传播国家重点实验室、新浪新闻承办的主题为“变量激荡 增量涌现”2024全球人工智能技术大会 智能传媒专题活动在杭州拉开帷幕。阿里云通义大模型业务总经理徐栋分享了题为《通义大模型的进展与传媒领域的实践》的演讲。
徐栋主题演讲中。
以下是徐栋演讲实录,内容经编辑略有删减:
大家上午好!
今天简单从科技公司角度去介绍一下我们做的事情。主办方希望我们对媒体行业能够做一些延展,所以我特别挑了一个在媒体领域的agent实践,叫做妙笔,后面简单向大家报告一下。
首先,过去技术上面有两次比较大的变化,其一是云计算,第二个就是我们今天看到的生成式AI。这里面我们自己总结下来有两点,一个是两者的相同点,一个是不同点。
国内的云计算是在2013年左右快速发展,最早我们看到像手游公司、电商大促,都会用云计算。核心是弹性,弹性是它最早的一个大的刚需,那个时候谈得更多的是技术不要制约商业的发展,我今天5万个用户,明天100个用户,云计算怎么解决这个问题?同时我们也看到,一个技术如果真的能够被普世规模化应用,所占公司的营收比例不会超过10%,所以像手游公司普遍在2% —10% 左右。所以今天映射到模型公司,也会思考另外一个问题:如果今天模型的费用成本占到一个公司2% —10% 的时候,就说明大模型具备了一定的商业化、规模化发展的可能性。所以大模型和云的相同点是,大模型也会经历这个发展路径。
还有一个不太一样的地方,过去云计算还是一个IT范围,而大模型这次给我们带来很大的感受,是我们直接开始接触业务。所以,云在过去是尽可能不要让技术制约业务的发展,现在大模型更多是拓展商业的边界,所以会跟更多产品、业务部门打交道,而不是IT部门。所以这是一个非常大的改变。
也是基于过去的商业实践,我们总结了三个已经被大模型深度影响核心商业模式的产业。
第一、是广义的智能硬件。大家越来越多看到AIPC或者智能座驾,所有的硬件今年上半年也好,下半年也好,一定会带着“AI”两个字。原因很简单,因为大模型带来了一种新的人机交互,而现在不仅仅是语言模型,还有更多的多模态,对原来的ASR也好、OCR、CV、目标检测也好,都做了更大的泛化性的升级。而在手机也好、汽车也好,还是PC也好,都有几个特定的硬件,比如扬声器、麦克风、屏幕和摄像头,这些内容会比过去的鼠标键盘产生更多可能的交互。昨天我还在跟我们另外一个手机厂商客户交流,他们认为未来大模型应该是一个OS级别的载体,未来OS级别的大模型载体初级阶段可能是类似于对原有的Siri做一个升级,是一个超级助理,这个助理不仅仅是音频,有可能通过手势就可以解决很多问题。所以新的人机交互在硬件这一块发展很快,也会反过来推动芯片的变化,这也是为什么我们要做14 B以下的模型,我们发现有一些1.5B、0.5B,在端侧可以比较低功耗地跑出来。
第二,是消费互联网。广义上说,传媒也是消费互联网之一,尤其是新媒体,因为这里面有大量的内容,也有很多角色。比如游戏,浙江有一个非常知名的游戏公司——网易,之前做了一个棒的游戏,叫做《逆水寒》,里面游戏的NPC现在也越来越多接入了大模型。也包括我们跟微博一起合作的,关于社交领域的一些角色IP,不管是叫分身也好,还是叫数字化助理也好,都是在这个范围领域之内。
第三,是产业互联网,产业互联网这个词每个人定义会有不一样,从我们角度来看,它更多偏向于saas,或者有一些办公生产力工具。大模型最早火的时候还是在于Office的M365,可以直接用来写邮件,在Word、PTT、Excel里边可以直接用,所以这是最早在生产力方面的一些应用。如果我们细分一下,整个产业互联网有非常垂直的Workflow,今天办公是一个Workflow,而今天招聘、教育都可能也是一个Workflow,它核心的内容是要生成信息、流转信息,有的是审批,有的是编辑,有的是在创造。所以在这里面我们看到,有大量的大模型在发挥它的价值。
除了刚刚说到的三个快速被改变的产业,基本上每个企业级客户都在提,这也是跟原来云计算不太一样的。最早云计算,13年—15年,大型央国企可能比较少提云计算,更多强调私有环境下的虚拟化技术。但是今天不太一样,今天我们发现很多央国企,从第一天开始就很关心大模型。这个角度更多是从企业内部CIO角度看问题,更多偏向于怎么降本增效。
所以我们总结了三个要素:第一个要素,是企业内部的知识库怎么样统一管理起来,过去都说数据中台,但很多时候企业级客户没有太多的数据标签,它可能有各种数据,但是数据汇总起来没有办法用。所以今天我们看到了每个人手上都有很多文档、很多知识库,也有一些会议和客服,比如今天我们的销售人员和客户服务人员跟客户的聊天记录,这些东西都可能成为未来企业发展很重要的一个数据资产,这些资产有可能是未来做下游任务、跟客户沟通非常重要的一个语料,所以现在越来越多企业都在关心这件事情。
第二个要素是大模型擅长什么能力。我们总结了四个场景,是比较适合大模型,或者大模型在做的四个领域,一个是基于问答ChatBot所体现出来的内容,最早客服大家都知道,需要对聊天的内容做流程的推进,也需要对特定的企业知识库做检索,再回答一个更标准的抑制幻觉的回答,这是最标准的。还有是取数据ChatBI,ChatBI在每个企业里面都有非常明显的需求;第三个是信息抽取,刚才也提到过,所谓的数据中台缺少一些数据标签,今天这么多信息来了之后,通过大模型,因为它的泛化性很好,我可以进行打标签。最后第四是可控式生成,为什么说生成这件事情?我们认为门槛很低,但是它的天花板很高。也就是你今天检索的信息可能是可控的,最后生成的格式和内容也是可控的,这样它才有很大的价值。所以很多企业对于内容生成这一块更多强调的是端到端的可控,如果映射到媒体领域,也就是检索的信息源是否可控?你生成的格式、风格、价值观是否可控?所以有很大的共性。
所以如果今天我们把前两个要素串联起来,嵌入到一个企业的工作流里面,一个企业会有不同的角色,不同的角色背后都会用不同的软件或者业务系统,所以会变成一个真正的输出窗口,比如今天可以把我的知识库和所擅长的四个内容串联起来,就可以在里面使用起来。这是第三个要素。
刚才报告的是我们看到的大模型,包括在消费、电子、互联网领域的快速变化,也包括企业内部生产提效的场景。我们在一年前,跟央媒有一些合作,主要是为了帮助记者更好地做生产的提效,已经合作了比较长时间了。所以我们当时做了总结,架构也比较清晰,基础模型是我们的通义系列模型,现在也开源得非常普遍,大家有机会可以在上面做更多的工作。基于基模的基础,我们对下游任务会做微调,像事件感知的抽取、一些大纲的生成,生成式的检索,生成式的检索是一个非常重要的场景,我怎么样交互式地把我想要的关键文字信息提取出来?所以这是我们在做的中间一层,这里最难的是你要有足够多的标注数据,而且大家有时候会说怎么样去做企业自己的模型?最困难的就是在这一层能够构建足够多的数据集,而这个数据集是适用于企业自己所应用的场景和下游任务。再往上有两个非常重要的能力项,即检索和生成,跟刚才说的大的逻辑范围是比较接近的。
大家可以看到,这样一个媒体类的检索到生成,它的门槛其实不高,但是你怎么样把它串在一起,能够快速搭建起来是我们比较关心的。所以这是我们团队内部快速搭起来的一个agent,它也是依赖于底层的一个模型和工具链所搭建起来的。所以如果把这件事情抽象来看,是两个核心模块:
一是检索,检索还是非常重要的一件事情,也就是怎么样把不同的媒体信息有更完整的、更易于识别的方式搜索出来。比如很多记者过去的诉求,是你能不能在大量音视频数据里面截取出某个关键帧,这是需要用到特殊的算法能力才能做到这件事情。所以分装起来,就是今天agent领域所应用的一个方式。
音视图文多模态检索,今天我们可以看到搜索引擎会有摘要出来,但是它可能会配一些图片。但今天在媒体创作的时候有大量是多模态的,有很多是图片,图片非常多,而且很多是视频。除了多模态图文的检索之外还要做聚类,它可以根据人物、时间、地点做聚类,这样就可以更方便地让不同的媒体创作者做特定领域的全局的预览,用得最多的是时间轴,一件事情能够把所有新闻的文字基于时间轴串联起来,这是在媒体工作者里面用得非常广泛的。
二是生成,模型精度目前是在70分—85分,如果模型精度到95分以上,其实我们所有的事情都可以交给模型来做。比如人脸识别也好、指纹识别也好,精度都特别高,我们完全相信于AI。但是今天模型的精度在85分以下的时候,我们需要对整个链路做拆解,把第一步、第二步、第三步、第四步,把每一步具体要做什么内容拆解以后,再去做下一步的内容。
所以我们在整个链路里面会分成几块:一是主题大纲,然后是摘要和文章,这样基本上就可以把一个媒体从业者标准的工作流拆解出来,进行分步实施。目前来看,这样的效率是比较适合或者比较匹配于媒体从业者的应用场景。还有一件事情非常重要,就是内容的审核,这里内容的审核不仅仅是内容安全的问题,因为刚才很多老师讲到关于内容安全,关于安全方面相关的评论。这里还包括了事实性检测,因为大家都很关心模型会有幻觉,即使你问它一加一等于五这件事情怎么看,它有可能告诉你概率是十万分之一。所以今天我们需要对模型生成的内容,因为如果是严肃媒体要做事实交叉校验,这也是非常重要的环节。
最近找到我们比较多的是像建筑公司,像工程机械,他们有很多招投标的标书,标书每次的生成,每次可能一两百多页,怎么通过企业知识库自动化生成这些标书,也提供了很多新的可能性。包括营销,营销也是广义媒体的一个领域,从最热的文章开始提取信息,去检索出来,对它的特征做聚类,然后到广告主的特定素材,然后自动化生成,这也是今天我们看到很多流量的平台,包括很多自媒体做的事情。所以整个链路串联了信息的生成、信息的检索,到当中的标签化生动生成的一个过程。
刚才讲的是媒体领域早期的实践,我们认为还非常早,更多是一个小的助手,这个小的助手通过我们现在看到的一个平台、工具链就可以快速搭建起来。所以如果今天你有基模,有一个模型,有一个工具链,这个工具链就叫百炼,百炼可以把agent加上插件,加上一些知识库,就可以搭成一个agent,搭出来你自己所要的妙笔,一个媒体的应用就可以快速实现了。所以今天我们可以看到,通过工具链快速搭一个个人助手,搭一个写作生成的机器人,搭一个客服比较普遍了,我们也相信未来很多企业都会用这种方式,快速让大模型在企业内部生成落地。
我们看到这次变化真的很快,我们内部不设定三个月以上的OKR,基本上每个月都会迭代,所以我们发现模型的开源有规律也没有规律,有的时候一个月开源两次,有的时候一个月开源一次。我们在开源社区也会得到更多的反馈,告诉我们什么叫好,什么叫不好。所以对我们来说把模型做好,把工具链的能力做强,让用模型的门槛降低,这是我们要做的事情。大家都在同一个起跑线,也希望大家能够用好模型,发挥出更大的价值。
谢谢大家。