5月6日,科大讯飞“星火”认知大模型“千呼万唤始出来”,董事长刘庆峰现场演示了“星火”大模型包括文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力以及多模态能力在内的七个维度的能力,充分展示了科大讯飞在大模型研发领域中的“硬实力”。
此外,刘庆峰向在场观众开放了星火大模型的体验测试链接,并演示了“星火”接入科大讯飞旗下学习机、智能办公本、录音笔等产品后展现的智能功能,这意味着“星火”不仅率先面向公众大规模开放,还是率先应用落地的AI大模型。
“如果说大模型的满分是5分,在4.48分,而目前‘星火’在英文领域已经达到4.29分,领先于国内同行。”刘庆峰说。他还当场给出了“星火”大模型年内的发展给出了确切的时间表:“星火”将在6月9日、8月15日再度“能力升级”,并在10月24日对标。
科大讯飞现场实测“星火”认知大模型 理解能力出色,可用性较高
此次发布会上,测试者和现场观众对“星火”在七个维度上的能力进行了全面考核。
如在语言理解、逻辑推理等诸多考验大模型“智商”和“情商”的测试中,“星火”表现亮眼,科大讯飞研究院院长刘聪现场问道:“俗话说男子汉大丈夫宁死不屈,但是俗话又说男子汉大丈夫要能屈能伸,请问这两句话怎么理解?”以及“如果一个小伙子跟女朋友吵架了,他应该宁死不屈还是能屈能伸呢?”对此,“星火”表示前一个问题需要根据特定场景选择,而对后一个涉及女朋友的问题,“星火”的回答则是“这种情况下,这个小伙子应该能屈能伸。一味坚持原则可能会加剧矛盾,冷静下来才能寻找解决方案……”这一“高情商”答案让现场观众报以喝彩和热烈掌声。
而在数学能力中,讯飞星火大模型展现出“学霸”气质。除了常规计算、几何、情景应用等,如对于复杂的计算题:“花坛里有三种花,一共88朵,其中月季花的数量是菊花的4倍,牡丹花的数量是菊花的5倍少2朵,那么请问花坛里一共有多少朵牡丹花?”星火大模型很快准确给出了答案,并给出了解题步骤。
值得注意的是,多年以来,科大讯飞在教育及医疗方面拥有深厚的知识积累,而此次“星火”大模型也展示了丰富的通识知识,能够对生活常识、科学知识、工作技巧、医学知识等应对自如。
“目前,我们并未发布专用的医疗大模型,不过我们的智医助理比强,以后这些能力会慢慢进入星火大模型,而医疗专用模型会在今年的1024会议上发布。”刘庆峰表示。
作为人工智能“国家队”之一,刘庆峰说:“我们要向致敬和学习,同时也要快速追赶并努力超越,而这需要一套科学系统的评测体系。“科大讯飞通过认知智能全国重点实验室牵头设计了通用认知大模型评测体系,并与中科院人工智能产学研创新联盟和长三角人工智能产业链联盟共同探讨形成了覆盖7大类481个细分任务类型。在科学的评测体系中,推动大模型的发展。
刘庆峰强调,“今天要看一个大模型系统到底好不好,首先要看它是不是能解决刚需、是不是真的有用,而不是一个简单的单点测试。”
率先应用落地 “1+N”深度赋能教育、办公、汽车、数字员工领域
科大讯飞的“星火”还是国内率先实现应用落地的AI大模型。围绕“星火”认知大模型“1+N”架构中“N”个领域的内容,科大讯飞发布了大模型在教育、办公、汽车、数字员工等多个方向的行业应用成果,值得注意的是,这些成果均为“即时上线”,拥有科大讯飞学习机、智能办公本等相关产品的用户升级后即可立即体验“星火”的魅力。
如在英语学习和作文批改上,搭载了“星火”的科大讯飞AI学习机T20系列精通中英双语,可以实现和学习者的一对一英英自由对话,对用户发音进行评分,还可对中英文作文像老师一样层层批改点评
而在办公场景,搭载了“星火”的讯飞智能办公本升级了会议纪要、语篇规整两大功能。在会议纪要方面,将语音实时转写与墨水屏纸感书写相结合,并且可以对会议记录内容形成一份精简的会议纪要,有助于快速回溯会议内容。在语篇规整方面,可以去除语音转写文稿中的口语化词汇、过滤冗余词汇,对文本进行润色等,轻松将录音中发音者的口头表述转换为规整的文案。
而在科大讯飞领跑市场的语音转写场景,讯飞录音笔以及讯飞听见通过AI分析文字内容,可以一键生成包括全文摘要、工作待办、工作计划、新闻稿件、宣传文案、多语种翻译等多种文本,还可以根据原文件内容,进行AI对话并对原文内容进行提问追溯。在实机演示中,“一建成稿”功能令人惊艳,用户可以直接将录音笔中的录音转换为一篇新闻稿,并可以自行标注稿件重点进行重复生成。
在“星火”的能力下,汽车语音市场占有率第一的科大讯飞还有望推出搭载大模型的智能座舱,实现车内跨业务、跨场景人车自由交流。据了解,科大讯飞已为数千个车型提供业界领先的智能语音交互服务,提供多轮、多人、多区域、多模态的语音交互,累计服务用户已经超过4610万,在国内汽车智能语音应用市场保持占有率第一。这一次认知大模型技术会让车载人机交互再上一个新的台阶。
此外,“星火”大模型还能直接赋能数字员工领域,科大讯飞基于自然语言生成业务流程和 RPA,可帮助企业员工完成大量重复性工作。在现场演示的公司招聘事项为例,输入指令后,系统即可自动按照事先设计的RPA脚本,操作计算机中的相应软件,实现业务流程的自动化操作并输出结果,还能进行数据分析,大幅减轻一线工作人员的压力。
除了上述领域外,讯飞星火认知大模型还将赋能包括医疗、城市、政法、工业等在内的更多行业,满足更多专业领域的需求,向更广阔的产业领域延伸。
与其他国内大模型、相比有何差异?星星之火可以燎原
在各类国内版“GPT”上线之际,科大讯飞此次官宣发布的大模型“星火”有何不同之处?
首先,此次发布会对“星火”的所有测试均为现场实机演示,而非发布Demo,“星火”经受住了测试人员和现场观众的问题考验。其次,本次现场演示除了向“星火”提问外,还展示了商用场景。最后,科大讯飞提出了“星火”升级的确切时间表。
事实上,作为国内AI行业的领军企业之一,科大讯飞在启动“星火”认知大模型之初,就和中国科技大学共同承建的认知智能全国重点实验室牵头,与中国科学院人工智能产学研产业联盟和长三角人工智能产业链联盟的众多的专家、合作伙伴进行共同探讨,达成广泛共识,设计形成了覆盖7大类、481个细分任务类型的通用认知大模型评测体系。
“当我们向Open AI致敬和学习、同时要快速追赶并努力超越时,我认为我们首先需要一套科学、系统的评测体系。”刘庆峰说,“在我们刚刚给出来的7个维度的481项测评体系中,科大讯飞的星火大模型针对文本生成一共有181个细分任务测试。在这里我非常自豪地跟大家分享,星火在国内目前已经推出来、能够测试到的认知大模型中,是明显领先的。”
刘庆峰表示,文本生成和数理能力一定程度代表了一个大模型的聪明程度,“星火”大模型不仅在国内系统中显著领先,相比也具有一定优势;而在语言理解和知识问答方面也达到接近水平,处于国内领先水平;逻辑推理和代码能力已经是国内领先。
事实上,“星火”大模型的优良表现,一定程度上继承了科大讯飞面对困境时“奋力一搏”的精神。正如1999年科大讯飞刚刚创业之时,国内语音市场全部被国际巨头控制,但这个由6位中国科技大学在校大学生创办“草台班子”在融到第一笔资金之后,全力以赴地投入到了研发之中,最终现在占领了中文语音主流市场的70%。
“最初我们是‘压强式地投入’,整合了国内可以整合的源头技术资源,但连年亏损。那个时候我们在巢湖的半汤会议上特别提出来一句话,叫“燃烧最亮的火把,要么率先燎原,要么最先熄灭”,既表达了我们的紧迫感,也表达了我们会率先燎原的信心和勇气。讯飞星火大模型起名之前,我们是经过了千千万万的比较,最终一致认为我们喜欢“星火”这个名字。”刘庆峰说,“星星之火,可以燎原。”
文/罗亦丹