网络百科 心情随笔 怎么向大模型要生产力,讯飞星火的“三问三答”

怎么向大模型要生产力,讯飞星火的“三问三答”

埃弗雷特·罗杰斯在《创新与扩散》中提出过一个著名观点:一种创新在刚起步时接受程度比较低,使用人数较少,扩散过程也就相对迟缓,当使用者比例达到临界值后,创新扩散过程就会快速地增加。

风头正盛的大模型浪潮,再次印证了创新扩散理论的适用性:三年前还只有少数几个科技大厂参与,价值被初步验证的2023年,即上演了“百模大战”的一幕,2024年大概率是大模型落地应用的元年,向千行万业加速扩散。

由此产生的一个问题是:怎么将大模型的能力延伸到产业一线,最适合中国产业结构的路径是什么?

半个多月前的华为中国合作伙伴大会2024上,科大讯飞副总裁刘江参与了“计算峰会”的讨论,围绕大模型落地应用的路线、场景和生态,分享了讯飞星火在过去一年时间里的探索和答案。

01 大模型的能力从何而来?

尽管不同统计口径下的数据有所差别,但可以肯定的是,目前国内的大模型数量已经有上百个,用“遍地都是”来形容大模型行业,并不算夸张。问题在于,为什么大模型的数量越来越多,产业应用尚未渡过拐点?

大模型的行业竞争,从来都不是拼数量的游戏,经过一段时间的跟风、躁动后,还是要回到能力上。

2024年1月30日,讯飞星火正式升级到V3.5版本,在语言理解、文本生成、知识问答、逻辑推理、数学能力、代码能力和多模态能力七个方面进行了全面升级,其中语言理解、数学能力超过GPT-4 Turbo,代码达到GPT-4 Turbo的96%,多模态理解达到GPT-4V的91%。

同期发布的星火语音大模型,在中文、英语、法语、俄语等首批37个主流语种的语音识别效果超过OpenAI的Whisper V3,而在多语种语音合成方面,星火语音大模型的首批40个语种平均MOS分绝对提升了0.25,拟人度超过83%,均达到了国际领先水平。

讯飞星火认知大模型在“百模大战”中脱颖而出的背后,离不开昇腾AI和科大讯飞在算力底座上的联合突破。

时间回到2023年4月,讯飞星火V1.0发布前夕。有别于一些大模型厂商抢时间上线的做法,科大讯飞在同步思考一个长远问题:为了避免被卡脖子,怎么将大模型的能力架构在一个自主创新的体系上?

接下来近一年的时间里,昇腾AI和科大讯飞针对大模型训练进行了一系列技术攻关,包括大模型底层算子库开发和优化、大模型算法迁移、超大规模集群智能化运维软件开发等等。

双方联合开发和优化了50多个大模型算子,其中科大讯飞基于昇腾自主开发自定义的关键算子就超过10个,最终让大模型的训练性能提升了3倍以上,和国外同类产品不相上下。

6个月后的讯飞开发者节上,双方向外界公布了一个新消息:首个支撑万亿参数大模型训练的国产算力平台“飞星一号”正式启用,基于昇腾AI基础软硬件平台和大容量交换机构建参数面无损ROCE组网,配置高空间的全闪和混闪并行文件系统,可以支撑万亿参数大模型高速训练。

解决了大模型的算力底座后,联合创新的势能被进一步释放,先后训练出了讯飞星火V3.5、星火语音大模型、星火开源大模型以及12个行业大模型,为大模型的能力提升注入了源源不断的动力。

02 大模型的能力怎么输出?

大模型的能力不能停留在参数上,停留在评测报告中,想要解放生产力,前提是让大模型的能力落到一个个业务场景中。由此产生的关键问题是:大模型的能力怎么输出,怎么降低落地门槛?

经过一年多的摸索后,行业上下游逐渐形成了一种共识,即通过预训练产生通用大模型,再在通用大模型的基础上,使用特定的行业数据精调出行业大模型,然后基于通用大模型或行业大模型来开发应用。

讯飞星火遵循了大模型落地的行业共识。有所不同的是,讯飞星火还提供了一条条通往产业一线的路。

为了满足不同规模不同场景的快速部署需求,讯飞星火在“飞星一号”的基础上,进一步开放了底层算力构建和运维能力、大模型训练平台和工具链,以及数据清洗、数据训练、应用开发等全套工具,让企业可以构建自己的智算底座。

为了满足企业专有大模型的推理应用需求,科大讯飞和华为在2023年8月发布了“星火一体机”,提供底层算力、AI框架、训练算法、推理能力、应用成效等AI能力,让每家企业或机构都能获得“开箱即用”的大模型一体化解决方案。

为了加速企业大模型应用价值的落地,科大讯飞的答案是星火优化套件,包含星火通用大模型、行业大模型优化套件和场景应用优化套件,并未局限在模型和算力层面,而是尝试在配套服务和能力上打通大模型落地的“最后一公里”。

回到创新扩散理论的话题上,创新扩散的过程离不开千千万万的开发者,他们无疑是大模型走进千行万业的“蚂蚁雄兵”。特别是整个行业还处于“摸着石头过河”的阶段时,“独角戏”注定不是可行的方式。

所以,讯飞星火在帮助企业和机构降门槛的同时,不断向开发者抛出橄榄枝,不断拉近开发者和大模型的距离。

比如讯飞星火在昇思社区等平台上开源了13B大模型,并向开发者提供基础模型、精调模型、微调工具、人格定制工具、高质量多语种语料等等,通过给开发者提供全生命周期的服务,让他们把精力聚焦在想要解决的问题上,做最大的投入和努力,而非把时间花在不必要的事务中。

简单做个总结的话,讯飞星火的路线并不复杂:一方面降低大模型的门槛,涵盖训练、推理、部署等环节;另一方面为开发者赋能,让他们参与到大模型落地应用的浪潮中。初衷则是借助合理的分工,跑通大模型价值释放的产业链条,让大模型不再是美好却空洞的花瓶,而是实实在在的生产力。

03 大模型落地到哪些场景?

大模型的落地又不能一味求快。很多行业对大模型的态度仍是技术上的新鲜感,势必要有一个价值持续验证的过程,落地到哪些场景,带来什么样的价值,直接影响着外界对新生产力的认知。

就像瓦特在改良蒸汽机后,没有预想中那样迅速在全世界铺开,而是经历了近半个世纪的探索,直到在纺织领域“打败”水能,才让蒸汽机和产业革命挂钩。每一次工业革命的出现,与其说是技术课题,不如说是一个经济课题。

同样的问题也摆在大模型面前,成为新一轮工业革命“引擎”的前提,是产生肉眼可见的经济效益。

科大讯飞在2023年7月打造了一支名为“星火军团”的精锐队伍,被定义为探索大模型价值落地的战略业务组织。历经9个月的稳扎稳打,星火大认知模型带来的生产力变革正在被越来越多的行业认可。

在能源领域,国家能源集团与科大讯飞联手开启了能源行业数字化、智能化转型的新篇章。

在智慧城市领域,湖北省利川市依托讯飞星火认知大模型和昇腾算力,构建了自主创新人工智能公共算力平台,驱动利川数字产业、智慧文旅、康养产业、智慧农业等领域全面发展。

其中利川文旅大模型发布将在今年五一正式上线使用,将从旅游线路规划、旅客需求收集、客流高峰控制等方面,为景区的精细化管理提供科学高效的辅助决策,推动文化和旅游深度融合、一体化发展。

在科研领域,中科院文献情报中心与科大讯飞合作推出的星火科研助手,提供成果调研、论文研读和学术写作三大功能;三亚崖州湾科技城借助科研助手增强科研文献检索和分析能力,并通过科技文献大模型为科研人员提供建议指导,提高了研究效率和质量。

在银行领域,与某国有银行强强联合,实现讯飞星火在客服、展业、办公、研发等场景的赋能,并正在重点打造银行领域的代码能力应用标杆。

在教育领域,谦萃智能利用iFlyCode智能编程助手为教师提供了高效的备课支持,简化课程内容,使学生更易于理解和掌握。在团队协作的项目中,iFlyCode显著减少了所需的人力和时间资源。这些综合效果共同促进了教育资源的优化配置和学习效率的整体提升,得到了师生们的广泛认可。

诸如此类的案例还有很多。需要说明的是,以上只是讯飞星火示范的标志性应用场景,目的是帮助企业探索大模型在B端的商业化之路,让千行万业看见大模型的价值所在。

在讯飞开放平台上,生态开发者团队609.5万,其中大模型直接开发者的数量41万,他们才是点燃大模型落地应用的星星之火,不断将大模型的能力带入到实际工作中,不断拓宽大模型应用的边界。

04 写在最后

大模型的产业之路还很长,昇腾AI和讯飞星火的合作,无疑为外界提供了一种值得借鉴的范式:在算力等基础设施上打破大模型训练的瓶颈,为大模型的能力输出开辟出一条条可行的路,然后由开发者们创造无数个解决问题的应用。

有理由相信,沿着这样已经被证实的路径走下去,持续做好应用落地,形成数据飞轮,同时在大模型层面进行可持续迭代和进化,终将会渡过大模型产业应用的“拐点”,带来百倍、千倍的需求,营造出充满生机的大模型产业生态。