人工智能大模型体验报告3.0
近日,新华社研究院中国企业发展研究中心发布《人工智能大模型体验报告3.0》(以下简称报告)。报告显示,迭代风潮之下,大模型产品正在迅速适应并引领市场变革。其中,讯飞星火、商汤商量和智谱AI-ChatGLM等厂商表现总体优秀。
报告显示,大模型厂商在技术实力上呈现出百家争鸣态势。不同厂商在产品特点和优势上各有千秋。一些厂商在安全性能上表现出色,通过加强模型的鲁棒性和数据保护措施,为用户提供更可靠、更放心的服务。另一些厂商则在易用性上下功夫,致力于降低用户的学习曲线,使产品更贴近用户需求,提升用户体验。
为进一步直观感受我国当前主流科技企业所推出的大模型产品的现状、优势和特点,新华社研究院中国企业发展研究中心于今年10月启动了本次测评研究。与前两次发布的《人工智能大模型体验报告》相比,本次测评在多个方面进行了升级。
本次研究抓取了2023年10月25日-2023年11月6日的数据,通过人机互动提问等形式,对国内主流大模型进行使用体验评测。在评测过程中,不仅考虑模型产品的实际表现,还深入评估了厂商的技术实力和未来发展潜力。此外,评测题库扩充到了1000道,并精选其中的400道进行实际问答测试。这大大提升了评测的广度和深度,能更准确地反映大模型在不同场景和问题下的实际表现。
报告显示,与2023年8月相比,当前中国大模型产品进步显著。具体来看,科大讯飞星火继续保持领先优势,商汤商量、智谱AI-ChatGLM等厂商整体表现优秀。针对各维度能力测评,该报告还给出了相应的案例展示和分析。
在基础能力部分,科大讯飞星火表现抢眼,能够准确地理解指令,并且能够生成图像;字节跳动豆包同样能较为准确地理解指令并且完成部分生产图像的指令;智谱AI-ChatGLM和澜舟科技孟子都能较为准确地理解指令,表现优良。
在智商部分,科大讯飞星火在回答基本正确的同时能够理解指令,不给出多余的回答;商汤商量、澜舟科技孟子和智谱AI-ChatGLM大多数时候能够根据指令回答问题。
在情商部分,各大模型表现差距不大。在给定的场景中基本均能展现较高的灵活性及人文关怀。其中,商汤商量、腾讯混元所给方案详尽,问题切入角度多样,且一定程度上引导用户进行更深入的思考。科大讯飞星火、字节跳动豆包、阿里通义千问、智谱AI ChatGLM和昆仑万维天工在分析问题时能够考虑到不同的策略,并给出令人信服的理由。总体具备较高的情商能力。
在工作提效部分,在不同专业技能场景下测评模型均能一定程度上提升问题分析和解决水平。科大讯飞星火、商汤商量和字节跳动豆包不仅能够较好地解答日常疑惑,在法学、经济学、文学方向上也表现不凡,能够以较快的速度响应并给出较为准确可信的结果。360智脑、澜舟科技-孟子、智谱AI-ChatGLM在多语种翻译、代码编程和文字摘录方面表现优异,给出的回答能够起到辅助作用,并为专业从业人员提供参考。
报告还显示,随着大模型快速升级迭代,大模型的技术能力开始越来越多地体现在产品能力上。在C端,职场、营销、出行、生活、公文、客服等多个场景个人助手陆续上线;在B端,制造、电力、金融、手机、传媒等行业的大模型和产业融合优秀案例也在不断出现。
报告认为,虽然人工智能大模型的发展取得了较大进步,但不可忽视的是,人工智能大模型依然存在不稳定等问题,需要进一步解决,另外大模型的安全问题也不容忽视。报告同时指出,人工智能大模型将进一步推动数字经济和产业经济的深度融合,掀起新一轮技术革命,为社会经济发展提供源源不断的科技动力。
具体内容如下:
责任编辑:张薇