OpenAI「珠玉在前」,确实具备参照价值,但是否该成为「追赶」对象依然值得商榷。
回望过去一年风风火火的大模型之战,从最初的拼参数、讲数据到最近的找落地、看应用,「实用主义」成为 2024 年的主节奏。
该如何走出自身大模型之路? 抓最前沿的技术趋势,但为开发者设置最低的使用门槛 ,这是商汤给出的解法。
今天商汤科技正式发布「日日新 SenseNova 4.0」,宣告大模型体系多维度全面升级。
「日日新 SenseNova 4.0」拥有 更全面的知识覆盖、更可靠的推理能⼒,更优越的长⽂本理解力及更稳定的数字推理能⼒和更强的代码⽣成能⼒,并⽀持跨模态交互 。日日新·商量大语言模型-通用版本(SenseChat V4)综合整体评测成绩水平比肩 GPT 4,相较 GPT 3.5 已经实现全⾯超越。
商汤还率先推出了支持不同模态工具调用的⽇⽇新·商量大语言模型 Function call & Assistants API 版本,为先进的大模型与各类应用服务工具的连接提供便利桥梁,显著降低开发者使用大模型的门槛。
同时,商汤将先进的大模型能力转化为落地实际场景的产品应用,基于最新发布的⽇⽇新·商量大语言模型 Function call & Assistants API 完成开发并正式发布数据分析工具 「办公小浣熊」 。
01 代码、多模态多张王牌:超丰富大模型体系,AI 能力随取随用
「日日新 SenseNova 4.0」提供了多种灵活的 API 接口和服务,开发人员可以根据实际应用需求,轻松地调用日日新 SenseNova 大模型的各项 AI 技术能力,以更低成本、更高效率实现各类 AI 应用。大模型性能提升的基础,在于语言建模能力的增强。「日日新 SenseNova4.0」全新升级 日日新·商量大语言模型-通用版本(SenseChat V4) ,目前支持 4k、32k、128k tokens 不同窗口,拓展了模型应用范围。SenseChat V4 显著提升了在知识理解、阅读理解、综合推理、数理、代码和长文本理解等领域的通用能力,综合整体评测成绩水平比肩 GPT-4 ,其中推理和代码编程的测评表现更是超越了 GPT-4。在权威测试集 HumanEval Coding 的测试中,一次通过率达到 75.6%(GPT-4 此项数据为 74.4%)。
基于大模型评测平台 OpenCompass 全集测试,日日新·商量大语言模型 SenseChat V4,综合整体评测成绩水平比肩 GPT-4
商汤日日新· 商量语言大模型-数据分析版本(SenseChat-DataAnalysis V4) 正式发布,在数据分析场景下的数据测试集(1000+题目)中 以 85.71% 的正确率超过 GPT-4 ,支持复杂表格、多表格、多文件的理解,实现数据清洗、数据运算、比较分析、趋势分析,预测性分析、可视化等常见数据分析任务,赋能财务分析、商业分析、销售预测、市场分析、宏观分析等多个应用场景。商汤推出的日日新· 商量语言大模型-医疗版本:「大医」(SenseChat-Medical V4) ,在本次更新中实现了更强的多轮对话与上下文理解能力、以及更丰富的工具调用能力,有效实现专业医学问答及复杂医学任务推理,并支持更多模态医学文件的智能解读和交互问答。「大医」在两项行业权威评测——2023 年职业药剂师考试大模型评测、中文医疗大语言模型开放评测平台 MedBench 中,均实现综合评分排名第二,性能逼近 GPT-4,其中职业药剂师考试大模型评测中的两个细分方向性能已超越 GPT-4。
2023 年职业药剂师考试大模型评测结果,「大医」综合评分排名第二,并在两个细分方向上性能超越 GPT-4
覆盖 13 个医学场景的大医 Web 端展示页面
但在现实生活中,人类接收的信息模态其实是多种多样的,如视觉、声音、文字、嗅觉、触觉等,人类可以综合运用多种模态的信息对事物进行理解和推理。人类的这项能力对应到人工智能领域,正是当下最重要的研究课题之一:跨模态开放任务处理能力,这也是接近实现通用人工智能(AGI)的能力体现。多模态是人工智能大模型重要的技术演进方向, 日日新·商量多模态大模型(SenseChat-Vision V4) 正式推出,其拥有 300 亿参数,图文理解能力处于全球领先水平, 在权威评测基准测试集 MME Benchmark 上综合得分排名首位, 综合得分达 2199.5(超过 GPT-4V 的 1926.57),已在智能驾驶、智能车舱、电力行业等多个实际场景落地应用,助力千行百业的产业升级。
多模态大模型权威综合基准测试 MME Benchmark 可以从定位、名人识别、景点识别、OCR、数学计算等 14 个维度来系统综合评测模型的能力。
例如在日常交通场景,可以给多模态大模型出题:请结合图片内容判断去黄石东路该怎么走?
简单一看,这貌似是一道考验 图文内容理解(OCR) 能力的题目。实则不尽然,「万象」的回答不仅仅是将在图片中占据较小面积的路牌上的文字提取出来,它还展现了足够的推理能力,具备较高的认知能力。能读懂的不止环境,还有 表情包理解 ,「万象」也可以识别出非人类(猫咪)的表情以及背后传达的情绪与态度。
商汤自研的 日日新·秒画文生图大模型(SenseMirage V4) 较此前版本,参数量提升至百亿量级,通过算法优化,语义理解能力与图像质感细节表现显著增强,实现更加精准的提示词理解和图像绘制能⼒,可达成电影级海报生成水平。同时结合 Adversarial Distillation 算法,发布秒画 SenseMirage-Turbo V4 版本,相较于 V4 基础版本,可达到 10 倍推理加速效果。
秒画 SenseMirage V4 全新升级,电影级图片一键生成
02 率先支持不同模态工具调用的 Function call & Assistants API 版本来了,大模型时代的专属开发助手
大模型的能力前沿且丰富,为助力更多开发人员及相关行业更便捷、高效地用好大模型,商汤推出 ⽇⽇新·商量大语言模型 Function call & Assistants API 版本 。如果把大模型看作是大脑,Assistants API 相当于给 AI 增加了眼睛和手,能够自主理解人类下达的任务,并做出正确规划,使用合适的资源和工具。⽇⽇新·商量大语言模型 Function call & Assistants API 版本为开发人员提供一个灵活、高度可定制的工具调用框架,提供了联网搜索,代码解释,图文问答,文生图等多种⼯具调⽤,⽀持商汤⽇⽇新⼤模型体系,赋能多⾏业场景。与其他同类产品相比,⽇⽇新·商量大语言模型 Function call & Assistants API 版本 率先支持不同模态的工具调用 ,能够支持图文结合的多模态交互和数据分析代码执行结果的直观呈现,从而解决更加复杂的问题,让各种应⽤程序中集成 AI 功能变得更加简单和高效。
通过 Assistants API,轻松调用内置工具实现多模态交互(注:展示效果有加速处理)
创新场景应用加速落地,商汤「日日新」大模型体系持续赋能多产业升级 大模型的出现带来了人机交互范式的巨大转换,依托商汤「日日新 Sensenova」能力的快速迭代,小浣熊家族再添新成员——数据分析工具 「办公小浣熊」 ,重塑大模型时代的应用产品形态。 办公小浣熊是一款无需编程或复杂操作即可使用的数据分析工具,也是打工人的好帮手。 通过自然语言输入,办公小浣熊结合商汤大模型体系的意图识别、逻辑理解、代码生成能力,自动将数据转化为有意义的分析结果和可视化图表。得益于商汤大模型体系的强大中文理解能力,该产品更适应中国的数据分析需求。
办公小浣熊演示页面:输入表格,轻松 get 分析报告
产品形态的出现是大模型技术落地应用的尝试之一,凭借丰富的 AI 技术能力,商汤「日日新 Sense Nova」大模型体系目前以低成本、高效率打通了各类 AI 应用,提供包括:面向办公场景的商汤⽇⽇新·商量语⾔⼤模型-数据分析版本、面向医疗场景的日日新·商量语言大模型-医疗版本「大医」、面向自动驾驶及工业场景的日日新·商量多模态大模型,以及面向创作创意场景的日日新·秒画文生图大模型等丰富的工具。自去年 4 月 10 日商汤「日日新 SenseNova」问世以来,商汤「⽇⽇新·商量大语言模型」在金融、手机、医疗、汽车、地产、能源、传媒、工业制造等众多垂直行业,已与超过 500 家客户建立深度合作,企业用户超过 3000 家,加速行业企业的智能化转型。商汤正在走出自身的大模型之路,有前沿技术做支撑、有全新工具降低门槛、有产品应用触达用户。。商汤的本次更新推动了大模型前置化,为实现通用人工智能 (AGI) 提供了精准着力点,助力全场景、多产业实现「大模型+」,拓宽大模型应用边界。 *头图来源:视觉中国