您的当前位置:首页 > 综合 > LiveBench 最新榜单:阶跃星辰位列中国大模型第一 正文
时间:2024-12-27 08:18:24 来源:网络整理 编辑:综合
近日消息,国际权威榜单 LiveBench 官网公布了最新的语言大模型测评结果,阶跃星辰自研的万亿参数语言大模型 Step-2 的技术表现位列中国基座大模型第一,成绩逼近 OpenAI 的 o1-mi
近日消息,新榜国际权威榜单 LiveBench 官网公布了最新的单阶第语言大模型测评结果,阶跃星辰自研的跃星万亿参数语言大模型 Step-2 的技术表现位列中国基座大模型第一,成绩逼近 OpenAI 的辰位 o1-mini-2024-09-12,超越 gpt-4o-2024-08-06 、列中gemini-1.5-pro-002 等国际主流模型,模型是新榜唯一进入榜单前十名的中国语言大模型,位列全球第五。单阶第另外,跃星同时上榜的辰位中国大模型公司还有通义千问和 DeepSeek。
LiveBench 是列中由图灵奖得主、Meta 首席 AI 科学家杨立昆(Yann LeCun)联合 Abacus.AI、模型纽约大学等机构联合推出的新榜大模型测评基准。LiveBench 从包括数学、单阶第推理、跃星编程、语言理解、指令遵循和数据分析在内的多个复杂维度对模型进行评估,采用新颖的数据来源并保持每月更新,被誉为「世界上第一个不可玩弄的 LLM 基准测试」。
值得关注的是,Step-2 在 IF Average(Instruction Following)一项表现突出,超越包括 o1-preview-2024-09-12 在内的所有国内外语言大模型。这意味着,Step-2 在语言生成上对细节有最强的控制力,模型能够更好地理解和遵循人类指令,捕捉到模糊需求背后用户的真实意图,对通用及特定领域知识的覆盖上都有更好的表现。比如当使用 Step-2 创作古诗词,模型在发挥创意的同时能够对字数、格律、押韵、意境做到精准把握。
据了解,今年 3 月,阶跃星辰发布了 Step-2 语言大模型预览版,这是国内首个由创业公司发布的万亿参数模型。目前,阶跃星辰开放平台为开发者提供 Step-2 的 API 接口,该公司的 C 端智能助手「跃问」也已经接入了 Step-2 万亿参数语言大模型,用户在跃问 App 和跃问官网(https://yuewen.cn)皆可体验。
玩久了怎么觉得还是20内核好玩点2024-12-27 07:29
意天空:阿切尔比可能继续缺席国米VS勒沃库森,周末意甲再复出2024-12-27 07:27
泡沫闲庭信步,恩佐爆射+切尔西庆祝全过程,角球区视角再看一遍2024-12-27 07:23
最大黑马!布雷斯特欧冠前6场赢4场,上次有法甲球队做到还在96年2024-12-27 07:00
诚c这队几个“瘤子”,一有击倒就嗨了,哈哈哈2024-12-27 06:51
你车牌太多!埃斯特旺巴甲31场13球9助率队夺亚军,明年来切尔西2024-12-27 06:31
默森:马丁内利的行为是犯罪,他不能在那样的情况下越位2024-12-27 06:29
最大黑马!布雷斯特欧冠前6场赢4场,上次有法甲球队做到还在96年2024-12-27 06:05
xdd一定要留下mming,职业生涯kd就能说明一切,1.5就是1.5,不是那种菜逼能碰瓷的2024-12-27 06:02
小雷德纳普:热刺应专注于联赛杯,他们有实力淘汰曼联2024-12-27 05:46
为何年龄越大喝完酒越累 专家给出喝酒的正确方式2024-12-27 08:12
上亿只是时间问题!22岁帕尔默加盟车子时身价1800万,现在9000万2024-12-27 07:33
[流言板]心情无恙!巴特勒更新社交媒体晒与友人合影2024-12-27 07:22
CBA/NBA常规赛战绩排行R16G157/G3632024-12-27 07:20
[流言板]末节战神!马克西全场25中12,砍下32分10篮板8助攻2024-12-27 06:41
穆勒已在16个欧冠赛季中都完成进球,仅次于本泽马和梅西2024-12-27 06:38
国米11那不勒斯全场数据:射门135,射正42,控球率53%47%2024-12-27 06:36
卡福:我们清楚埃默森的实力,希望他在米兰表现出色&踢出个性2024-12-27 06:28
iQOO Z9 Turbo长续航版官宣1月见:第三代骁龙8s+6400mAh电池2024-12-27 06:18
孔蒂:现在和未来会有磕绊,我们的努力是正确的对此深信不疑2024-12-27 06:13