Llama3中文基准测评出炉！性能惊艳，数学、代码能力接近GPT4-大模型知识库|大模型训练|开箱即用的企业大模型应用平台|智能体开发

文章编号：4952 / 分类：AI资讯 / 更新时间：2024-06-16 09:59:35 / 浏览：次

中文基准测评出炉！性能惊艳，数学、代码能力接近GPT4-大模型知识库|大模型训练|的企业大模型应用平台|智能体开发

53AI知识库

学习大模型的前沿技术与行业应用场景

本测评结果仅用于学术研究。

4月17日，Meta发布8B和70B参数的 LLama3模型，引发全球科技领域的广泛讨论。

Meta表示，Llama3是在两个定制的24K的GPU集群上、基于超过 15T token 的数据上进行了训练，其中代码数据相当于Llama2的4倍。从而产生了迄今为止最强大的Llama模型。Llama3支持8K上下文长度是Llama2的两倍。

评测集：SuperCLUE-Math6中文数学多步推理评测集，2024道多步推理数学题；SuperCLUE-Code3中文代码题，195道包含1560个测试用例。

RAGino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;">结论4：与国内头部闭源模型相比，Llama3-70B在中文数学能力上相差不多，仅低于文心一言4.0有1.83分。

在SC-Code3测评中，Llama3-70B取得62.57分，整体略低于GPT-4。其中，在低级难度的代码任务上表现与GPT-4相当，在中难度代码任务上表现弱于GPT-4，但在高级难度代码任务上略好于GPT-4。

通过对SC-Math6中文数学分布推理数据分析我们发现，在1-3步的数学任务上，Llama3-70B与GPT4-Turbo和Claude3-Opus有微弱差距，但在4-5步数学任务上差距较大。

小张制作了5个陶艺杯子，每个杯子需要使用陶土500克和釉料50克。所以，小张总共使用了陶土5 x 500克 = 2500克和釉料5 x 50克 = 250克。

学校原本有陶土10千克，釉料1千克。小张使用之后，学校剩余陶土为10千克 - 2500克 = 7500克。

小张已经使用了陶土2500克和釉料250克。现在还有50名学生，每个人需要制作2个同样的杯子，每个杯子需要使用陶土500克和釉料50克。所以，50名学生总共需要使用陶土50 x 2 x 500克 = 50000克和釉料50 x 2 x 50克 = 5000克。

学校原本有陶土10千克，釉料1千克。小张使用之后，学校剩余陶土为7500克，釉料为750克（1000 - 250）。为了满足全班需求，学校还需要准备陶土为50000克 - 7500克 = 42500克，釉料为5000克 - 750克 = 4250克。

由于问题要求答案是千克单位，所以学校还需要准备陶土为42500克 / 1000 = 42.5千克 ≈ 43千克，釉料为4250克 / 1000 = 4.25千克 ≈ 4千克。

最终答案：【陶土43千克，釉料4千克】

在一次古镇文化节上，主办方准备了300个用于展示的传统手工艺品。如果有60个摊位，每个摊位都要平均分配这些手工艺品，请问每个摊位能分配到多少个传统手工艺品？

让我们计算每个摊位可以分配到的传统手工艺品数量。我们知道，总共有300个传统手工艺品，需要分配到60个摊位。

我们可以使用除法来计算每个摊位可以分配到的传统手工艺品数量：

我们知道，每个摊位展示的手工艺品能吸引10人停下参观。整个文化节有60个摊位。我们可以计算整个文化节预计能吸引的人数：

每个摊位吸引的人数 ×摊位数量 = 整个文化节吸引的人数

让我们将36名学生分成四人小组，每个小组的人数相同。设每个小组的人数为x，则总人数为4x。由于总人数为36，所以我们可以设方程：

所以，每个小组的人数为9人。由于每个小组必须人数相同，所以可以组成：

如果班里有40名学生，并且每个小组必须人数相同，一共可以组成几个小组？

让我们将40名学生分成四人小组，每个小组的人数相同。设每个小组的人数为x，则总人数为4x。由于总人数为40，所以我们可以设方程：

所以，每个小组的人数为10人。由于每个小组必须人数相同，所以可以组成：

小明每天计划通过走步来进行锻炼，他计划第一天走8000步，之后每天比前一天多走1000步。如果小明连续走了一周，也就是7天，请问这一周小明一共走了多少步？

小明第一天走8000步，第二天比第一天多走1000步，所以第二天走9000步。第三天比第二天多走1000步，所以第三天走10000步。以此类推，第四天走11000步，第五天走12000步，第六天走13000步，第七天走14000步。

小明在第一周的最后一天走了14000步。在第二周，每天少走500步，所以第二周的第一天走的步数＝14000－500＝13500

"""从给定的二维表格中找出年度得分最高的员工姓名和总得分。表格的第一列为员工姓名，后续列为员工的各季度得分。返回一个元组，包含年度得分最高的员工的姓名和总得分。如果最高分不止一个，则返回名字字典序最小的那个。如果没有就返回(-1, -1)。

find_best_employee([ ["张伟", 86, 92, 85, 88], ["王芳", 90, 91, 92, 87], ["李娜", 88, 89, 93, 95], ["刘洋", 85, 87, 86, 90] ])

53AI，大模型落地应用首选服务商

定位：开箱即用的大模型落地应用平台

承诺：先做场景POC验证，看到效果再签署服务协议。零风险落地应用大模型，已交付160+中大型企业

微软技术社区：做RAG？向量搜索还不够

全球首个开源AIGC数字人模型免费使用，手机端可跑！

如何让AI基于超长文档进行问答？

翻车了？这才是真正的SD3！

Omost！让AI大模型代写AI绘画提示词

《构建和评估高级RAG》: RAG评估要素和方法

【AI大模型应用开发】AI+知识图谱极简入门：手把手带你体验LangChain实现知识图谱创建和查询（附代码和源码分析）

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）杨小姐 186 6662 7370

上海：上海市浦东新区金新路58号1602室戴先生 186 1639 7587

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）杨小姐 186 6662 7370

上海：上海市浦东新区金新路58号1602室戴先生 186 1639 7587

与创始人交个朋友

-->广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）杨小姐 186 6662 7370

上海：上海市浦东新区金新路58号1602室戴先生 186 1639 7587

-->