网友在 LocalLLaMA 子 Reddit 板块中发帖表示,4050亿参数的 Meta Llama 3.1在几个关键 AI 基准测试的结果中,其性能超越了目前的领先者 OpenAI 的 GPT-4o。这代表着开源模型首次击败目前最先进的闭源模型。
Meta Llama 3.1在 GSM8K、Hellaswag、boolq、MMLU-humanities、MMLU-other、MMLU-stem 和 winograd 等多项测试中均优于 GPT-4o,但是,它在 HumanEval 和 MMLU-social sciences 方面却落后于 GPT-4o。这些数据来自 Llama 3.1的基本模型,意味着后续通过调整优化,可以进一步释放该模型的潜力,在上述基准测试中迈上更高的台阶。 |