资讯中心NEWS

实时快报国际ag开云体育平台旗舰厅怎么样社会新闻大众网

2025-03-21 09:25:38
浏览次数:
返回列表

  从视觉的ViT/MAE,到语言模型的LLaMA,再到语音、DNA系列等模态都可以用,完整代码库已开源。

  网友评价说,只要元素级运算就能实现和归一化一样的效果,这对于效率优化来说简直是免费的午餐。

实时快报国际ag开云体育平台旗舰厅怎么样社会新闻大众网

  前Salesforce首席科学家、搜索引擎You的CEO Richard Socher也表示,这项成果加强了他之前的假设——原始的Transformer只是众多等效神经结构之中的一个。

  选取ViT、wav2vec 2.0和DiT三种训练好的网络,对每个网络采样一个小批量样本进行前向传播,测量LayerNorm层在可学习仿射变换前的输入和输出,建立输入输出元素的一一对应关系,从而直接可视化两者关系。

  结果发现,LayerNorm传统上被认为是线性变换,但实际整体居然呈现出出类似tanh函数非线性变换效果。

  受到这一相似性启发,团队提出DyT作为归一化层的直接替代品, DyT 层定义如下:

  其中α是可学习的标量参数,负责缩放调整输入;γ和β是可学习的per-channel矢量参数,将输出缩放回任何尺度。

  DyT适用于注意力块、FFN块和最终归一化层,尽管它可能看起来像是激活函数,但在这篇研究中不会改变原始架构中激活函数的任何部分,网络的其他部分也保持不变。

  同时团队还观察到,几乎不需要调整原始架构使用的超参数即可使DyT表现良好。

  实验选用多种任务和模型架构,DyT在大多数情况下能达到与归一化层相当甚至更好的性能。

  视觉监督学习,选用ViT和ConvNeXt,在ImageNet-1K分类任务中训练,DyT在两种架构的不同模型尺寸下,性能均略优于LayerNorm,且模型收敛行为高度一致,表明二者学习动态相似。

  视觉自监督学习,选用两种训练目标不同的网络MAE和DINO,DyT的表现与LayerNorm相当。

  扩散模型实验中,训练了三个不同尺寸的DiT模型,用FID分数评估生成图像质量。

  仅用 tanh (αx) 函数替换DiT中LN 层的归一化变换,保留其仿射参数(用于class conditionin),结果相差也不开云体育登录大。

  语言模型实验中,用DyT代替了LLaMA默认的RMSNorm,在所有四种参数规模上的性能与RMSNorm相当,在整个训练过程中,训练损失保持一致。

  以LLaMA 7B为研究对象,分别采用RMSNorm和DyT进行实验,测量在使用单个长度为4096 tokens的序列时,100次前向传递(推理)和100次前向-后向传递(训练)所需的总时间。

  在BF16精度下,DyT显著缩短了计算时间,另外在FP32精度下观察到类似的趋势。

  但DyT也有局限性,在非Transformer模型中,如替换ResNet的Batch Norm时效果不佳,是否以及如何适应其他类型归一化层的模型还需进一步研究

  包括何恺明和LeCun在内,本文的作者一共有五位,其余三位分别是第一作者、纽约大学博士生Jiachen Zhu,以及来自Meta FAIR实验室的刘壮和陈鑫磊。

  虽然这是五人第一次聚在一起发表的论文,但其中部分成员之间的合作已经进行过多次。

  项目负责人、Meta FAIR实验室科学家刘壮,就是何恺明的一位“老搭档”。

  和何恺明一样,刘壮本科毕业自清华,并且也是CVPR最佳论文奖得主——他是CVPR2017最佳论文DenseNet的第一作者。

  2017年,刘壮从清华姚班毕业,进入加州大学伯克利分校攻读博士学位,师从Trevor Darrell,是贾扬清的同门师弟。

  博士毕业后,刘壮进入Meta AI Research工作。在此之前,他已经在Meta实习了一年多时间,期间和谢赛宁合作,发表了ConvNeXt。

  还有浙大校友陈鑫磊, 目前是Meta FAIR实验室的研究科学家,研究兴趣集中于预训练,特别是有自监督或是多模态视觉表示的预训练。

  发表在CVPR上、目前谷歌学术引用量达8998次的MAE开山论文,陈鑫磊与何恺明是共同一作,谢赛宁也参与其中。

  第一作者Jiachen Zhu,来自重庆,本科就读于香港理工大学,取得了计算机和工商管理双重学位。

  本科毕业3年后,Jiachen Zhu重回校园,到纽约大学先后攻读计算机硕士和博士学位,目前仍然在读,博士生导师就是LeCun。

  谷歌学术信息显示,除了本次的新成果之外,Jiachen Zhu自2022年至今一共还发表过5篇论文,其中3篇为一作或共同一作,每篇均有LeCun的参与。

  并且Jiachen Zhu去年以Meta实习生身份发表的一篇关于多模态理解与生成的论文,也与刘壮、陈鑫磊以及LeCun的参与。

  在充分肯定成绩的同时,我们还应清醒地看到,我县城建事业还处于起步阶段,工作中存在着一些不足和问题。一是城镇建设步伐较为缓慢,历史欠帐较多,现有硬件品位不高,亮点不多,城镇功能亟待完善提高;二是市政公用设施市场化运作较为缓慢,建设管理体制改革任务仍然繁重;三是筹资渠道不够畅通,多元化的筹资体系尚未从根本上形成,特别是小城镇建设表现的尤为突出;四是城市管理的长效机制尚未完全形成,城区脏、乱、差的问题还没有得到根本解决。所有这些问题,需要我们认真研究,在实际工作中采取切实有效措施加以解决。

  那么,如何才能拯救我们的地球妈妈呢?你们知道全国每人每天节约一张纸,一年就可以节约多少张纸吗?是4745忆张纸。一年就可以少砍伐158,6666万棵树。这数字是多么惊人啊!从这个意义上来说,节约用纸也就是保护森林。你们知道吗?八千年前,全球森林覆盖面积约占地球陆地面积的一半,可是今天,残存的原始森林只占地球陆地面积的7﹪,我们国家更少,原始森林面积只占国土面积的2﹪。目前,每两秒钟,地球上就有足球场那么大一块森林消失。为了防止地球沙漠化,所以请大家一方面要植树造林,一方面要保护花草树木,节约用纸。我们在用纸时,用完一面不要扔掉,背面还可以打草稿。做了草稿纸之后,还可用来练毛笔字,可以用来折纸。即使是废纸,也还能送到造纸厂循环利用。

  03月11日,2023中国经济年报丨世界首个!我国国内有效发明专利数量突破400万件,

  “生灵涂炭啊,不知道要有多少人死于非命,恐怕附近的村子剩不下了。”有族老叹道,面带悲色,同在大荒中挣扎、生存,见到一场大祸来临,不免伤感与同情。

  ,yabo22vip在哪开户,澳门规则讲解,外围滚球app365怎么样。

  黑暗的山林中,那一双双碧绿的眼睛,全都有小碗那么大,阴森而冰寒,戾气极重,它们也不知道杀死了多少猛兽。

  距离村子还有一里地,但是却像隔着一道天堑般,凶狈阻挡在前方,要全力攻击了。

  03月11日,学习贯彻党的二十届三中全会精神丨学习贯彻党的二十届三中全会精神中央宣讲团在云南宣讲,城镇化工作会议讲线体育官网 客户端,OD买球,外围竞彩软件哪个好。

搜索