专治大模型“刷题”,贾佳亚团队新基准让模型只挑错不做题,GPT-4得分不到50
大模型测试能拿高分,实际场景中却表现不佳的问题有解了。 贾佳亚团队联合多家知名高校提出了一种全新的测评方法,让一些模型立马现出了原型。 这下不用担心大模型“刷题”太多,测试集无法体现真实水平了。 这个新的测评数据集叫做MR-Ben,利用的是...
大模型测试能拿高分,实际场景中却表现不佳的问题有解了。 贾佳亚团队联合多家知名高校提出了一种全新的测评方法,让一些模型立马现出了原型。 这下不用担心大模型“刷题”太多,测试集无法体现真实水平了。 这个新的测评数据集叫做MR-Ben,利用的是...
只需激活60%的参数,就能实现与全激活稠密模型相当的性能。 微软亚洲研究院的一项新研究,实现了模型的完全稀疏激活,让推理成本大幅下降。 而且适用范围广泛,无论是从头训练、继续训练还是微调,都能提供有效支持。 该方法名为Q-Sparse,在神...
好家伙!为了揭秘Transformer内部工作原理,陈丹琦团队直接复现—— 第一个经典聊天机器人ELIZA。 ELIZA编写于20世纪60年代,主要用于心理治疗,在当时似乎已经能“听懂”人说话。 比如下面这个例子: 可以看出,ELIZA的对...
让大小模型相互博弈,就能实现生成内容可读性的提升! 这是来自OpenAI的正经研究,目标就是在保证准确率的同时,让模型输出更容易被人理解。 用这种方法训练之后,人类对模型输出的判断准确率明显增长,速度也变得更快了。 这项研究出自OpenAI...
【导读】英伟达全面转向开源GPU内核模块,历史将再次见证Linux社区开源的力量。 英伟达宣布全面转向开源GPU内核模块! 这次开源行动是两年之前英伟达一个举措的延续——2022年5月宣布开源Linux GPU内核驱动模块。 这件事在当...
【导读】刚刚,信息检索领域的国际顶会SIGIR 2024,公布了最终获奖结果。在所有获奖名单中,来自清华计算机系的团队们斩获了两大奖项——时间检验奖、最佳论文奖,实至名归! 一年一届的信息检索领域顶会SIGIR 2024,终于开奖了! 今年...
神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。 编者按:有些时候,我们会掉进“出勤主义”的陷阱,认为自己无论如何都要出现在工作岗位上,哪怕是生病发烧。这可能是出于对失业的恐惧,也可能是出...
7月18日,两市今日低开高走,三大指数午后集体翻红,截至收盘,沪指涨0.48%,深成指涨0.5%,创业板指涨1.25%。总体来看,个股跌多涨少,下跌个股超2900只。沪深两市今日成交额6723亿,较上个交易日缩量28亿。 盘面上,光刻机概念...
图片来源:界面图库 界面新闻记者 | 韩宇航 界面新闻编辑 | 江怡曼 进入7月,银行理财规模再次突破29万亿元。 华西证券数据显示,截至7月首周,银行理财市场规模已达到29.66万亿元。 2024年上半年,在债牛行情和规范手工补息等共同推...
来源:界面图库 记者 杜萌 “季内的股票仓位基本稳定,并对结构进行了调整,调整了消费和医药等行业的结构。”7月18日,易方达旗下基金经理张坤交出了他的二季度答卷。 截至二季度末,张坤管理的4只产品规模合计为616.87亿元。从二季度的业绩来...