当前位置:首页 > Deepseek最新资讯 > 正文内容

刚刚,北大DeepSeek斩获ACL 2025最佳论文!全网首发一作演讲,稀疏注

3个月前 (07-31)Deepseek最新资讯311

  2025年ACL盛会于维也纳落下帷幕!今年会议规模空前,投稿量超过8000篇,其中超半数作者来自中国。4篇最佳论文中,出自中国团队之手的同样占到50%——分别是北大与DeepSeek合作、梁文锋署名的NSA论文,以及北大杨耀东团队揭示模型存在‘抗改造’基因的论文。

  其中,主会录用率为20.3%,共有1699篇论文;Findings录用率为16.7%,共有1392篇论文。

  本次ACL共有4篇最佳论文,2篇最佳社会影响力论文,3篇最佳资源论文,3篇最佳主题论文,26篇杰出论文,以及TACL最佳论文,最佳Demo,时间检验奖等若干奖项。

  现代GPU的‘内存容量’越来越大,能容纳很大的模型;但‘内存带宽’并没有相应提升。‘稀疏注意力’机制,只关注最关键的部分,减少不必要的计算。

  未来,注定是‘稀疏’(Sparsity)的!NSA为下一代长上下文语言模型提供了高效的基石。

  4篇最佳论文中,DeepSeek和北大合作,且梁文锋署名的文章,以及北大杨耀东团队摘得了其中的两篇。

  这篇论文的核心论点是,LLM在做决策和生成内容时,其行为模式与人类非常相似:它不仅仅是反映统计上最常见的情况,还会系统性地偏向一个‘理想化’的版本。

  描述性规范 (Descriptive Norm):指一个概念在现实世界中统计上最常见、最普遍的状态。这反映了‘是什么’。

  规定性规范 (Prescriptive Norm):指一个概念中被认为是理想、可取或有价值的状态。这反映了‘应该是什么’。

  论文通过实验证明,LLM的输出结果并不仅仅是基于数据中的平均或最常见情况(描述性),而是会朝着它所学习到的‘理想’状态(规定性)发生持续且可预测的偏移。

  伦理问题:LLM内化的‘理想标准’不一定与人类的价值观或伦理标准相符,这在自动决策场景下会引发严重的伦理关切。

  这篇论文的核心论点是:当前主流的AI公平性研究走入了一个误区,即追求‘无视差异’的公平,认为任何对不同群体的区别对待都是有害的偏见。

  作者认为,这种方法是错误的,因为在很多现实情境下,识别并根据群体的真实差异采取不同行动,不仅是必要的,而且是更高级的公平。

  作者通过几个生动的例子(如AI生成种族多元的纳粹、错误地认为男女参军体能标准相同)指出,现在的AI为了避免‘偏见’,被训练得无法识别和承认群体间真实存在的、有意义的差异。

  这种‘一刀切’的平等策略,忽略了历史、法律、生理和社会背景,反而可能导致新的问题,甚至掩盖了真正的不公。

  差异意识 (DiffAware):作者提出的新概念,指的是模型能够在适当的时候识别并区别对待不同群体的能力。例如,模型应该知道美国征兵法律对男性和女性有不同规定。

  情境意识 (CtxtAware):这是对‘差异意识’的补充和约束。模型不仅要知道可以区别对待,更关键的是要知道什么时候应该区别对待,什么时候不应该。例如,在讨论法律时区别男女是合适的(差异意识),但在招聘程序员时不应因性别而区别对待(有害偏见)。一个好的模型需要具备这种情境判断力。

  关联性 (Correlation):基于统计关联,但问题模糊,不清楚是想测试事实还是价值观。

  总而言之,这篇论文呼吁AI公平性研究从简单的‘一视同仁’走向更成熟的‘情境化区别对待’,并为此提供了一套理论框架和评估工具。

  从预训练到后训练再到强化学习,团队发现大模型存在类似‘胡克定律’的弹性——模型在被对齐的过程中,始终存在一种‘抗拒’力量。

  抵抗性(Resistance):模型倾向于维持其在海量数据预训练阶段学到的原始行为和知识分布,抗拒对齐训练带来的改变。

  反弹性(Rebound):一个模型被对齐得越‘好’(即越安全),当它被进一步微调时(即使是用无害数据),它‘反弹’回预训练状态的速度就越快。

  首次提出并定义了LLM的‘弹性’现象,指出对齐训练可能只是‘表面功夫’,很容易被后续的微调所‘抹除’。

  通过在不同类型和规模的模型上进行实验,证实了‘弹性’现象的普遍存在。研究还发现,模型规模越大、预训练数据越多,这种弹性就越强。

  这篇论文揭示了LLM内部存在一种抗拒对齐的机制,认为要实现真正稳固、深入的对齐,就必须解决模型的这种内在‘弹性’问题。

  论文所提出的稀疏注意力NSA模型的算法,从一般任务到严苛的长下文任务,特别是在推理和代码任务都有非常卓越的表现,将长文本处理速度提高了最多11倍,而性能超过了全注意力模型。

  NSA是一个专为硬件优化的系统,打破了性能与成本之间的权衡取舍,推动高效大型语言模型的下一个前沿领域。

  NSA把AI行业的焦点从‘模型规模竞赛’拉向‘算力效率竞赛’,堪称 2025年上半年最具杠杆效应的底层技术突破之一。

  MaCP提出了一种轻量级微调方法,该方法在离散余弦变换(DCT)域中运用分层余弦投影技术,只需极少的额外参数与内存开销即可适配大型基础模型。通过将低秩权重更新投影至DCT空间,并在多个频谱层级上选择性地仅保留最关键的频率分量,MaCP在各种不同的任务上均取得了业界顶尖的适配性能。

  Meta-rater提出了一种用于筛选管理大规模预训练数据的综合性框架。该框架从四个互补的质量维度——专业水平、可读性、推理能力和数据纯净度——对每个数据样本进行评估。通过一个代理模型回归,该方法能够学习这四个维度的最优权重组合,并据此筛选出能够显著提升训练效率和下游任务性能的高价值数据子集。

  SubLIME通过选取能够保持完整基准排名的小型代表性子集,解决了对大语言模型进行穷举式基准评估所带来的计算瓶颈。该方法在十个不同的基准测试中,可将评估成本降低80%–99%,同时保持高度的排名保真度。

  UniMoral是一个统一的多语言数据集,目的是完整记录人类道德推理的全流程——从情景感知到结果推演,内容横跨六种语言。UniMoral融合了具有心理学基础的伦理困境与源自社交媒体的真实案例,并为每个实例详细标注了行动选择、伦理原则、关键影响因素、行为结果,以及标注者自身的道德与文化背景画像。通过对三个大语言模型在四项核心任务上进行实时基准评测,本研究揭示了这些模型在处理道德情境与文化差异时,所表现出的细致优势与具体短板。

  BRIGHTER是一个多语言情感语料库,包含近十万条经过情感标注的文本实例,内容横跨28种语言和多个领域。该语料库重点关注资源匮乏的语言,通过提供附带强度评分的高质量、多标签情感标注,来弥合不同语言在情感识别研究领域的发展差距。

  Palm是一个耗时一年、由社区共建的数据集,目标是对大语言模型在阿拉伯语任务上的表现进行基准评测,其范围覆盖全部22个阿拉伯联盟国家。该数据集包含现代标准阿拉伯语(MSA)和方言阿拉伯语(DA)两种形式的‘指令-响应’数据对,内容横跨20个多样化主题。

  AfriMed-QA是首个专注于非洲医疗背景的大规模英语问-答数据集。该数据集汇集了约15,000个问题,源自16个国家的60多所医学院,内容覆盖32个医学专业。这一资源可用于评测及微调大语言模型处理具有地域多样性临床知识的能力,减少对西方中心基准的依赖,从而填补了该领域的一项关键空白。

  社会经济地位(SES)不仅塑造着人际沟通的方式,也同样影响着个人与大语言模型等数字工具的互动模式。以往的研究多依赖于代理指标或合成数据,导致真实的用户使用模式未能得到充分探究。为此,本研究对1,000名来自不同社会经济地位背景的参与者进行了调查,并分析了他们与大语言模型交互时使用的6,482条真实提示词,进而揭示其在使用频率、语言风格和所涉主题上存在的系统性差异。

  OLMoTrace是首个能将大语言模型输出实时追溯至其完整、高达数万亿Token训练语料库的系统。该系统能够识别并高亮显示模型生成的文本片段与训练数据文档之间的逐字匹配部分,其核心是一个扩展的infini-gram索引,可在数秒内返回结果。

  获得10年时间检验奖的论文,是神经机器翻译与注意力机制领域的一座里程碑。作者是圈内极负盛名的Christopher D. Manning团队。

  特别声明:以上文章内容仅代表作者本人观点,不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。

  中共中央政治局召开会议 决定召开二十届四中全会 分析研究当前经济形势和经济工作 中共中央总书记习近平主持会议

  中共中央政治局召开会议 决定召开二十届四中全会 分析研究当前经济形势和经济工作 中共中央总书记习近平主持会议

标签: deepseek

“刚刚,北大DeepSeek斩获ACL 2025最佳论文!全网首发一作演讲,稀疏注” 的相关文章

Deepseek推荐全国旅游百强县市第96名:安徽宁国市

Deepseek推荐全国旅游百强县市第96名:安徽宁国市

  日前,全国县镇发展研究课题组、天和经济研究所县镇发展研究院联合发布了2024《全国县镇发展报告》,报告评价篇对全国县市以及包含乡村人口的市辖区旅游发展水平进行了综合评价,并发布了天和2...

10月30日DeepSeek预测:步行者vs独行侠,戴维斯率队终结连败?西亚卡姆

10月30日DeepSeek预测:步行者vs独行侠,戴维斯率队终结连败?西亚卡姆

  当两支胜率合计仅0.125的球队相遇,达拉斯美航中心将上演2025-26赛季最特殊的揭幕战之一。独行侠(1胜3负)与步行者(0胜3负)分列东西部第14名,这场较量既是止颓良机,更是对阵...

10月31日DeepSeek预测:魔术vs黄蜂,鲍尔三双难救主,班凯罗率队终结连

10月31日DeepSeek预测:魔术vs黄蜂,鲍尔三双难救主,班凯罗率队终结连

  北京时间10月31日早7点,夏洛特光谱中心将迎来一场东部卡位战。目前2胜2负排名东部第8的黄蜂,将迎战1胜4负排名第13的魔术。尽管排名差距明显,但历史交锋呈现一边倒——近5次交手魔术...

10月16日DeepSeek预测:独行侠vs湖人,东契奇率队险胜残阵紫金军团

10月16日DeepSeek预测:独行侠vs湖人,东契奇率队险胜残阵紫金军团

  在10月16日的NBA季前赛收官战中,西部新贵独行侠将造访加密球馆挑战传统豪门湖人。尽管是练兵性质的季前赛,但两队近期交锋火药味十足——过去5次常规赛交手湖人3胜2负稍占上风,其中3场...

仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek

仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek

  传统强化学习(RL)在有标准答案的指令遵循任务(如数学、代码)上已趋成熟,但在开放式的创意写作领域却因缺乏客观对错而举步维艰。如何让 RL 突破「可验证奖励」的边界?蚂蚁技术研究院联合...

10月28日DeepSeek预测:雷霆vs独行侠,亚历山大率队延续不败神话

10月28日DeepSeek预测:雷霆vs独行侠,亚历山大率队延续不败神话

  达拉斯独行侠将在主场迎战来势汹汹的俄克拉荷马雷霆,这是西部一场实力悬殊的较量。作为NBA传统劲旅,独行侠本赛季开局不利,目前1胜2负排名西部第13;而青年军雷霆则以3战全胜的完美战绩高...