机器之心发布
机器之机杼剪部
2025 被称为 Agent 元年,新年开头,ByteDance Research 就推出了一款基于强化学习的智能体愚弄:论文检索智能体。它不错师法东谈主类参议者调用搜索引擎、看论文、查参考文件。繁琐冗长的论文调研,咫尺,只需要两分钟。 从事科研职责的你,思要一个帮你尽调论文的科研小助手吗?你是否曾为了寻找某个参议主题的关系论文,铺张了无数的时间与元气心灵;或者对某个参议思法充满有趣,却不细则是否已有访佛的参议,最终挥霍了无数时间在调研上?最近,ByteDance Research 的参议团队推出了一款广泛的学术论文检索器具 ——PaSa。用户只需提倡暄和的学术问题,PaSa 即可自动调用搜索引擎,浏览关系论文并跟踪引文汇集,精确、全面地为用户呈现通盘关系的学术论文,只需要两分钟,就不错完成一次细心的学术调研。
张开剩余87%先来望望 PaSa 的效用:
人生处在逆境的时候往往更能看清生活的本质,更能激发起对抗命运的决心。曾经荣登“中国好人榜”的唐毅就是这样一个勇士,他身残志坚,50岁就已经身价过亿,并且家有美妻,已经是大部分人眼中的成功人士,但是他的一切却都来之不易。
1945年11月14日,《新民报·晚刊》第一次刊登了毛主席的这首词,后来它又在《文汇报》副刊等刊物上再次发表,但是这几次发表的《沁园春·雪》与我们现在看到的却并不相同。原来这首脍炙人口的诗词曾被别人改动过,而他的改动不仅没有惹怒毛主席,反而促使他成了毛主席诗词研究最权威的人之一,他就是臧克家。
参议东谈主员将 PaSa 与一系列主流检索器具进行了对比,包括 Google, Google Scholar, Google+GPT-4o, ChatGPT(配备检索智商的 GPT-4o), GPT-o1 以及 PaSa-GPT-4o。在学术 Query 测试集上,PaSa 大幅杰出了刻下主流检索器具:与 Google 比拟,PaSa-7b 在 Recall@20 和 Recall@50 上区分栽培了 37.78% 和 39.90%。与基于 Prompt Engineering 已毕的 PaSa-GPT-4o 比拟,经过强化学习锤真金不怕火的 PaSa-7b 在调回率上栽培了 30.36%,准确率上栽培了 4.25%.。
PaSa 咫尺已灵通试用。同期,参议团队公开了细心的工夫论文,并一次性开源了一王人的数据、代码和模子:
论文地址:https://arxiv.org/abs/2501.10120 形势仓库:https://github.com/bytedance/pasa PaSa 主页:https://pasa-agent.aiPaSa Agent 框架
PaSa 的中枢组件包含两个 LLM Agents:Crawler 和 Selector。Crawler 通过自主调用搜索器具、阅读论文、膨胀参考文件,抑遏采集与用户 Query 可能关系的学术论文。Selector 则肃穆精读 Crawler 找到的每一篇论文,决定其是否安静用户的需求。
PaSa 框架:Crawler 的遐想旨在最大化关系论文的调回率,而 Selector 则强调精确性,即识别论文是否适合用户需求。
下图展示了一个 PaSa 处理 User Query 的具体过程:
PaSa 的职责流示例:Crawler 不错生成种种、互补的搜索词实行屡次搜索。此外,Crawler 还大致评估其步履的永久价值,举例在多步膨胀引文汇集后,Cralwer 大致发现很多与用户 Query 关系的论文,即使旅途中的中间论文并不径直与用户需求匹配。
锤真金不怕火优化
为了锤真金不怕火 PaSa,参议团队领先构造了一个高质地的学术细粒度 Query 数据集:AutoScholarQuery。该数据集通过采集东谈主工智能规模顶会(ICLR 2023,ICML 2023,NeurIPS 2023,彩娱乐appACL 2024,CVPR 2024)发表的论文,基于每篇论文中 “Related Work” 部分的形色很是援用的关系文件,生成学术问题和对应的关系论文列表。最终,数据集包含了 36k 数据,每条数据包含一个 AI 规模的学术问题及关系论文,示举例下图所示。
AutoScholarQuery 中的数据示例
尽管 AutoScholarQuery 短缺东谈主类科学家发现论文的轨迹数据,但该数据集仍然大致赞成对 PaSa 智能体进行强化学习锤真金不怕火。在 Crawler 的锤真金不怕火过程中,靠近两个主要挑战:奖励稀零性和过长的行为轨迹。为了处置奖励稀零性问题,参议团队引入了 Selector 当作辅助奖励模子,权臣栽培了优化效用。此外,Crawler 在一次实行中可能采集到上百篇著述,导致好意思满的行为轨迹过长,无法所有输入到 LLM 的高下文中。为此,团队提倡了一种全新的 session-level PPO 算法,处置这一问题。
Selector 主要通过师法学习进行锤真金不怕火。Selector 会先生成一个 Decision Token,决定论文是否适合用户 Query 的需要。同期 Token Probability 也不错当作关系性分数用于最终为止的排序。在 Decision Token 后,Selector 还会输出有野心依据。
Crawler 和 Selector 的更多锤真金不怕火细节详见论文。
施行为止
为了考证 PaSa 在实在学术搜索场景中的施展,参议团队缔造了一个评测集 ——RealScholarQuery。该数据集包含了 AI 参议者提倡的实在学术问题,并为每个问题东谈主工构建了对应的关系论文列表。参议团队在 AutoScholarQuery-test 和 RealScholarQuery 两个评测集上,全面对比了 PaSa 与 baselines 的施展。
Baselines
Google:径直用 Google 搜索用户问题 Google Scholar:径直用 Google Scholar 搜索用户问题 Google with GPT-4o:领先 prompt GPT-4o 改写用户问题生成一个更适于 Google 搜索的问题,然后使用 Google 进行搜索 ChatGPT:上传用户问题给有搜索功能的 GPT-4o,并采集它的生成为止 GPT-o1:径直 prompt GPT-o1 来处理用户问题 PaSa-GPT-4o:通过 prompt GPT-4o 模拟 Crawler 和 Selector,组成 PaSa 架构 agentPaSa
PaSa-7b:使用 Qwen2.5-7b-Instruct 当作基础模子,通过特殊奖励构造的强化学习锤真金不怕火的 Crawler 和 Selector 组成的 agent PaSa-7b-ensemble:集成屡次 Crawler 的搜索为止,提高最终的调回量在 AutoScholarQuery 测试集上,PaSa-7b 的效用优于其他通盘的基线模子。与最强的基线 PaSa-GPT-4o 比拟,在准确率相称的情况下,PaSa-7b 的调回率提高了 9.64%,Crawler 调回率提高了 3.66%。和 Google 搜索的最佳为止比拟,Recall@20,Recall@50 和 Recall@100 区分栽培了 33.80%,38.83% 和 42.64%。此外,集成后的 PaSa-7b-ensemble 比 PaSa-7b 的调回率和 Crawler 调回率能进一步提高 1.51% 和 3.44%。
在更接近实在的 RealScholarQuery 上,PaSa-7b 的栽培愈加彰着。与 PaSa-GPT-4o 比拟,PaSa-7b 的调回率提高了 30.36%,精确率提高了 4.25%。Google 搜索的最佳为止比拟,Recall@20,Recall@50 和 Recall@100 区分栽培了 37.78%,39.90% 和 39.83%。PaSa-7b-ensemble 的调回率和 Crawler 调回率区分进一步提高了 3.52% 和 4.32%。
结语
学术搜索是一个具有特有挑战的信息检索场景:触及无数专科性较强的长尾常识,条目全面的调回智商,并大致赞成细粒度的查询。PaSa 是基于假话语模子的全新论文检索智能体,通过师法东谈主类的搜索器具调用、论文阅读以及参考文件查阅过程CYL588.VIP,大致自主高效地完成论文调研这一复杂的职责。
发布于:北京市