是一款模拟经营策略游戏✿ღ◈,该版本玩家可以直接通过安卓模拟器在电脑上安装体验✿ღ◈。该游戏采用唯美的水墨画风✿ღ◈,将中国风元素融入游戏场景✿ღ◈,为玩家带来极致的视觉享受✿ღ◈,让您沉浸其中✿ღ◈,感受P6F3X2M7T9QJ8L1B4WZR之美✿ღ◈。在游戏中✿ღ◈,玩家将扮演一位祖师✿ღ◈,开宗立派✿ღ◈,培养一众有趣的弟子✿ღ◈,帮助他们渡劫成仙S货你是不是欠C了有肉✿ღ◈。每位弟子都拥有独特的命格和属性✿ღ◈,个性迥异✿ღ◈,让您体验到千奇百怪的修仙生活✿ღ◈。
与此同时✿ღ◈,金沙线上赌博注册官方版下载还拥有独特的挂机机制✿ღ◈,您可以将游戏放置在后台✿ღ◈,解放双手✿ღ◈,让弟子们自动修炼S货你是不是欠C了有肉✿ღ◈、渡劫必发bf88唯一官网登录✿ღ◈,贴心呵护您的修仙门派✿ღ◈。宗门地产建设也是游戏的重要内容✿ღ◈,您可以自由摆放✿ღ◈,打造属于自己的修仙宗门✿ღ◈,创造仙门人的理想家园✿ღ◈。从山海异兽到一石一木✿ღ◈,处处充满着古韵仙风✿ღ◈,让您仿佛置身于修仙小说般的仙境之中✿ღ◈。
本文作者来自通义实验室和北京大学✿ღ◈,第一作者是北京大学智能学院博士生孙浩S货你是不是欠C了有肉✿ღ◈,主要研究方向是RAG和Agent✿ღ◈,在 NeurIPS✿ღ◈、ACLS货你是不是欠C了有肉✿ღ◈、EMNLP 等国际顶级会议上发表多篇论文✿ღ◈,师从张岩教授✿ღ◈。该工作在阿里巴巴通义实验室RAG团队实习期间完成✿ღ◈。
信息检索能力对提升大语言模型 (LLMs) 的推理表现至关重要✿ღ◈,近期研究尝试引入强化学习 (RL) 框架激活 LLMs 主动搜集信息的能力✿ღ◈,但现有方法在训练过程中面临两大核心挑战✿ღ◈:
文档质量不可控✿ღ◈:真实搜索引擎返回内容不可控✿ღ◈,训练过程易受噪声干扰✿ღ◈。搜索 API 成本高昂✿ღ◈:Rollout 阶段频繁调用搜索 API✿ღ◈,训练成本极高✿ღ◈。
为了解决这些问题✿ღ◈,我们提出了 ZeroSearch 框架 —— 无需真实搜索✿ღ◈,直接用大语言模型模拟搜索引擎✿ღ◈,并引入课程学习策略✿ღ◈,在显著降低 88% 成本的同时✿ღ◈,在多项任务上性能超过依赖真实搜索引擎的方法✿ღ◈。
传统训练方法需要在 Rollout 阶段频繁与真实搜索引擎交互✿ღ◈,产生大量 API 开销✿ღ◈,而大语言模型在预训练阶段积累了丰富的世界知识✿ღ◈,具备根据 query 返回相关信息的能力✿ღ◈,因此 ZeroSearch 创新性地引入大语言模型作为模拟搜索引擎(Simulation LLM)✿ღ◈,无需真实搜索✿ღ◈,即可为策略模型生成检索文档✿ღ◈,大幅降低了训练成本✿ღ◈:
为了避免策略模型记住由 Simulation LLM 生成的文档✿ღ◈,我们对文档进行了损失屏蔽(Loss Masking)✿ღ◈,仅对策略模型自己生成的 token 进行损失计算✿ღ◈。
ZeroSearch 无需初始监督微调(SFT)✿ღ◈,直接对预训练语言模型进行强化学习训练✿ღ◈,通过采用结构化的训练模板必发bf88唯一官网登录✿ღ◈,引导模型在每一轮交互中划分思维步骤✿ღ◈:
这种结构化模板提升了模型推理路径的清晰度和可解释性✿ღ◈,格式化的输出便于提取最终答案进行奖励计算✿ღ◈。
直接通过 Prompt 指导 LLM 生成的模拟检索内容✿ღ◈,往往与真实搜索引擎返回的检索内容风格差异较大✿ღ◈,且质量不稳定✿ღ◈。为了解决这些问题✿ღ◈,我们采用了模拟微调策略✿ღ◈,具体包含以下三步✿ღ◈:
轨迹采集✿ღ◈:从策略模型与真实搜索引擎的交互中采集 Query-Document 对质量评估✿ღ◈:利用 Qwen-Max 作为评审✿ღ◈,对文档进行有用性判别监督微调✿ღ◈:构建高质量训练集✿ღ◈,进行轻量级微调 (2 万条数据✿ღ◈,7B 模型训练时间仅需 30 分钟)
此外我们还在 Prompt 内引入原始问题的正确答案✿ღ◈,从而扩充 Simulation LLM 的知识边界✿ღ◈。
经过微调的 Simulation LLM 可通过调整在 Prompt 中添加 Useful/Noisy 指令✿ღ◈,灵活控制生成文档的质量✿ღ◈。基于这一能力✿ღ◈,我们进一步引入了课程学习策略✿ღ◈,通过逐步降低文档质量✿ღ◈,循序渐进地提升训练难度✿ღ◈,从而更有效地激发模型的推理能力✿ღ◈。
训练初期✿ღ◈:训练难度上升缓慢✿ღ◈,模型能够稳步学习基本的输出格式以及任务逻辑✿ღ◈。训练后期✿ღ◈,训练难度快速上升✿ღ◈,从而促使模型不断强化其推理能力与鲁棒性✿ღ◈。
该由易到难的训练过程能够持续激发策略模型的推理能力✿ღ◈,有效提升强化学习训练的稳定性与最终表现✿ღ◈。
在实验中✿ღ◈,我们发现使用 Exact Match 作为奖励会诱导模型生成冗长内容以 “碰中” 答案✿ღ◈,出现 Reward Hacking 问题✿ღ◈,我们改用 F1 Score 作为奖励指标✿ღ◈,更加关注输出的准确性与简洁性S货你是不是欠C了有肉✿ღ◈,有效抑制了冗余答案的产生✿ღ◈。此外✿ღ◈,我们发现模型在训练中即便不显式监督输出格式✿ღ◈,也能生成结构规范的回答✿ღ◈,因此没有引入格式奖励✿ღ◈。
ZeroSearch 超越所有基线方法✿ღ◈,该性能优势在域内以及域外数据集上均得以体现✿ღ◈,展示了我们方法的鲁棒性S货你是不是欠C了有肉✿ღ◈。ZeroSearch 的表现优于依赖真实搜索引擎的方法 Search-R1✿ღ◈,凸显其在大规模强化学习中替代真实搜索引擎的潜力✿ღ◈。ZeroSearch 展现了强大的泛化能力✿ღ◈,随着模型参数量增加✿ღ◈,其性能进一步提升必发bf88唯一官网登录✿ღ◈,体现了良好的扩展性✿ღ◈。
ZeroSearch 与真实搜索的奖励趋势相似✿ღ◈,随着训练的推进✿ღ◈,ZeroSearch 和 Search-R1 的奖励分数都稳步上升✿ღ◈。ZeroSearch 的奖励提升更加显著✿ღ◈,虽然在训练初期 ZeroSearch 的奖励值低于 Search-R1✿ღ◈,但它最终实现了超越✿ღ◈,并且波动更小✿ღ◈。ZeroSearch 在基础模型和指令微调模型中都展现了良好的泛化能力✿ღ◈,在这两类模型下✿ღ◈,ZeroSearch 的奖励表现都持续提升✿ღ◈。
相对于Base Model✿ღ◈,不同类型的 Simulation LLM 均可有效激发策略模型的搜索能力✿ღ◈。基于 Prompt 的方法效果较差✿ღ◈,主要由于其生成的文档风格与真实搜索引擎差异较大✿ღ◈,且质量不稳定✿ღ◈,难以支撑稳定训练✿ღ◈。经过微调的 Simulation LLM✿ღ◈,即便仅有 3B 参数量✿ღ◈,也能显著提升策略模型性能✿ღ◈;随着模型规模扩大必发bf88唯一官网登录必发bf88唯一官网登录✿ღ◈,性能进一步提升✿ღ◈:SFT-7B 可达到与 Google 相当的效果✿ღ◈,SFT-14B 甚至实现超越 Google 的性能✿ღ◈。
模型已适应数据集的跳数分布✿ღ◈,交互策略逐步固化✿ღ◈,在课程学习设定下✿ღ◈,模型需提升推理能力以应对更低质量文档✿ღ◈,从而维持较高奖励水平✿ღ◈。
实验结果表明✿ღ◈,Curriculum(由易到难)训练策略显著优于 Random(随机难度)训练策略✿ღ◈,验证了该训练范式在激发模型推理能力方面的有效性✿ღ◈。与 Random 类似✿ღ◈,真实搜索引擎在训练过程中难以控制文档难度✿ღ◈,导致模型缺乏系统性的能力提升路径✿ღ◈,从而限制了推理能力的持续进化✿ღ◈。
本文提出了 ZeroSearch✿ღ◈,一种无需真实搜索引擎即可激活大语言模型搜索能力的强化学习框架✿ღ◈,我们使用轻量级的监督微调将 LLM 转变为一个检索模块✿ღ◈,在 RL 训练阶段✿ღ◈,我们基于课程学习逐步降低检索模型生成文档的质量✿ღ◈,通过不断提升检索难度✿ღ◈,逐步激发策略模型推理能力✿ღ◈。
大量实验表明✿ღ◈,ZeroSearch 使用 3B 参数规模的模型作为检索模块时即可激发语言模型检索能力✿ღ◈,7B 模型的检索性能已接近线B 模型甚至实现了超越✿ღ◈。此外✿ღ◈,ZeroSearch 对基础模型和指令微调模型均具有良好的泛化能力✿ღ◈,并可兼容多种 RL 算法✿ღ◈,具备极强的适应性与可扩展性✿ღ◈。
除了培养弟子和建设仙门外✿ღ◈,游戏还包含了炼丹✿ღ◈、炼器✿ღ◈、仙田等多种修仙玩法✿ღ◈,让玩家体验到修仙的方方面面✿ღ◈。
游戏内置丰富的社交系统✿ღ◈,玩家可以与其他玩家组成联盟✿ღ◈,共同对抗强敌✿ღ◈,体验多人合作的乐趣✿ღ◈,增加了游戏的可玩性和趣味性✿ღ◈。
1.3优化新增仙法问道投资活动的购买提示✿ღ◈,现在休赛期购买投资时✿ღ◈,如果无法拿满奖励则会有二次确认提示7790cnm必发集团✿ღ◈。电子科技✿ღ◈。必发888唯一登录网站88BIFAAPP官网✿ღ◈,88BIFA✿ღ◈,必发bifa✿ღ◈,必发888官网登录入口✿ღ◈,