愿景与目标
Agent 时代的共赢社区
真正的 AGI 还有十年,Agent 是必经之路,抓住浪潮才能不缺席。
通过深度实践、知识共享与项目协作,拆解技术壁垒,转化为个人优势与实际价值。
赋能每一人,决胜 Agent 十年。
我们提供
- · 系统化学习路径与实践手册
- · 技术导师与行业专家一对一指导
- · 论文笔记、前沿 talk、案例共创
- · 作品集打磨、简历与面试辅导、内推
高阶玩法
深度共创 · 论文/项目/求职全链路
如果你想入门大模型 Agent
- •学习路径与开源仓库推荐
- •入门课 + 实战项目
- •志同道合的交流社区
如果你想进一步合作 / 论文 / 求职
- •论文合作与实验共建
- •产业落地项目合作
- •大厂工作内推与面试辅导
如果你希望寻求合作
- •共建社区品牌
- •联合宣传与活动
- •AI 产品与培训辅导
Talk & 圆桌会 · 论文精读
.png)
智谱 AI 首席科学家唐杰:AI 应用的本质是替代或增强人类工种,而不是为了做 App 而做 App
作者:唐杰 https://weibo.com/2126427211/5247011059141988 最近的一些感悟,分享一下,希望对大家有用。 1、预训练使得大模型已经掌握世界常识知识,并且具备简单推理能力。更多数据、更大参数和更饱和的计算仍然是scaling基座模型最高效的办法。 2、激活对齐
-obJS.png)
经验分享!这半年来,用 RL 做 LLM 后训练时踩过的那些坑与心得
作者:天晴 https://zhuanlan.zhihu.com/p/1986921621240447760 用 RL 做后训练 LLM 时,探索效率和训练稳定性是两个最核心的问题。这半年,我积累了不少心得感悟,也踩了很多坑。由于打算金盆洗手不再做这方面的工作了,索性把这些经验分享给大家。 当然,这

大模型强化学习算法PPO、GRPO、DAPO、GSPO、SAPO的演进与对比
作者:初级程序员 https://zhuanlan.zhihu.com/p/1978480903136245222 本文面向已了解强化学习中策略梯度(policy gradient)、优势函数(advantage)、重要性采样(importance sampling)等概念的读者,重点对大模型强化学

深度对话!2025 "青稞" AI 嘉年华,与 20+ 位青年科学家一起探讨AI 技术瞬间
本次活动专为青年科学家打造,旨在搭建一场 AI 技术的深度对话,来自学术和工业界的 20+ 青年科学家,将与大家一起回顾 2025,展望 2026!

TRPO重生:大模型时代的信任域策略优化
在大型语言模型的强化学习阶段,特别是RLHF中,我们追求策略的持续优化。本次分享深入探讨TRPO在LLM时代的应用。

从 π_0 到 π_RL:面向流匹配 VLA 的强化学习后训练框架
深入解析流匹配VLA的强化学习后训练框架π_RL,探索具身智能的前沿技术。

RLinf:面向具身智能的"渲训推一体化"开源强化训练框架
开源强化训练框架RLinf,实现渲染、训练、推理一体化,加速具身智能研发。

RLinf-VLA 实践:从零上手 VLA(OpenVLA)强化学习
手把手教你使用RLinf-VLA框架进行OpenVLA强化学习实践,入门具身智能开发。

深度对话!2025 "青稞" AI 嘉年华,与 20+ 位青年科学家一起探讨AI 技术瞬间
本次活动专为青年科学家打造,旨在搭建一场 AI 技术的深度对话,来自学术和工业界的 20+ 青年科学家,将与大家一起回顾 2025,展望 2026!

TRPO重生:大模型时代的信任域策略优化
在大型语言模型的强化学习阶段,特别是RLHF中,我们追求策略的持续优化。本次分享深入探讨TRPO在LLM时代的应用。

从 π_0 到 π_RL:面向流匹配 VLA 的强化学习后训练框架
深入解析流匹配VLA的强化学习后训练框架π_RL,探索具身智能的前沿技术。

RLinf:面向具身智能的"渲训推一体化"开源强化训练框架
开源强化训练框架RLinf,实现渲染、训练、推理一体化,加速具身智能研发。

RLinf-VLA 实践:从零上手 VLA(OpenVLA)强化学习
手把手教你使用RLinf-VLA框架进行OpenVLA强化学习实践,入门具身智能开发。
合作 & 咨询
公众号 AgentAlpha
共建社区 / 宣传合作 / AI 产品 / 培训辅导,或需要论文、项目、求职支持,扫码关注公众号了解更多。



