AI 科技 未来
2025-06-15 00:01
AI洞察速览
AI领域重点是多智能体系统,其通过并行操作、关注点分离等方式在复杂任务处理中展现潜力,未来AI应用将更注重智能体间的协作。开发者应掌握多智能体系统的构建与评估。同时,腾讯开源了首个生产级PBR ...
AI洞察速览 (2025年06月14日)
Hi,早上好!我是你的专属情报官。今天为你梳理了232条信息,其中最值得关注的趋势是:
多智能体系统成为AI性能扩展的关键方向。
随着Claude和腾讯等公司在多智能体系统上的探索,我们看到AI正朝着更高效、更智能的方向发展。尽管多智能体系统存在token消耗高等问题,但通过并行操作、关注点分离等方式,它们在复杂任务处理上展现出卓越的潜力。这预示着未来的AI应用将更加注重智能体之间的协作与协同,从而实现更强大的问题解决能力。对于开发者而言,理解和掌握多智能体系统的构建与评估方法,将成为提升AI应用性能的关键。
希望能给你带来启发。下面是详细内容:
日报官网:alphanews.club,任何问题可咨询kiki220238。
Claude Code 与 AI 编程
- Cursor 替代方案: hylarucoder 推出 Claude Code 系列视频,第一篇名为「让我果断退订Cursor!这个AI编程神器又贵又强,20分钟搞定你的需求」,链接见评论区。 (来源: @hylarucoder)
- Claude Code 并行编程: LinearUncle 提到 Claude Code 多需求并行编程和 git worktree。AI 编程任务常耗时 5-10 分钟,多任务并行运行是大趋势,人类写好需求,多个 Claude Code 同时开工。官方文档在评论区。(来源: @dotey, @LinearUncle)
- Claude Sonnet 4: Windsurf 现在可以使用 Claude Sonnet 4。(来源: @op7418)
- AI 代码生成调优: Allen_Xuxu 分享了一条对 Vibe coding 非常有效的咒语: "Do a deep-dive on the code and understand how [insert feature] works. Once you understand it, let me know, and I will provide the task I have for you." (来源: @Allen_Xuxu)
- Dotey 对 Claude Code 的使用建议:
- 我觉得还是得case by case,跑起来有问题是让Claude Code回滚还是继续修复,答案不是绝对的。
- 先回退一步:
- 步子小一点,一次只是解决一个小功能一个小bug;
- 生成后要审查代码,至少要看懂,测试稳定后再下一步;
- 另外要用git做版本管理。
- 这些是基本原则。有基本原则你就好灵活处理了,生成后有问题先描述清楚问题让它修复,能修复就修复,不能修复就回滚到上一次能稳定运行的地方重新生成。
- 如果再回退一步,就是自己能主导程序的设计和任务划分,清楚的知道应该要提供给AI必要的上下文,说到底用好Claude Code这样的神器还是要有点基本功比较好。(来源: @dotey)
- **Beihuo 对 Claude Code 的评价:**昨天用 Claude Code 开发,感觉比 Cursor 里面的 Sonnet 4 聪明很多。当时推测可能是 Claude Code 使用了 Opus 4。但是最后一查 cost,居然是使用的 Sonnet 3.5 🤯 只能说 Claude Code 的工程能力是真的强。(来源:@beihuo)
- Hylarucoder 分享 Claude Code 技巧:
- 之前我常 PUA 说「你给我仔仔细细想清楚再回答我」,效果挺好,一直沾沾自喜觉得自己prompting技巧高超。
- 后来发现 Claude Code 官方文档里面有 thinking budget 概念,当你要求它"使劲想想"的时候,系统真的会分配更多的资源去深度思考。(来源: @hylarucoder)
- AI 开发建议: 所有的 AI 都眼高手低。一般建议让他先输出文档, 然后狠狠展开批评和自我批评,最后生成代码。(来源: @hylarucoder)
多智能体系统探索
- Anthropic 多智能体系统: Anthropic 详细阐述了构建多个智能体来更高效地探索复杂课题所面临的工程挑战,包括代理协调、评估和可靠性。Notebooklm 总结了主要内容。(来源: @op7418)
- 多智能体系统优势: 多智能体系统能够通过以下方式提升性能:
- 并行操作和信息压缩。
- 关注点分离。
- 扩展性能。
- 卓越的广度优先查询能力。
- 高效的 token 使用。(来源: @op7418)
- 多智能体系统缺点: 智能体系统也有其缺点:
- 它们通常会快速消耗大量 token。
- 多智能体系统需要任务的价值足够高,以支付其增加的性能成本,从而实现经济可行性。
- 一些需要所有智能体共享相同上下文或涉及许多智能体之间依赖关系的领域,目前不适合多智能体系统,例如大多数编码任务。(来源: @op7418)
- Anthropic 多智能体系统架构:
- 架构概览:Anthropic 的研究系统采用协调器-工作器(orchestrator-worker)模式的多智能体架构。
- 工作流程:
- 用户提交查询后,主智能体(LeadResearcher)会分析查询,制定策略,并生成子智能体来同时探索不同的方面。
- LeadResearcher 首先思考其方法,并将计划保存到内存中以保留上下文,以防上下文窗口超过 200,000 个 token 被截断。
- 然后,它会创建专门的子智能体(Subagents),并分配具体的任务。
- 每个子智能体独立执行网络搜索,使用交错思考(interleaved thinking)评估工具结果,并将发现结果返回给 LeadResearcher。
- LeadResearcher 综合这些结果,并决定是否需要更多研究。
- 一旦收集到足够的信息,系统就会退出研究循环,并将所有发现结果传递给一个 CitationAgent(引用智能体),该智能体处理文档和研究报告以识别具体的引用位置,确保所有声明都正确归因于其来源。
- 最终的研究结果(包含引用)随后返回给用户。(来源: @op7418)
- Anthropic 多智能体系统提示工程与评估:
- 提示工程是 Anthropic 改进智能体行为的主要手段。
- 学到的提示原则包括:
- 像你的智能体一样思考:理解提示的效果,通过模拟观察智能体一步步工作,从而发现故障模式。
- 教导协调器如何委派任务:主智能体需要将查询分解为子任务,并向子智能体描述它们。
- 根据查询复杂性调整工作量:在提示中嵌入扩展规则,以帮助主智能体高效分配资源并防止在简单查询上过度投入。
- 工具设计和选择至关重要:智能体-工具接口与人机接口同样重要。
- 让智能体自我改进:Claude 4 模型可以作为优秀的提示工程师。
- 先广后深:搜索策略应模仿人类专家研究:先探索概况,再深入细节。
- 引导思考过程:扩展思考模式(Extended thinking mode)作为可控的草稿本。
- 并行工具调用提升速度和性能:通过让主智能体并行启动子智能体,以及子智能体并行使用多个工具,将复杂查询的研究时间缩短了高达 90%。(来源: @op7418)
- 多智能体系统有效评估方法: 评估多智能体系统面临独特的挑战,关键评估方法包括:
- 立即开始小样本评估。
- LLM 作为裁判的评估。
- 人工评估发现自动化遗漏的问题。
- 理解交互模式至关重要,最好的提示不是严格的指令,而是定义分工、问题解决方法和工作量预算的协作框架。(来源: @op7418)
- 多智能体系统的生产可靠性和工程挑战:
- 主要挑战包括:
- 智能体有状态且错误会累积。
- 调试需要新方法。
- 部署需要仔细协调。
- 同步执行造成瓶颈。(来源: @op7418)
- 主要挑战包括:
- Hylarucoder 对 Agent 的理解: 一个 Agent 可以走的更快,一群 Agent 可以走的更远。(来源: @hylarucoder)
- Yetone 对 Agent 的理解: SWE Agent is Meta Agent. (来源: @yetone)
- Dotey 对智能体的看法: 脱离场景讨论多智能体单智能体孰优孰劣没意义,大部分场景单智能体就够了,但复杂场景需要多智能体配合也很正常。单智能体多智能体的概念定义本身就是模糊的,一个单智能体也可能内部是多个智能体在协作。连智能体本身都只是手段,解决实际问题才是王道,不必着相与什么智能体。(来源: @dotey)
开源与产品
- 腾讯混元开源: 腾讯混元开源了首个、生产级 PBR 3D 生成模型。PBR 材质合成技术让皮革、青铜等材质更加生动和真实。模型权重、训练/推理代码、数据管道及架构全部开放,支持消费级显卡运行。(来源: @op7418)
- 免费生成产品视频:
- S1ntone 推出 showcase 网站,帮助独立产品免费生成宣传视频,对大家的需求供不应求。
- 大家可以在网站上:
- 看看成品展示
- 提交你们的产品信息‼️
- 查看排队信息,提交的信息会审核后添加到排队页面中
- 提交网站:https://t.co/gY8EFhxVo3 。原帖子评论下艾特了 ScreenSageApp 的,会以这个帖子发布为截止时间,截止之前的都会帮大家做。截止后需要按网站要求提交。目前已经有 70多个预约排队了。感谢 Jintao 的建议 @zhangjintao。(来源: @s1ntone)
- 案例:看看这些精彩案例👉 https://t.co/qB30jBuYCN (来源: @s1ntone)
- 开源统一多模态模型 BAGEL: 一个开源的统一多模态模型 BAGEL,基于图片的聊天对话、编辑、改写、文生图、风格转换、图片变换方向等 AI 能力,说是和 GPT-4o、Gemini 2.0 的能力相当。链接:https://bagel-ai.org/ (来源: @HiTw93)
- **FlyEnv:**一体化全栈环境管理工具。帮助开发人员快速设置本地开发环境。核心模块:Ollama、DeepSeek、Apache、Nginx、Caddy、Tomcat。MySQL、MariaDB、PostgreSQL、MongoDB。PHP、Java、NodeJS、Python、Go、Rust、Erlang、Ruby。 https://github.com/xpf0000/FlyEnv (来源: @ilovek8s)
- MarkTodo 的设计理念: 我自己使用MarkTodo的真实场景,按照自己的需求去设计产品,使用起来真的特别爽。MarkTodo肯定不会适合每一个人,但如果你认同其设计理念,就会很喜欢。MarkTodo的设计理念:专注于你近期需要处理的待办事项,但这个「近期」是通过设置「星标」来体现,而不是通过截止日期(我很讨厌截止日期😡) (来源: @ikennylin)
苹果生态观察
- macOS 26 与 Xcode 16: macOS 26 可以正常使用 Xcode 16,这是不是近年来唯一一个升级系统后,旧版 Xcode 还能正常使用(无需 hack)的版本? (来源: @fatbobman)
- JuniperPhoton 分享 macOS Beta 体验方法:
- 用自带的 Disk Utility 来划出一个 Volume;
- 找到跟目前一样版本的 macOS 安装器;
- 直接在当前 macOS 上运行安装器,然后选择之前新创建的 Volume 来安装。
- 如果要切换系统,需要在系统设置的 Startup Disk 里选择,然后重启即可。
- 不想要 Beta 了,直接抹掉并删除整个新创建的 Volume 即可。(来源: @JuniperPhoton)
- Xcode 26 Beta 问题: With Xcode 26 Beta, using a plugin dependency fails to build. (来源: @JuniperPhoton)
- JuniperPhoton 发现 iOS App 用户分布: 我的 app 月活来看,iOS 18 用户占了 96%。iOS 17 这么少我倒是挺意外的。(来源: @JuniperPhoton)
- iOS 26 新特性: Apple 在 iOS 26 开放了 Shortcuts Use Model 的能力,结合第三方 App 集成进来的 Intents 能力,在配合上一些自动化场景,可以做的事情真的太多了。(来源: @kevinzhow)
- 关于 Xcode 独立 Darkmode: Xcode 可以单独切 Darkmode 真的太棒了。(来源: @Megabits_mzq)
- macOS Tahoe Dock 栏问题求助: macOS Tahoe 的 Dock 栏这些以前不会出现但现在出现的鬼东西怎么去掉?(来源: @okooo5km)
- JuniperPhoton 观察 iOS 26 SideBar 的层级: 目前来说最想不明白的是这个 SideBar 的层级。看起来是浮在顶层,但是又能透出壁纸的颜色,底下的元素能滚到背后,但是右边 Details View 的背景又没那么透:这意味着,SideBar 底部那块其实是挖空了的?(来源: @JuniperPhoton)
- Xcode 26 模拟器问题: Xcode 26 模拟器里的 CarPlay 依然无法模拟 Live Activities,只能真机测试。(来源: @hzlzh)
- iOS 26 动画: iOS 26 truly brings the animation introduced two years ago into every element of the system。(来源: @harryworld)
行业观点与生活
- AI 与意识形态: AI 或许早已经进入到了意识形态撕裂的阶段,也或许这种撕裂其实一直存在,和 AI 无关,只是现在 AI 要给这种撕裂也要加杠杆。神魔、善恶、冲突、战争。(来源: @cellinlab)
- 信息操控: 人太容易被操控了,一切你觉得是顿悟的时刻,都可能是被人为设计的环境和信息控制了。人和模型一样,GIGO。(来源: @cellinlab)
- Oasisfeng 评价 OCBC 银行: 准备把 @OCBC 这个破银行的账户注销了。之前还只是 web 做得非常烂,登录就开始不断狂耗内存和 CPU,Web 还可以说少用,结果最近连 app 也开始作死,不关闭 USB 调试不给进了。自己技术烂,别啥都让用户作出牺牲来保全你的脆弱安全!一个技术团队如此草台班子的银行,你放心把资金交给它去管理吗?即便资金安全侥幸没出问题,这种对技术极度不重视的企业价值观也会带来运营上的低效和成本浪费,最终还是会以各种方式影响到你的账户费用和收益。长期而言,也容易在行业竞争中丧失竞争力。这,不是一家值得托付的企业。(来源: @oasisfeng)
- 政治决策与民意:
- 很多人认为「有限任期」是阻碍民主政体下政治家作出长远战略决策的主要制约。这其实忽略了民主政体中,政治家的倾向本质上还是受到主流民意的影响。
- 要让民主政体也能充分兼顾长远战略,就必须从民意这个源头着手,从制度上确保那些更关注眼前利益的选民,也能从支持长远战略的决策中获得眼前利益。
- 如何才能让长期战略带来的潜在远期收益,也能转化为部分选民更关注的眼前利益呢?我们或许可以从金融中借鉴思路。风险投资本质上也是在追寻类似的目标。如果政治议题的博弈也能像风险投资那样,让关注长期战略的选民成为风险投资者,用投资去满足眼前利益以换取支持战略议题,就有机会重塑政治共识。(来源: @oasisfeng)
- 开源盈利模式:
- 开源项目一样必须要有先有跑得通的「盈利模式」。
- 比如于个人可能是个人品牌;于公司可能是为了抢夺和制定技术标准。
- 半路再想就容易出这个项目这样的「事故」。(来源: @1ittlecup)
- 对 B 站用户的印象: 在 B 站冷启动涨了 500 粉丝。发现这个用户心智相比于其他平台,确实是更加淳朴、质朴以及古朴一些。在其他平台,别人喷你,多多少少还是要找一个理由,哪怕观点上喷不倒你,也可以喷你的画质和音效。但 B 站不是,他们是直接骂,打法非常古典。难怪 B 站不挣钱,心疼陈睿总一秒。(来源: @dontbesilent12)