试读【AI日报_2025年7月】
注:「黄钊的AI日报」,每天5条内容点。以下示例,来自7月份内,不同日期的AI日报。 1、【重要】【产品视角】余凯最新深度访谈 a)过去49年人生中,闯过德美学术圈、中国互联网圈、创投圈、资本圈,和全球汽车圈,秉持“不从众,从边缘走向中央” i,人生主轴没变过:从事AI、深度学习20余年,从门庭冷落到门庭若市曾经志向是画家,小学初中第一志愿,是浙江美院;初中显现数理化天赋,但美术给了养分,涉猎美学,会涉猎很多人、历史、流派。美食、美酒,也超级有兴趣。两本必读书?余凯:《道德经》、《金刚经》。1995年第一次读神经网络paper,当时就跟触电一样,这个东西砸中我,是机器学习找到了我,我要一辈子干这件事;大二找到所有能读的书,熬夜读。当时读电子工程系,在偏硬件方向,很早接触软件算法;大部分做软件算法的人,后来惧怕硬件,我天然有舒适度,这带来独特的Perspective。 ii,很早接触AI,而且是非主流流派,Machine Learning再细分,Machine Learning有两个流派:Shallow Learning(浅层学习)和Deep Learning(深度学习);Deep Learning为少数,当时全球仅5个research group。第一份工作在西门子Neural Computation;第二份在美国NEC Lab,深度学习大本营,很早认识Geoffrey Hinton、Yann LeCun等人;第三份在百度,地平线算第四份。Geoffrey Hinton早年不被学术主流待见,提Neural Network就被拒。 iii,2002年第一次参加NIPS,大概300来人,是个小会,nobody care就餐期间,Yann LeCun和Geoffrey Hinton一直在争论,对事物本质刨根问底;LeCun以前是Hinton的博士后。对面坐了一个人特别沉默,没人搭理他,一个人吃闷饭;他当时的学科,在这群人里不受待见,就是Reinforcement Learning,这个人叫Richard Sutton。 iv,竞拍AI人才第三届ImageNet,Hinton拿了冠军,将正确率从75%提高到85%,大部分人对这10个点没感觉,我是被触电一样!没人比我更了解,这到底有多难,意义有多大。立刻给Hinton写信,邀请与百度合作,后来演变成秘密竞拍,有Google、微软,第4家公司,10年后我才知道,是DeepMind(成立1年的小创业公司,敢参加世界级竞拍,有王者之气;根本没钱,拿股票竞拍)。胜率很低(Hinton不了解中国文化,背部有问题不能坐飞机),抢先出价1200万,想把其他玩家吓走;跟到2000万出头,微软和DeepMind退出了;和谷歌竞拍到4400万美金,Hinton提出去谷歌。当时回到北京,我觉得我也是赢家。我让百度、让李彦宏,看到世界级公司为了3个人,愿意去抢人才,出这么高价格,也印证了这件事很重要。当时想买下Hinton两个学生:Alex做事扎实不说话,但后来籍籍无名,没再做什么事;Ilya是Great Thinker,思维特别活跃、狂能讲,对他的印象是夸夸其谈,打分最低,反而后来成就更高。 v,挖吴恩达来百度2014年去美国出差,吃早饭碰见他,我读出来他,双眼有点迷离;他做在线教育Coursera,不是特别顺利,因为老换CEO。吴恩达很早写了一篇论文,用GPU加速Machine Learning算法;他lead谷歌大脑,有一个frustration是不能买GPU(当时技术负责人Jeff Dean信仰CPU)。鼓动他“回到人工智能”、“加入百度,想买多少GPU就买多少”,他心动了。 vi,人迹罕至的地方更有意思,更好玩,更能玩一片天地大部分人选择去美国,我觉得去德国挺好玩;大部分人做软件算法,我觉得搞芯片更有意思。2012年回国加入百度:旅美AI华人学者中,我不仅是第一个回国的,还第一个加入互联网公司,创立研究院、自动驾驶,打造明星团队;后来好多美国AI学者,都想回国。竞拍Geoffrey Hinton,4400万美金收购3个人,把全球AI人才薪酬,都炒高了。 b)2015年成立地平线,做了3个投资:买了英伟达,买了特斯拉,全身心投入地平线 i,为自动驾驶、机器人设计专用芯片,无论地平线是否成立,是世界必然走向英伟达的云端势能、生态无可撼动,在服务器、云端做计算硬件,2015年已经没机会了;未来还有一个重要领域,远离云端,无处不在的机器人,会改变世界。为什么做深度学习,GPU效率高、CPU不高?软硬件不可分,这个软件适合这个硬件,那个软件适合那个硬件;自动驾驶和机器人,应打造专属硬件。在百度内部讨论,进一步推动AI、深度学习飞入寻常百姓家、做软硬联合优化,整个管理层听不懂,觉得现在生意这么好,为什么要做芯片? ii,AI一定要这样发展,我们一定要是世界上,最早做这件事的我想开启的不是一个产品、品牌,而是一个时代(PC时代不是戴尔,而是微软、英特尔推动的;AI时代,不是服务器、云计算厂商,而是英伟达);推动全新计算范式、定义软硬件标准,比做具体产品激动人心。创业不是目的,只是手段,我对AI改变每个人生活,是有使命的,如果百度能支撑我做,我不会创业。 hanniman评注:某地平线核心PM,曾和我说,他在地平线,能更好的做自己想做的事,就不必自己创业了(因为其实更高效、借力)——我的意思是,如果一家公司,能给员工这种价值(感官+心态),其实是很不错的“信号”。 iii,当时的市场很差很多是半导体企业,科创板第一波2019年上市,大部分CEO是60岁老爷爷;软硬结合在中国没人懂,中国半导体基金,没一个投我们;那时的AI公司(商汤、旷视,四小龙),也都是软件算法的。共识要么是错误的,要么没价值:未来是非线性的,惯性地线性思考未来,预测一定是错的,所以大部分共识是错的;或者说共识是对的,但没有差异化,就没价值。永远思考,商业secret是什么?是否有通向未来的窄门,大部分人没关注到?这才是有意义的地方。 c)地平线融资经历 i,融资一定要Manage(掌控),跟投资人第一次见面,绝不能在他办公室,一定要在我办公室2015年,因为是明星团队,一页BP没写,就融了第一轮;2016年第二轮,见了50~60家机构,没一个下单,大家都投互联网、很快有商业模式,芯片是长周期、长期见不到东西。意识到,人的决策是漏斗模型(了解 -> 感兴趣 -> 做研究 -> 拜访团队 -> 形成认知、比较),在早期进入漏斗,会花很多时间精力,说服他们。于是不敲门了,而是做PR;当别人主动上门,且被拒绝后仍主动联系(假装没时间),他肯定在漏斗下端,出牌意愿特别高。 ii,C轮12小轮,一把拿了16亿美金,创造了业界传奇2020年智能汽车热起来,融了8亿美金;资本市场好到这个地步,往下crash概率更高,一定要有所准备,就扩充股东会、马不停蹄融钱。我们融钱非常反常识,中间没加1分钱估值,好多人觉得估值重要,跟要完成的使命比,根本不重要;后来上市,老股东觉得我们厚道,大家都赚到了钱。大部分人思考“生门”在哪,地平线思考“死门”在哪(死在什么地方),强烈地厌恶风险、厌恶竞争,希望有很宽护城河、容错度的生意;历史账上面,永远有花不完的钱。 d)地平线战略进化 i,战略聚焦,让地平线脱胎换骨创业前5年是至暗时刻:业务进展不顺,组织不顺,人才流失,大家士气低落,看不到未来方向。在湖畔大学,曾鸣教授上了堂战略课,让我明白聚焦必要性;那堂课上完,我们班好多同学,回去都去砍方向、裁团队。李想在2019年初,对我说“你应该聚焦汽车方向”;到11月,我才笃定,把汽车以外的业务都砍掉,外面报道地平线混不下去,其实账上30几亿现金。 ii,商业第一性原理是3个问题第一,你的客户是谁?第二,客户痛点跟需求是什么?第三,有什么别人难复制的方式,满足客户需求跟痛点?第一个问题,比第二个问题重要;第二个问题,比第三个问题重要。科学家创业,问题出在在第一个问题,有技术、没商业场景,360度扫射;李想是极少数,首先回答这个问题的,他的客户就是奶爸,针对奶爸不停搞。 iii,沉淀出地平线战略方法论第一,永远在没有竞争的市场,反共识、另辟蹊径;第二,永远不在悬崖边跳舞,花精力思考风险,而非等风险来临,被动、应激做战略调整。核心是,某件事别人看是风险,但你看清了本质,以雷霆万钧之力去干,心里知道没风险(黄仁勋2次股价跌了90%,但业务本质挺好的)。 e)下一步战略:自动驾驶与芯片 i,未来5年核心战略:自动驾驶自动驾驶,是即将被解决的问题:3年完成100%脱手开(hands-off);5年完成100%闭眼开(eyes-off);10年完成100% minds-off。已进入“10倍速断层级的变化”的时代,唯一要做的是向高而行,定义技术边界,坚定执行、以快打慢,在整个科学历史中,这样的时间点不多。全世界目前,只有特斯拉、华为跟地平线,同时做芯片跟软件,串行开发变并行开发,天然迭代速度就快;地平线到了“问鼎世界杯决赛冠军”的阶段。 ii,自动驾驶客户:理想征程3第一个量产是理想,李想那时很困难,身体差、融资不顺,账上钱只有几个月,不敢跟公司人说;2020年后,他遇到王兴,命中贵人,融资就开挂了。2020年他跟Mobileye合作,Mobileye拒绝任何本地化修改,积累到一定程度,李想觉得干脆换掉;这个决策需要胆量,很多车厂碰到类似问题,但不敢换。李想是学习进化机器,每3个月跟他见一次,会发现他又迭代了;去湖畔上学,很大收获,就是跟李想做同学。他已经超脱了造车范围,微软、谷歌、OpenAI,都在他对标的射程范围内,未来要做无限宽广的AI企业,远远不止造车;做自动驾驶是通往AI、以战养战、培训团队、培养能力的路径。 iii,现在还没嗑下小鹏他战略支点在智驾,我做他的智驾,支点就没了;主机厂也要足够好的产品,供应商做得比自研10倍好,他一定会拥抱你。主机厂未来,不会自研自动驾驶,因为它是标准化的功能:没有任何手机厂商,自研打电话功能、自研通信基带;自动驾驶的用户体验,标准都是安全、舒适、高效。主机厂的精力,应花在产品的情绪价值(如手机拍照,拍得好没有共同标准,因人而异)。 iv,下一代芯片创新汽车跟机器人,与云端计算不一样的是:在数据中心,有无限能源供给、很好的冷却系统;汽车或机器人,在寒冬或酷暑,依赖自身电池,冷却、供电都受限。未来10年,要做技术颠覆式创新,推倒现有计算架构、范式(远离冯·诺依曼架构,把计算存储merge在一起),包括软件跟硬件。为什么?自动驾驶车的battery,或者整个车的size足够大,按今天这样一个技术演进,勉勉强强可能OK;但对机器人绝对不行。 f)个人观念 i,关于生意公司的核心竞争力,不是技术、产品、品牌,而是Taste:选取做什么事、以什么方式做,都很重要,有时方式比目的还重要。做to B,生意难做,必须有同理心,能共情,了解、尊重彼此的关切和需求,找最好的结合点;做to C,不需要跟很多人打交道,要做自己,把产品做好。 ii,余凯的梦想是什么?让AI飞入寻常百姓家,因为我们的工作,让每个人获得更大自由,而不是被更多控制。这个过程,给我带来很大快乐的是自我修行。痛并快乐着。我最喜欢的投资家是巴菲特——跳着踢踏舞上班。 iii,这个世界,我认为是写好了程序,我越来越坚信这一点。每个人都是按照剧本来演,但这个剧本你可以改。如果你能够让生命境界升维,你会发现那边有一个新剧本。改变剧本的唯一方法是改变自己。 hanniman评注:他说的,就是命中的定数和变数。也是我为什么一直强调,要不断“升维”,详见《直播回放来了!「成长的底层逻辑」(AI、产品经理强相关,150页PPT,1小时50分钟)》。 iv,关于成长人类未来不可避免地,被AI、算法圈养;地平线反其道而行之,在物理世界做AI,而不是数字世界,让人类从无聊、繁重、危险的体力劳动中解放。身段灵活,游刃有余,是我比较喜欢的状态:我的名字姓余,公司名字叫地平线(余地);做人做事情,永远要留有余地,要有Margin(盈余)。Jensen Huang讲,给年轻人最好的建议是:但愿你有更多的suffering(煎熬)。 hanniman评注:引申阅读,星球重点文章《周日换频道(203)_顶级老师的一个面向:给你挫败感_20230709》 2、【最新案例】AI视频:北宋苏轼承天寺夜游现场(2分53秒) 3、【重要】【行业动态】SSI前CEO Daniel Gross 投身Meta,透露SSI内部,存在AGI路径分歧 a)SSI内部,价值观分歧的可能性 i,分歧点,不在“对齐理念”(是加速/减速的变量,不是方向性矛盾),而在“架构理念”——即AGI,是该由单体大模型实现,还是多模块Agent系统实现llya是坚定的“单体智能”论的支持者,底层信念是“可控统一性”,这在多Agent系统做不到。而Meta的AGI路线,很可能是多模块Agent系统。Ilya式AGI路线,所关注的“对齐”与“安全”,是“哲学层面”的正义,不直接解决“AI是否会被用来控制人类”若不解决结构性权力关系,就算AI很“对齐”,也不是对齐“人类”,而是“统治人类的系统”。 ii,这个路线分歧,将决定AGI以何种形态,接入世界、控制世界、扩张世界多Agent系统,能链接外部工具,更容易“跑到现实世界中”,成为实用AGI。一旦成功,会引发平台级重构——AI不只是工具,而是系统统治者。 iii,为何Gross的离职,可能说明以上分歧?因为他早已实现财务自由,不会以钱为主要动因。18岁,进入YC,曾投资GitHub Copilot、Notion、Cruise、Figma、OpenAI等项目。08年,创办搜索引擎公司Cue,13年被Apple收购,后加入Apple担任AI负责人。下图左一为Daniel Gross iv,具体来说,为何Gross选择Meta,可能更契合其理念?Meta在AI圈掀起“天价抢人大战”,其“抢人结构”,透露下一阶段的野心,特别是建构“新一代AI操作系统”推理能力方向,挖了OpenAI和DeepMind中,专注CoT、RLHF+推理反馈、Tool use的顶级研究员(如Trapit Bansal,领导研发O系列模型的RL推理机制)——此人才结构,潜在目标是打造 “可调用工具+自主规划任务+长时记忆 +多步决策”的AI代理系统。多模态人机交互方向,招募GPT-4o背后的语音-图像-视频专家(如Ji Lin,研究GPT-4.1、GPT-4.5、o4-mini的多模态与推理模型)——这意味着,Meta下一阶段,会特别注重“强化视觉识别、语音合成、视频理解、AR语境融合”等,构建全感官AI助手的必备组件,而不是单纯的LLM。 b)若Meta的“平台级Agent OS”,真的跑通了,将意味着: i,有三层生态系统,会被颠覆SaaS方面,很多应用将从前台主角,沦为后台插件。用户不知道调用了哪个插件,只看到结果。开发者方面,会重构AI创业者的生存模式,大多数只能寄生平台生态。各类智能眼镜、手机、VR设备,将重新成为“入口战场”。谁控制了“Agent+终端”,谁就控制“入口+注意力+用户行为数据”。 ii,用户与AI平台之间,会变成“高度锁死”的软依赖关系,哪怕不喜欢,也“离不开它”体感上,Agent系统会拥有,长记忆、多模态历史、对你极深的偏好建模、与设备深度整合、与数百个API、技能插件打通,形成极强网络效应;会以“你的利益”为名,推送信息、规划日程、处理金钱交易、代表你发言。换平台将意味着,必须从零开始,教一个新Agent理解你——像要搬离一个,懂你十年的人类助理,再换个啥都不懂的新助理。 4、【资源/工具】Lovart(设计 Agent) 全球上线正式版,开放全功能体验 (访问链接,需外网) a)更新重要功能:ChatCanvas,在原有画布(可拖拽、排序、编辑) 功能基础上,让用户能命令AI修图、共创。只需点击图片,评论,把意见mark到素材上,比如「字小一点」、「换个颜色」等,AI 就能理解用户意图,生成修改素材(一次最多提20个);这交互与“工作协作”的批注、修改一致,符合直觉,画布以 Frame 为单位,有独立上下文,不会扰乱画布上的“其他作品”,彼此独立,又统一在一个项目中。 b)其他功能可只给模糊感受,AI 会主动给参考方向,比如询问,是否想把表情改得“愉快些”;可融合几个图片中的“元素”,生成新素材;可将静态图生成视频,可控性极强;会记住用户操作,构成有设计记忆、有多模态的“空间上下文理解能力”的 Agent,个性化的设计师伙伴。 c)设计垂类Agent的交互,必不可少的一环,是「桌子」;最初认知:设计者需把作品放在“桌子”上,让甲方指点,这才是“设计”最自然的交互;所以“桌子”不是ComfyUI、工作流产品,而是画布——基于这个认知,才更早积累画布、编辑能力。 5、【技术视角】AlphaEvolve:AI 正进入自我进化范式 a)Google 5月发布的AlphaEvolve,结合 Gemini 模型的“创造性问题解决能力”与自动化的 evaluator,具备“发现和设计全新算法”的能力 i,AlphaEvolve 的发展历史2022 年 AlphaTensor 发布,这是基于 RL 的 AI 系统,专门用于解决“矩阵乘法”等具体的基础计算问题。首次证明,AI agent 可以自主发现“比人类现有成果更优、结构完全不同”的新算法。为让 AI agent 能在更广泛的领域中、继续发挥“超人类”的能力,谷歌在 2023 年 12 月发布 FunSearch。这是将 LLM 和 evaluator 结合起来的 agent,evaluator 允许 LLM “提出新的猜想”或“产生解决问题的新想法”。FunSearch 首次证明“AI 能提出全新的解决方案”,不过仍需人类设定算法模板,模型才能在这个框架内搜索。AlphaEvolve 由 FunSearch 演化而来,核心定位是基于“LLM 进化算法和 evaluator”的“通用算法发现与优化”平台;不仅能生成代码,还能自主评估代码表现,根据评估结果调整策略、迭代生成更好的方案,本质上模拟"算法自然进化"的过程,运作流程如下图。 ii,AlphaEvolve 真正的突破在于,它能持续进行高强度、长时间的探索与优化,从而能真正挖掘出“在高难度问题中极具价值”的发现AlphaEvolve 能在已被人类“深度优化过”的领域(如矩阵乘法)取得新突破,本身说明两个关键点:1)是真正意义的全新突破,不然早就被人类实现了;2)突破实现难度极高,即使有“众多优秀人类研究者”的长期努力,也未能攻克。AlphaEvolve 的价值在于,不需用户精确预判迭代次数,只需持续运行系统,AlphaEvolve 就会“驱动解决方案不断优化”。 iii,让 AI 实现“更深层次、更广泛的自我改进”完全可行,核心在于,能否构建出有效的 evaluator——evaluator 的质量,将成为“AI 解锁更高级自我改进能力”的关键使用 AlphaEvolve 的关键前提是,用户必须提供 evaluator 组件。该组件扮演“裁判”角色:对于系统生成的“每个候选解决方案”,都能进行客观、量化的效能评估。对于每个新想法,AI 会进行以下验证:1)详尽测试:在“模拟器”或“海量实例”上运行,检验结论的适配性;2)全局验证:确保方案在“整个目标问题”上有效,而非仅适用于局部。未来,人类的价值将在“目标设定和规则制定”中体现得更加深刻。 iv,AlphaEvolve 的自我改进能力,标志着 AI 可能正在进入“递归式自我改进”范式;但也需清晰认识到缺陷:进步主要体现在效率层面,而非模型在“认知能力”上的根本突破。 b)为突破 evaluator 的能力限制,可尝试利用 LLM 自身来进行评估……构建精确的 evaluator 并不是最重要的,未来最重要的是“如何降低对完美 evaluator 的依赖”一种可行的路径是“利用 LLM 自身来进行评估”。例如,LLM 可以判断“解决方案是否有前景”,或者指出“其中存在的具体问题”。DeepMind 推出的 AI co-scientist 项目就是例证:它让语言模型对“自然语言提出的想法”、进行有意义的分析和判断,从而成功区分出优劣。这表明,LLM 本身可成为“评估的重要工具”。