免费内容

精选免费文章,先睹为快

2025-07-31 19:50
免费

「黄钊的AI日报·第八季」详细介绍

公众号排版更好,请查看这里:https://mp.weixin.qq.com/s/VzfTwLJHBTiFhXBakIA3Cg
文章预览
阅读全文
2025-07-31 10:23
免费

试读【AI日报_2025年7月】

注:「黄钊的AI日报」,每天5条内容点。以下示例,来自7月份内,不同日期的AI日报。 1、【重要】【产品视角】余凯最新深度访谈 a)过去49年人生中,闯过德美学术圈、中国互联网圈、创投圈、资本圈,和全球汽车圈,秉持“不从众,从边缘走向中央” i,人生主轴没变过:从事AI、深度学习20余年,从门庭冷落到门庭若市曾经志向是画家,小学初中第一志愿,是浙江美院;初中显现数理化天赋,但美术给了养分,涉猎美学,会涉猎很多人、历史、流派。美食、美酒,也超级有兴趣。两本必读书?余凯:《道德经》、《金刚经》。1995年第一次读神经网络paper,当时就跟触电一样,这个东西砸中我,是机器学习找到了我,我要一辈子干这件事;大二找到所有能读的书,熬夜读。当时读电子工程系,在偏硬件方向,很早接触软件算法;大部分做软件算法的人,后来惧怕硬件,我天然有舒适度,这带来独特的Perspective。 ii,很早接触AI,而且是非主流流派,Machine Learning再细分,Machine Learning有两个流派:Shallow Learning(浅层学习)和Deep Learning(深度学习);Deep Learning为少数,当时全球仅5个research group。第一份工作在西门子Neural Computation;第二份在美国NEC Lab,深度学习大本营,很早认识Geoffrey Hinton、Yann LeCun等人;第三份在百度,地平线算第四份。Geoffrey Hinton早年不被学术主流待见,提Neural Network就被拒。 iii,2002年第一次参加NIPS,大概300来人,是个小会,nobody care就餐期间,Yann LeCun和Geoffrey Hinton一直在争论,对事物本质刨根问底;LeCun以前是Hinton的博士后。对面坐了一个人特别沉默,没人搭理他,一个人吃闷饭;他当时的学科,在这群人里不受待见,就是Reinforcement Learning,这个人叫Richard Sutton。 iv,竞拍AI人才第三届ImageNet,Hinton拿了冠军,将正确率从75%提高到85%,大部分人对这10个点没感觉,我是被触电一样!没人比我更了解,这到底有多难,意义有多大。立刻给Hinton写信,邀请与百度合作,后来演变成秘密竞拍,有Google、微软,第4家公司,10年后我才知道,是DeepMind(成立1年的小创业公司,敢参加世界级竞拍,有王者之气;根本没钱,拿股票竞拍)。胜率很低(Hinton不了解中国文化,背部有问题不能坐飞机),抢先出价1200万,想把其他玩家吓走;跟到2000万出头,微软和DeepMind退出了;和谷歌竞拍到4400万美金,Hinton提出去谷歌。当时回到北京,我觉得我也是赢家。我让百度、让李彦宏,看到世界级公司为了3个人,愿意去抢人才,出这么高价格,也印证了这件事很重要。当时想买下Hinton两个学生:Alex做事扎实不说话,但后来籍籍无名,没再做什么事;Ilya是Great Thinker,思维特别活跃、狂能讲,对他的印象是夸夸其谈,打分最低,反而后来成就更高。 v,挖吴恩达来百度2014年去美国出差,吃早饭碰见他,我读出来他,双眼有点迷离;他做在线教育Coursera,不是特别顺利,因为老换CEO。吴恩达很早写了一篇论文,用GPU加速Machine Learning算法;他lead谷歌大脑,有一个frustration是不能买GPU(当时技术负责人Jeff Dean信仰CPU)。鼓动他“回到人工智能”、“加入百度,想买多少GPU就买多少”,他心动了。 vi,人迹罕至的地方更有意思,更好玩,更能玩一片天地大部分人选择去美国,我觉得去德国挺好玩;大部分人做软件算法,我觉得搞芯片更有意思。2012年回国加入百度:旅美AI华人学者中,我不仅是第一个回国的,还第一个加入互联网公司,创立研究院、自动驾驶,打造明星团队;后来好多美国AI学者,都想回国。竞拍Geoffrey Hinton,4400万美金收购3个人,把全球AI人才薪酬,都炒高了。 b)2015年成立地平线,做了3个投资:买了英伟达,买了特斯拉,全身心投入地平线 i,为自动驾驶、机器人设计专用芯片,无论地平线是否成立,是世界必然走向英伟达的云端势能、生态无可撼动,在服务器、云端做计算硬件,2015年已经没机会了;未来还有一个重要领域,远离云端,无处不在的机器人,会改变世界。为什么做深度学习,GPU效率高、CPU不高?软硬件不可分,这个软件适合这个硬件,那个软件适合那个硬件;自动驾驶和机器人,应打造专属硬件。在百度内部讨论,进一步推动AI、深度学习飞入寻常百姓家、做软硬联合优化,整个管理层听不懂,觉得现在生意这么好,为什么要做芯片? ii,AI一定要这样发展,我们一定要是世界上,最早做这件事的我想开启的不是一个产品、品牌,而是一个时代(PC时代不是戴尔,而是微软、英特尔推动的;AI时代,不是服务器、云计算厂商,而是英伟达);推动全新计算范式、定义软硬件标准,比做具体产品激动人心。创业不是目的,只是手段,我对AI改变每个人生活,是有使命的,如果百度能支撑我做,我不会创业。 hanniman评注:某地平线核心PM,曾和我说,他在地平线,能更好的做自己想做的事,就不必自己创业了(因为其实更高效、借力)——我的意思是,如果一家公司,能给员工这种价值(感官+心态),其实是很不错的“信号”。 iii,当时的市场很差很多是半导体企业,科创板第一波2019年上市,大部分CEO是60岁老爷爷;软硬结合在中国没人懂,中国半导体基金,没一个投我们;那时的AI公司(商汤、旷视,四小龙),也都是软件算法的。共识要么是错误的,要么没价值:未来是非线性的,惯性地线性思考未来,预测一定是错的,所以大部分共识是错的;或者说共识是对的,但没有差异化,就没价值。永远思考,商业secret是什么?是否有通向未来的窄门,大部分人没关注到?这才是有意义的地方。 c)地平线融资经历 i,融资一定要Manage(掌控),跟投资人第一次见面,绝不能在他办公室,一定要在我办公室2015年,因为是明星团队,一页BP没写,就融了第一轮;2016年第二轮,见了50~60家机构,没一个下单,大家都投互联网、很快有商业模式,芯片是长周期、长期见不到东西。意识到,人的决策是漏斗模型(了解 -> 感兴趣 -> 做研究 -> 拜访团队 -> 形成认知、比较),在早期进入漏斗,会花很多时间精力,说服他们。于是不敲门了,而是做PR;当别人主动上门,且被拒绝后仍主动联系(假装没时间),他肯定在漏斗下端,出牌意愿特别高。 ii,C轮12小轮,一把拿了16亿美金,创造了业界传奇2020年智能汽车热起来,融了8亿美金;资本市场好到这个地步,往下crash概率更高,一定要有所准备,就扩充股东会、马不停蹄融钱。我们融钱非常反常识,中间没加1分钱估值,好多人觉得估值重要,跟要完成的使命比,根本不重要;后来上市,老股东觉得我们厚道,大家都赚到了钱。大部分人思考“生门”在哪,地平线思考“死门”在哪(死在什么地方),强烈地厌恶风险、厌恶竞争,希望有很宽护城河、容错度的生意;历史账上面,永远有花不完的钱。 d)地平线战略进化 i,战略聚焦,让地平线脱胎换骨创业前5年是至暗时刻:业务进展不顺,组织不顺,人才流失,大家士气低落,看不到未来方向。在湖畔大学,曾鸣教授上了堂战略课,让我明白聚焦必要性;那堂课上完,我们班好多同学,回去都去砍方向、裁团队。李想在2019年初,对我说“你应该聚焦汽车方向”;到11月,我才笃定,把汽车以外的业务都砍掉,外面报道地平线混不下去,其实账上30几亿现金。 ii,商业第一性原理是3个问题第一,你的客户是谁?第二,客户痛点跟需求是什么?第三,有什么别人难复制的方式,满足客户需求跟痛点?第一个问题,比第二个问题重要;第二个问题,比第三个问题重要。科学家创业,问题出在在第一个问题,有技术、没商业场景,360度扫射;李想是极少数,首先回答这个问题的,他的客户就是奶爸,针对奶爸不停搞。 iii,沉淀出地平线战略方法论第一,永远在没有竞争的市场,反共识、另辟蹊径;第二,永远不在悬崖边跳舞,花精力思考风险,而非等风险来临,被动、应激做战略调整。核心是,某件事别人看是风险,但你看清了本质,以雷霆万钧之力去干,心里知道没风险(黄仁勋2次股价跌了90%,但业务本质挺好的)。 e)下一步战略:自动驾驶与芯片 i,未来5年核心战略:自动驾驶自动驾驶,是即将被解决的问题:3年完成100%脱手开(hands-off);5年完成100%闭眼开(eyes-off);10年完成100% minds-off。已进入“10倍速断层级的变化”的时代,唯一要做的是向高而行,定义技术边界,坚定执行、以快打慢,在整个科学历史中,这样的时间点不多。全世界目前,只有特斯拉、华为跟地平线,同时做芯片跟软件,串行开发变并行开发,天然迭代速度就快;地平线到了“问鼎世界杯决赛冠军”的阶段。 ii,自动驾驶客户:理想征程3第一个量产是理想,李想那时很困难,身体差、融资不顺,账上钱只有几个月,不敢跟公司人说;2020年后,他遇到王兴,命中贵人,融资就开挂了。2020年他跟Mobileye合作,Mobileye拒绝任何本地化修改,积累到一定程度,李想觉得干脆换掉;这个决策需要胆量,很多车厂碰到类似问题,但不敢换。李想是学习进化机器,每3个月跟他见一次,会发现他又迭代了;去湖畔上学,很大收获,就是跟李想做同学。他已经超脱了造车范围,微软、谷歌、OpenAI,都在他对标的射程范围内,未来要做无限宽广的AI企业,远远不止造车;做自动驾驶是通往AI、以战养战、培训团队、培养能力的路径。 iii,现在还没嗑下小鹏他战略支点在智驾,我做他的智驾,支点就没了;主机厂也要足够好的产品,供应商做得比自研10倍好,他一定会拥抱你。主机厂未来,不会自研自动驾驶,因为它是标准化的功能:没有任何手机厂商,自研打电话功能、自研通信基带;自动驾驶的用户体验,标准都是安全、舒适、高效。主机厂的精力,应花在产品的情绪价值(如手机拍照,拍得好没有共同标准,因人而异)。 iv,下一代芯片创新汽车跟机器人,与云端计算不一样的是:在数据中心,有无限能源供给、很好的冷却系统;汽车或机器人,在寒冬或酷暑,依赖自身电池,冷却、供电都受限。未来10年,要做技术颠覆式创新,推倒现有计算架构、范式(远离冯·诺依曼架构,把计算存储merge在一起),包括软件跟硬件。为什么?自动驾驶车的battery,或者整个车的size足够大,按今天这样一个技术演进,勉勉强强可能OK;但对机器人绝对不行。 f)个人观念 i,关于生意公司的核心竞争力,不是技术、产品、品牌,而是Taste:选取做什么事、以什么方式做,都很重要,有时方式比目的还重要。做to B,生意难做,必须有同理心,能共情,了解、尊重彼此的关切和需求,找最好的结合点;做to C,不需要跟很多人打交道,要做自己,把产品做好。 ii,余凯的梦想是什么?让AI飞入寻常百姓家,因为我们的工作,让每个人获得更大自由,而不是被更多控制。这个过程,给我带来很大快乐的是自我修行。痛并快乐着。我最喜欢的投资家是巴菲特——跳着踢踏舞上班。 iii,这个世界,我认为是写好了程序,我越来越坚信这一点。每个人都是按照剧本来演,但这个剧本你可以改。如果你能够让生命境界升维,你会发现那边有一个新剧本。改变剧本的唯一方法是改变自己。 hanniman评注:他说的,就是命中的定数和变数。也是我为什么一直强调,要不断“升维”,详见《直播回放来了!「成长的底层逻辑」(AI、产品经理强相关,150页PPT,1小时50分钟)》。 iv,关于成长人类未来不可避免地,被AI、算法圈养;地平线反其道而行之,在物理世界做AI,而不是数字世界,让人类从无聊、繁重、危险的体力劳动中解放。身段灵活,游刃有余,是我比较喜欢的状态:我的名字姓余,公司名字叫地平线(余地);做人做事情,永远要留有余地,要有Margin(盈余)。Jensen Huang讲,给年轻人最好的建议是:但愿你有更多的suffering(煎熬)。 hanniman评注:引申阅读,星球重点文章《周日换频道(203)_顶级老师的一个面向:给你挫败感_20230709》  2、【最新案例】AI视频:北宋苏轼承天寺夜游现场(2分53秒)    3、【重要】【行业动态】SSI前CEO Daniel Gross 投身Meta,透露SSI内部,存在AGI路径分歧 a)SSI内部,价值观分歧的可能性 i,分歧点,不在“对齐理念”(是加速/减速的变量,不是方向性矛盾),而在“架构理念”——即AGI,是该由单体大模型实现,还是多模块Agent系统实现llya是坚定的“单体智能”论的支持者,底层信念是“可控统一性”,这在多Agent系统做不到。而Meta的AGI路线,很可能是多模块Agent系统。Ilya式AGI路线,所关注的“对齐”与“安全”,是“哲学层面”的正义,不直接解决“AI是否会被用来控制人类”若不解决结构性权力关系,就算AI很“对齐”,也不是对齐“人类”,而是“统治人类的系统”。 ii,这个路线分歧,将决定AGI以何种形态,接入世界、控制世界、扩张世界多Agent系统,能链接外部工具,更容易“跑到现实世界中”,成为实用AGI。一旦成功,会引发平台级重构——AI不只是工具,而是系统统治者。 iii,为何Gross的离职,可能说明以上分歧?因为他早已实现财务自由,不会以钱为主要动因。18岁,进入YC,曾投资GitHub Copilot、Notion、Cruise、Figma、OpenAI等项目。08年,创办搜索引擎公司Cue,13年被Apple收购,后加入Apple担任AI负责人。下图左一为Daniel Gross  iv,具体来说,为何Gross选择Meta,可能更契合其理念?Meta在AI圈掀起“天价抢人大战”,其“抢人结构”,透露下一阶段的野心,特别是建构“新一代AI操作系统”推理能力方向,挖了OpenAI和DeepMind中,专注CoT、RLHF+推理反馈、Tool use的顶级研究员(如Trapit Bansal,领导研发O系列模型的RL推理机制)——此人才结构,潜在目标是打造 “可调用工具+自主规划任务+长时记忆 +多步决策”的AI代理系统。多模态人机交互方向,招募GPT-4o背后的语音-图像-视频专家(如Ji Lin,研究GPT-4.1、GPT-4.5、o4-mini的多模态与推理模型)——这意味着,Meta下一阶段,会特别注重“强化视觉识别、语音合成、视频理解、AR语境融合”等,构建全感官AI助手的必备组件,而不是单纯的LLM。 b)若Meta的“平台级Agent OS”,真的跑通了,将意味着: i,有三层生态系统,会被颠覆SaaS方面,很多应用将从前台主角,沦为后台插件。用户不知道调用了哪个插件,只看到结果。开发者方面,会重构AI创业者的生存模式,大多数只能寄生平台生态。各类智能眼镜、手机、VR设备,将重新成为“入口战场”。谁控制了“Agent+终端”,谁就控制“入口+注意力+用户行为数据”。 ii,用户与AI平台之间,会变成“高度锁死”的软依赖关系,哪怕不喜欢,也“离不开它”体感上,Agent系统会拥有,长记忆、多模态历史、对你极深的偏好建模、与设备深度整合、与数百个API、技能插件打通,形成极强网络效应;会以“你的利益”为名,推送信息、规划日程、处理金钱交易、代表你发言。换平台将意味着,必须从零开始,教一个新Agent理解你——像要搬离一个,懂你十年的人类助理,再换个啥都不懂的新助理。  4、【资源/工具】Lovart(设计 Agent) 全球上线正式版,开放全功能体验 (访问链接,需外网) a)更新重要功能:ChatCanvas,在原有画布(可拖拽、排序、编辑) 功能基础上,让用户能命令AI修图、共创。只需点击图片,评论,把意见mark到素材上,比如「字小一点」、「换个颜色」等,AI 就能理解用户意图,生成修改素材(一次最多提20个);这交互与“工作协作”的批注、修改一致,符合直觉,画布以 Frame 为单位,有独立上下文,不会扰乱画布上的“其他作品”,彼此独立,又统一在一个项目中。  b)其他功能可只给模糊感受,AI 会主动给参考方向,比如询问,是否想把表情改得“愉快些”;可融合几个图片中的“元素”,生成新素材;可将静态图生成视频,可控性极强;会记住用户操作,构成有设计记忆、有多模态的“空间上下文理解能力”的 Agent,个性化的设计师伙伴。 c)设计垂类Agent的交互,必不可少的一环,是「桌子」;最初认知:设计者需把作品放在“桌子”上,让甲方指点,这才是“设计”最自然的交互;所以“桌子”不是ComfyUI、工作流产品,而是画布——基于这个认知,才更早积累画布、编辑能力。  5、【技术视角】AlphaEvolve:AI 正进入自我进化范式 a)Google 5月发布的AlphaEvolve,结合 Gemini 模型的“创造性问题解决能力”与自动化的 evaluator,具备“发现和设计全新算法”的能力 i,AlphaEvolve 的发展历史2022 年 AlphaTensor 发布,这是基于 RL 的 AI 系统,专门用于解决“矩阵乘法”等具体的基础计算问题。首次证明,AI agent 可以自主发现“比人类现有成果更优、结构完全不同”的新算法。为让 AI agent 能在更广泛的领域中、继续发挥“超人类”的能力,谷歌在 2023 年 12 月发布 FunSearch。这是将 LLM 和 evaluator 结合起来的 agent,evaluator 允许 LLM “提出新的猜想”或“产生解决问题的新想法”。FunSearch 首次证明“AI 能提出全新的解决方案”,不过仍需人类设定算法模板,模型才能在这个框架内搜索。AlphaEvolve 由 FunSearch 演化而来,核心定位是基于“LLM 进化算法和 evaluator”的“通用算法发现与优化”平台;不仅能生成代码,还能自主评估代码表现,根据评估结果调整策略、迭代生成更好的方案,本质上模拟"算法自然进化"的过程,运作流程如下图。  ii,AlphaEvolve 真正的突破在于,它能持续进行高强度、长时间的探索与优化,从而能真正挖掘出“在高难度问题中极具价值”的发现AlphaEvolve 能在已被人类“深度优化过”的领域(如矩阵乘法)取得新突破,本身说明两个关键点:1)是真正意义的全新突破,不然早就被人类实现了;2)突破实现难度极高,即使有“众多优秀人类研究者”的长期努力,也未能攻克。AlphaEvolve 的价值在于,不需用户精确预判迭代次数,只需持续运行系统,AlphaEvolve 就会“驱动解决方案不断优化”。 iii,让 AI 实现“更深层次、更广泛的自我改进”完全可行,核心在于,能否构建出有效的 evaluator——evaluator 的质量,将成为“AI 解锁更高级自我改进能力”的关键使用 AlphaEvolve 的关键前提是,用户必须提供 evaluator 组件。该组件扮演“裁判”角色:对于系统生成的“每个候选解决方案”,都能进行客观、量化的效能评估。对于每个新想法,AI 会进行以下验证:1)详尽测试:在“模拟器”或“海量实例”上运行,检验结论的适配性;2)全局验证:确保方案在“整个目标问题”上有效,而非仅适用于局部。未来,人类的价值将在“目标设定和规则制定”中体现得更加深刻。 iv,AlphaEvolve 的自我改进能力,标志着 AI 可能正在进入“递归式自我改进”范式;但也需清晰认识到缺陷:进步主要体现在效率层面,而非模型在“认知能力”上的根本突破。 b)为突破 evaluator 的能力限制,可尝试利用 LLM 自身来进行评估……构建精确的 evaluator 并不是最重要的,未来最重要的是“如何降低对完美 evaluator 的依赖”一种可行的路径是“利用 LLM 自身来进行评估”。例如,LLM 可以判断“解决方案是否有前景”,或者指出“其中存在的具体问题”。DeepMind 推出的 AI co-scientist 项目就是例证:它让语言模型对“自然语言提出的想法”、进行有意义的分析和判断,从而成功区分出优劣。这表明,LLM 本身可成为“评估的重要工具”。 
文章预览
阅读全文
2025-07-31 10:21
免费

试读【AI日报_2025年6月】

注:「黄钊的AI日报」,每天5条内容点。以下示例,来自6月份内,不同日期的AI日报。 1、【产品视角】三则 a)【重要】诗意的Prompt,往往就是好Prompt i,好的提示词是一首诗,而你最好尝试写写诗。注意这不是比喻,而是陈述。 -从工程上看,诗的格律和押韵是一道"约束墙"(正则化机制)而基于“大模型总是在预测下一个token”的原理,诗意化的Prompt会诱导、乃至强迫大模型放弃最“顺手”也最平庸的高频词汇,转而去寻找更全局、更有突破性的解。 -如果你读过诗,你会有感觉,诗天然就是多模态的。脑成像研究显示:相比其他文字形式(比如散文),你在读诗的时候,更多脑区会被同时激活,不仅是语言区,还会唤醒听觉、运动甚至默认模式网络。诗意的Prompt,对AI神经网络也有类似的效果。 -诗会大量使用隐喻,隐喻的作用,是连接两个远距离的概念,它让未知概念与已知概念相关联,进而变得可理解,乃至让原本“漂浮”在认知之外的概念被照见。这对提升AI的洞察力很有帮助。 -诗的用词往往高度压缩,这是诗歌的题材决定的。而高度压缩的提示词,往往更能提升AI表现的稳定性。 ii,厉害的人收集反馈,更厉害的人构建reward model。为什么?因为大部分反馈,你无法直接收集。 -“获得反馈”看起来很简单:问对方就行了。但真相是,人很少愿意直接告诉你“他的真实想法”。你需要考虑人性、设计结构,才能获得真实反馈。 -举例:获取投资人的反馈你跟投资人聊完创业项目后,询问他的反馈,对方说"挺好的,我们一定一定保持联系",请问这是投资人的真实想法吗?显然不是——你需要第三人(双方都相对信任的人),让他去询问和拿到反馈。这个第三人,就是你的reward model的核心(不是全部,而是核心,因为还有其他环节)。所以,好的FA(财务顾问)的价值不是牵线,而是协助创始人搭建整个融资过程的reward model,并成为其中的核心。 b)【重要】3种产品研发模式对比:Waterfall(瀑布流) vs Agile(敏捷) vs Vibe(氛围) hanniman评注:最后一行(Vibe)说的本质,就是先有「画面感」(然后不断去对齐之)。相关阅读:《“(LLM产品)评估”背后,再深一层和两层的关键能力,到底是什么》 c)【重要】美国人用 ChatGPT 的方式,与你想的不一样 i,不是电脑打字交流,而是在聊天时,会打开ChatGPT语音,一起参与对话。真正让 ChatGPT ,周活快速增长的原因,是它的原生语音功能——这让 ChatGPT 进入比电脑,更占用消费者时间的手机上,从而迅速地流行开来。推出高级语音功能后,从去年5月到今年3月,ChatGPT在全球的周活,从1个亿猛增到5个亿。用户每天花在 ChatGPT 的平均时间,已接近20分钟(增加了3倍)几个美国朋友,都非常喜欢 ChatGPT 的“记忆功能”,比如将重要朋友信息,加入「朋友清单」。 ii,而国内类似AI产品,都没有上线类似语音功能(也没重视);即使有,也是文字转语音(TTS),而不是像ChatGPT那样直接“语音端到端”的。  2、【最新案例】三则 a)【重要】数字歌手Yuri - 演绎AI原生MV「SURREAL(超现实)」(2分57秒视频)应该是目前的最高水平的AI视频作品了,整体制作了3个月(期间各家AI视频模型产品都迭代了好多)。综合使用了各种AI工具:可灵ai、Veo3、即梦ai、Vidu、海螺ai、Flux、ComfyUI、Midjourney(单账号跑了13000张图)。  hanniman评注:太牛了,作为非专业人士,我听(看)了后感觉很超预期(音乐非常好,画面也很精致+一致),而且几乎没有瑕疵。 b)占星App Starla:七天在美国获客43万,凭画“灵魂伴侣”图像出圈 i,产品理念与塔罗牌“异曲同工”:感应能量、和宇宙建立联系填写出生地、出生时间,便会生成专属星盘,开启自我认知、情绪洞察、关系理解的对话;感情、事业、情绪烦恼,用户向Starla询问,它会根据星盘信息回应;提供每日运势推送,可填朋友出生信息,看彼此星盘匹配度,探索“适合发展”的关系类型(知己、恋人等);“Voice Chat”功能:对话时,Starla以语音回应,营造“倾诉+聆听+回应”的陪伴体验,强化人-机情感连接。 ii,真正让Starla出圈的,是“soulmate”画像功能塔罗占卜测“正缘”,星盘分析“你的命定之人”,Starla用怀旧风素描,描绘“命定恋人”,匹配年轻用户想看“理想恋人”需求;将抽象的感情,投射到具体面孔,提供浪漫解释,更易引发年轻人转发、互动与分享;借助星盘,弱化“AI生图”存在感,使用户相信,画是宇宙的“回应”——关于理想关系、命定之人的答案;内购价格3.99-59.99美元,订阅月度Starla Pro(14.99美元/月),可体验完整功能(含画灵魂伴侣)。iii,Starla走红,揭示年轻用户对“确定感”的需求不是简单“讲星象”,而是借占星叙事,为用户展开“浪漫生活”的想象,在过程中给予心灵慰藉、情绪支持;占星类App提供:并非预言,而是更温柔的引导方式,是“情绪价值”的具象体现,未来会向更人性化、互动化演进。 iv,几类占卜产品比较Co–Star 主打冷静、简洁的文本叙述风,借NASA数据、AI算法生成个人星盘,风格偏理性分析;The Pattern 强调心理成长、人格建构;Starla更重人文表达,更像一位“随时在线的占星师朋友”。 c)独角兽ElevenLabs发布Eleven V3,支持70+语言(含中文)、多人对话,情感表现大幅提升(目前仍在内测阶段,API即将推出)  hanniman评注:大家一定要听下,原文里的这个宣传片效果。 i,通过音频标签、标点符号,来控制情绪表达。“实现了v2未能成功的情感表达”。情感表达标签:如[laughs](笑)、[whispers](耳语)、[sarcastic](讽刺)等,用于表达不同的情感和语气;音效标签:如[gunshot](枪声)、[applause](掌声)、[swallows](吞咽声)等,用于添加环境声音和效果;特殊标签:如[strong X accent](强调某口音)、[sings](唱歌)、[fart](放屁声)等,用于创意应用。具体用法:直接在文本中的合适位置插入即可。标点符号:省略号(增加停顿和强调)、大写字母(增强强调效果)。文本字符:超过250个(提示词过短,更容易导致输出不一致)。 ii,可上传参考音频,控制生成声音与原始参考音频的“接近程度”。Creative:情绪化、表现力更强,但容易产生幻觉;Natural:平衡且中性,最接近原始录音;Robust:高度稳定,但对方向性提示的反应较慢。支持切换70+种语言,但更适合英语语种,中文口音仍然很怪。  3、【重要】【行业动态】特斯拉车主集体变身老板?未来12个月即将爆发 a)特斯拉使用量产的Model Y作为运营车辆,依靠自身已经验证的自动驾驶系统,大大降低了运营Robotaxi的门槛,也能保证充足的车辆供应。哪怕只有10%的车主愿意(在空闲时间共享他们的车辆),也将迅速形成十万辆规模的庞大车队(快速超越Waymo等竞争对手,在过去十年所积累的优势)》更重要的是,车从此从“消费品”变为了“投资品”。 b)未来六个月将是关键观察期。需要密切关注,是否有交通事故发生、安全员能否移除,以及在奥斯汀和其他城市的服务扩张情况。是否有第三方、特别是个人的Model Y,被允许接入Robotaxi的服务网络。模式一旦验证成功,Model Y的销量暴涨将会成为必然。 c)特斯拉Robotaxi正式启动服务仅限受邀用户(首批试乘者,主要是知名社交媒体博主、科技内容创作者),以「固定价格」4.20 美元搭乘。未明确全面开放时间。严格限制覆盖区域(在地理围栏区域内,已有详细绘制地图),避开复杂场景(恶劣天气、高速公路、机场等),运营时间为6点-24点。当前版本,并非完全「无人监管」:「安全监控员」坐在副驾驶,遇到危险时,强制接管车辆;远程操作员,在特殊情况下(复杂路口或异常情况)介入;乘客也可按下按钮,等待远程接管(平均响应时间两分钟,通话信号较差)。试乘反馈:大部分表现「平稳」、「正常」,能应对日常城市驾驶的调头、减速带、行人和施工等,车速每小时 40 英里以下。  4、【重要】【产品视角】VAST创始人宋亚宸:3D走“模型即产品”路径行不通,VAST要做“3D的Cursor” hanniman评注:3D方向是未来超长期赛道,VAST这家公司,我一直有关注到(比如「AI日报_20241024」里第一条),大家今后如果需要内推,也可以联系我。 a)3D内容的特点 i,人对内容的需求,可看作一个十字象限强交互的重内容(右上):需全身心投入,如迪士尼乐园、原神、黑神话悟空。弱交互的重内容(左上):一直坐着看,如京剧、电影、长篇小说。弱交互的轻内容(左下):厕所读物,如短视频;短视频替代的不是电影,而是《故事会》这样的杂志。强交互的轻内容(右下):强调人与场景的交互;3D是最天然、最终极、唯一能“实时双向互动”的内容形式,信息密度最高、体验质量最好;从3D到直播、视频、图片、文字,都是降维。 ii,3D用户演变3D生成更像AI coding:先有大模型、底层的能力,服务专业或To B用户;再有AI工作流,替代传统管线,端到端产生完整、有价值的内容。这是反向泛化过程:从专业用户(Pro),到业余用户(Pro C),再到对3D没概念、但喜欢创作的点子大王(3D内容爱好者),最后才是普通消费者。 iii,一定是先诞生内容和平台,再催生专属硬件,而不是反过来(宋亚宸)小时候用MP3看小说,后来用MP4、小霸王学习机,直到Kindle出现,才有原生阅读体验。 b)VAST的3D发展路径 i,第一步:先做“模型即产品”3D生成跟AIGC应用不一样,可直接面向C端用户,无需复杂UI(用户界面)、UX(用户体验)。一开始就面对消费者,不是很奏效(给用户一个3D生成模型,甚至不懂它的格式、该用什么软件打开)。VAST早期尝试做3D内容平台,及AI编辑器,发现核心问题,是模型能力不够。 ii,第二步:做“一站式AI 3D工作台”(现阶段)整个行业可能都做错了,将3D生成,视为与文字、图片一样的“模型即产品”路径,是行不通的。原因在于:文字、图片、视频是UGC生态,创作门槛低(手机拍摄、P图),用户发内容是为了分享,“模型即产品”能让大众参与创作;而3D还处于PGC生态,创作是为了盈利,就不能走“模型即产品”的路线。 iii,第三步:做“3D美图秀秀”让所有人轻松、免费地实时3D创作;像剪映那样,设计丰富的模版,快捷生成高质量3D内容。 iv,第四步:做“3D抖音”分发内容3D现在看上去难理解,只是因为“3D抖音”还没出现;有了抖音、小红书后,短视频才变得如此熟悉。从千万专业用户(Pro),到数千万Pro C,再到数亿创作者,他们生产的内容,需分发给更多消费者。原来觉得5~10年,才能有“3D版抖音”;现在觉得3~5年就会出现。 c)VAST当前状态 i,发布全球首个“AI 3D工作台”Tripo Studio,上线一周付费率涨了4倍,系列模型Tripo也将更新至3.0Tripo生成80分的3D模型,Tripo Studio优化到95分,形成完整、可交互的3D内容;3D建模从人工15小时,缩短到6分钟。同时做模型、工作台,因为AI 3D发展太快:只做工作台,可能会被下版模型颠覆;只做大模型,很难接触创作者需求,不知道做精致的模型、合理的拓扑结构,还是更强的可控性。用户画像很像程序员,他们需要“3D的Cursor”,重塑传统制作流程;就像程序员用惯Cursor后,很难回去VS Code了。 ii,最深的壁垒,是认知更超前一开始大家对AI 3D生成没概念、或者不相信,所以VAST早期,能招到很优秀的人;创业公司、大厂最大的不同,就是先相信再看见。过去2年聚焦技术,做到行业SOTA水平,服务好了Pro用户;当时很多对手做产品化,在技术起步、差别很大时,是没意义的。今明2年,最重要的是产品化、工程化、商业化,服务Pro-c用户,因为3D技术发展很快,效果区分不再明显;VAST商业化很轻,只有2个销售,但有3.5万中小客户、700多家大客户。 iii,应用案例与《燕云十六声》合作,让玩家用AI 3D功能,改变地形和交互,如生成一座桥跨过河流。有开发者做了一个游戏,双方生成 3D 模型后进行对战,完全通过 prompt 操控,打赢的一方可缴获对方的模型(作为战利品),接着下一轮战斗。这个帖子发在 Reddit 上,吸引了十几万用户参与。一个委内瑞拉老师,用3D生成打印,给学生上STEAM课,从工业设计,到实际打印出玩具。 d)对于很多行业,3D都是基础设施和卡点(3D是非常长的跑道,长到很多人都不相信) i,工业领域多数人不会3D建模,导致3D打印行业,目标用户只有几千万;但3D生成,将市场拓展到几十亿人,VAST的技术,足够服务家用3D打印。3D的工业应用,不只有家用,还有首饰、鞋服、家居、玩具、手办、积木、灯具、文具、香薰蜡烛、食品包装等。它实现了2种模式:小单快返(用大量SKU做市场验证,再规模生产)、POD(用户表达需求,按需生产,如电商)。 ii,美术领域2019年做AI+动画、2020年做AI+游戏,发现:策划是创作乐趣,程序可以靠AI coding、模板化解决,最大的成本就是美术。XR被批评内容不足,因为几百万做的AR游戏,只能收回几十万。未来只有0.0001%的人,会做《黑神话:悟空》这样的游戏;99%的普通人,会随心所欲、做自己的游戏。 iii,动画和游戏领域2019 年,当时在商汤做 AI + 动画。原以为动画是个创意行业,后来发现其实是劳动密集型行业,很多人做着大量重复的工作(建模、绑骨骼)。很多八大美院毕业的人,毕设很震撼人心、充满情感,但工作后的作品,越来越流水化和平庸。2020 年做 AI + 游戏,也发现类似问题。游戏和视频的管线很像,策划对应文案和脚本,美术对应拍摄,程序对应剪辑。其中门槛最高的是美术资产,解决这个瓶颈,就有机会让人人参与创作。 e)关于创始人宋亚宸1997年出生;曾在商汤CEO办公室做战略、作为001参与创立MiniMax。从两岁开始就住校,很喜欢和人合作,容易看到别人的优点。高一学完数理化课程,后面选修哲学、世界史、神学等,开始研究宗教;学了希伯来语、阿拉伯语,了解犹太教、伊斯兰教,还在大三那年去了以色列。很小就会背《道德经》《金刚经》,读《三侠五义》,听单田芳、田连元的评书,暑假时甚至会去山里禅修,呆上一个月。在校期间我也经常不上课,跑到操场上看书。爱好真的很多,比如旅游(去过百慕大、格鲁吉亚、摩洛哥、古巴)、国际象棋(拿过同年龄段的个人世界第八、团队第三),但游戏绝对是最大的爱好。“我是一个非常需要虚拟世界的人。得有一个'跟现实世界完全不同'的世界。”能力之外,招人过程中不喜欢什么样的人?讲话不直接的人。大家都很聪明,说话不直接就是不尊重我,觉得我的智商不足以理解。我接受批评,但不接受拐弯抹角。 hanniman评注:看一个人,要看他的源头和基因。宋亚宸的这种背景,是很多人(包括我)会喜欢和认可的。 f)关于VAST成立于2023年3月,近期完成数千万美元 Pre A+ 轮融资,由北京市人工智能产业投资基金领投,靖亚资本跟投。VAST 的 Slogan 是 “为世界进文明,为人类造幸福”(来源李大钊)。快速融大量的钱,不一定是好事,有非常多资源,就不会聚焦;宁可 “笨”(动作缓慢,在一些地方落后),也不要 “蠢”(乱动,看到机会就随便尝试,结果浪费资源,破坏团队信任,很难修复)。  5、【重要】【技术视角】张祥雨:多模态的未来在推理和自主学习,GPT-4时刻将在1年内到来(2小时25分钟播客) a)把模型从大做小,思路非常不一样很多时候,模型架构没有用,尤其对于大模型来说,架构设计,更多的是针对大方向,只要大方向对了(比如使用ResNet),里面的层间如何连接,效果差别不大。一旦把计算quota变小,放到端侧,这时模型架构细节设计,就变得非常重要,尤其对于不同的硬件设备,它的执行效果和效率,都有很大不同。 b)2019年起,NLP和CV的进展对比 i,CV落后于NLP的核心原因:无法数据驱动最初的NLP和CV,都需要依赖人工,标一大批label,这样就永远无法scale up。但BERT通过上游task(MLM和NSP),实现了无须label的无限扩展,且数据越多,就越可学到更强的表征,且下游task做得更好。而GPT更进一步,还可以通过in context建模,统一很多下游的task。这样NLP的路完全打通了。而CV中的对比学习和MiM,只在小模型上有效。原因是,对比学习依赖Data Augmentation(人工赋予“不变性”),MiM仅学习“遮挡不变性”。这样学到的“不变性”,不是data-riven的,而是完全handcrafted的。结论:NLP 为什么能够 work?因为它真正做到learn from data,有越高质量的语料,模型就可学习其中关联性,建模联合分布,通过压缩学到更多的知识。而CV依赖人工设计“不变性”,当然没有scale up的效果,因为只需少量 data,就可以让模型学会,然后就没有信息增量了。 ii,生成、理解、和对齐,NLP做到了合三为一,而CV难以兼容对于自然语言数据,它的生成在GPT框架下,生成、理解和人类对齐这三件事是合三为一的。因为GPT架构,给定前文、输出后文时,前文一定会影响(后文的)条件概率,改变后文分布,输出与前文匹配的文字。这其实就是一种理解,因为可以通过一些 Prompt 约束、任意对前文提问。同时,它的预训练语料,都是人类自然的语料,其建模分布,当然与人类对齐。反观图像数据集,为其建模的生存模型,无法做理解。因为建模的是数据集中,图像每一个Pixel之间的联合分布。这种建模,可以有无数种方式,不一定符合“人类对图像的理解方式”。图像来自于大自然,人类如何理解这个信息,并不蕴含在这张图上。为视觉智能,构思的两个方向:短期内,可以实现视觉和语言的对齐,因为互联网中,存在许多图文交错数据(但这类语料的bias很显著、局限性也很大,且理解和生成做不到1+1 > 2);长期来看,还是要通过视频、甚至具身系统,来挖掘视觉智能的可能性(一些非常细节的视觉过程,尤其是物理运动数据,更多还是在视频里)。 c)NTP(Next Token Prediction)的缺陷一般认为,随着数据和参数扩大,模型能力应全方位增长。但后来发现,模型的通用对话能力(尤其是情商)和知识量,确实是模型越大越强,但推理能力(尤其是数学这种局部推理能力),表现为先上升再平稳,扩大到一定程度,反而下降。原因:NTP是对输入数据,进行联合概率建模,即模型通过对自身压缩(依据信息论),获得智能。但数学问题上,更大的压缩率,未必对应更高的计算精度。小模型因为参数量有限,处理不了复杂的函数,难以拟合出“直接输出结果的情况”,只能一步步输出。小模型一步步计算(都是一些简单的数学运算)几乎不会错,大模型就倾向于一步报出答案(总会有几率出错)。NTP的本质:即behavior cloning,天生容易OOD(Out-of-Distribution)、陷入一个没见过的环境,导致出现幻觉。但引入RL,能解决该问题——RL跳出了拟合分布的范畴,直达最终目标,不管中间怎么做,只要把目标做对就行。 d)o1范式最了不起的一点,就是引入了反思o1的RL,与传统RL差别极大。原因在于,LLM有很重的pre-training,极大地压缩了动作空间——对于一个4000-5000长度的输出序列,可能只有不超过10个关键的decision分支,会影响最终结果。但在很多情况下,难以使用一个token,来决策好走哪个分支。因为transformer的单步处理复杂度,上限是O(n),所以若操作复杂度超过 O(n),就很难通过单token解决。对应的思路:如果允许它两条分支都走(其实就是引入反思),不就解决了?那为何RL不能自己激发反思?因为预训练数据中(例如解题),人类绝大多数情况,都只给出正确解题过程,而不会写下来错误、或者走弯路的过程。o1范式启发了,可以用其他的一些方式(比如冷启动),将反思的pattern,重新注入回action space。使得模型在critical token的地方,可尝试不同分支——选择一个分支走到底,意识到不对可以反悔,有一条反向边连回来,接着之前的critical token继续搜索,从而解决问题。这本质上,是Meta COT,能让模型在多种 CoT pattern 之间自由切换,进行排列组合,解决更复杂的网状问题。 f)多模态模型的效果瓶颈:复杂度和CoT图像生成可控性差,根本原因还是复杂度问题(生成要考虑的因素太多),被语言模型已经甩了两代,不仅没有 Meta CoT,连CoT 都还没有。试图给模型增加action space:教模型数数、走迷宫等,但仍无法像o1一样泛化——造什么数据只能解什么问题。究其原因,是预训练中,没有类似pattern。RL不能无中生有,所有知识和能力,需要预训练语料中有分布。多模态训练在理论上,能提升语义理解和控制能力。但如果如果不解决CoT、复杂度问题,则会产生错乱gradient,导致模型智商降低。 h)未来多模态发展的两条路径:扩充预训练语料(加入视频)、扩展动作空间扩充预训练语料:例如教学视频中,有非常丰富的思考过程,尤其是老师上课视频,有激光笔指、打草稿、连辅助线等过程,如果把这些丰富的过程,引入预训练,肯定大有好处,这是一条比较有确定的路线。扩展动作空间:原图编辑是一种方式,最具吸引力的是自由、高可控生成。一旦能自由生成,COT就不再局限于原图,而是可以把任何文字描述,都具象化为图像,再进行推理,这样视觉推理能更上一层。这一切的关键,都在于把数据的纯度和难度,控制好。 i)Long Context,只是在应用上重要,而不是越长越好 i,在应用上重要的原因应用中有海量参考信息,模型的输出,要符合具体环境。把尽可能多的参考资料给模型,可以降低幻觉 ii,为什么Context不是越长越好人类在一场会议后,大部分人只会记录重点,而非桌上水杯数量。而Transformer,不会对Context做任何的压缩或裁剪,因此目前的主流架构,尤其是小模型,随着context 增长,模型性能会下降,很大原因在于context干扰。压缩产生智能,信息如果不加工压缩,无法提炼精炼表示,就无法产生智能。 iii,Long Context的替代方案:Multi-Agent一个模型负责规划(plan),一个模型负责推理执行。执行模型不保留历史信息,只接收规划模型的摘要指令,结果通过RL-CoT方式端到端训练,使整个系统自适应。 j)大模型演进的核心:两根轴横轴是底层算法/优化方法,纵轴是模态。优化算法的从0-1的代表性的事件,是NTP的发现,模态的起点则是自然语言。目前,仍在挖掘RL算法的上限。 k)现有RL的局限性 i,RL基于规则,缺乏内生动力对于人类来说,关于自我价值的认知、正确性的判断,更多是靠人脑自己,人并不是每一件事,都是服务于 KPI 的。人有自我意识和自驱力在,评价不应该来自外界。但现在RL中,rule-based都是外界的,训练中的reward model也是外界的,就是逆强化学习,蒸馏了外界的偏好,来监督自己,缺少真正的内生动力。工程实践中发现,如果一直沿着rule-based方法走下去,又会重新遇到scaling问题——environment scaling。比如说解编程问题,一个project就得搭一个环境,将一整套Docker、输入输出、和测试数据都配起来,结果就产生了一条数据,效率太低。 ii,RL丢失了评价维度的丰富性例如写作文,老师会从很多不同的维度,做出评价(例如逐段、整体评价等等)。但RL会将每个评价加权,得到加权后的评分,完全丢失了评价维度的丰富性。加权评分数字,模型根本不懂怎么算,只能通过大量的样本,去猜打分规则,这样很低效。模型还要猜每一块的打分要素,比如是根据第几段打的分,还是整体风格等,这些信息全都丢失了。 l)自主学习的两个技术核心无限长上下文建模:真实世界是“非静态的无限序列”。需要memory + long-context表征机制,才能构建“连续世界感知”。 学习算法:从自然语言、或者非结构化反馈中,来提升自己,及如何设计“内生奖励模型”,驱使模型更新参数,抽象出高质量、多维度的奖励信号。自主学习一旦实现,就自然演化为在线学习:模型处于不断交互与更新状态,而非离线训练完就封装  m)其它NTP不仅要人来给目标(Answer),还要人给方法(CoT);现在的RL,只需给模型一个目标,模型自己去实现;而自主学习,是让模型自己去找目标,自己来学习价值。所以OpenAI的Agent是能够独立工作、自我进化的,与现在堆叠pipeline的Agent大不相同。李飞飞和LeCun不提“生成理解一体化”,因为生成不是必须。人身上没有视觉生成器官。人可以在脑中想象未来,但未必要画。但是世界模型要怎么训练,现在来看靠生成式来训练。因为人类虽不能生成视觉,但脑中有世界模型,可以想象未来,而且生成,是最好的一种监督模式。
文章预览
阅读全文
2025-07-31 10:19
免费

试读【AI日报_2025年5月】

注:「黄钊的AI日报」,每天5条内容点。以下示例,来自5月份内,不同日期的AI日报。  1、【重要】【产品视角】YouWare创始人明超平:AI产品核心,在token消耗和单token价值;vibe coding核心在社区,而不仅是工具——现有容器已不匹配 a)判断AI产品的价值,要看token i,token消耗加速还是放缓,是否最大化利用智能红利好的公司,必须在技术周期内,被主流趋势赋能,如苹果压榨摩尔定律,字节以短视频形态,逼近移动互联网带宽极限。互联网产品追求“可控”,做“20%AI+80%工程”,能被模型杠杆的部分少;觉得模型输出不够好,套模版、框架提升效果,脱离了“智能不断提升”的时代趋势。Canva的 vibe coding功能,本质是选模版,意味着Canva可能被颠覆。 ii,单个token的价值(value per token)很多Agent产品存在浪费:debug、尝试各种路径的时间、算力空耗;大部分Agent,一次只能解决“一个人的一个问题”,没法复用。智能转为代码,是token价值最大化路径:代码可复制(高价值商品)、是模型擅长输出的内容(各国人写的代码都一样,信息熵低、表达标准统一、验证成本低)。社区能放大单token价值:vibe coding作品放到社区,能被复用,还能激发他人创作欲望,实现指数级扩散。AI coding 一定会解锁新的 Snapchat、Instagram、YouTube 和 TikTok。 b)YouWare想做vibe coder社区,激发普通人coding创作欲望 i,coding正成为新的创作方式不少人在Twitter,录屏分享Grok3写的游戏;录屏对创作者、消费者双输,它不能交互,无法完整传达coding创意、效果。新内容创作形式,与Twitter等旧容器已不匹配;新机会,不是贴一段HTML、本地跑程序,而是用URL链接让别人体验。照相机诞生,非但没有取代绘画,艺术还变得多样(抽象派、野兽派);coding本质是灵活呈现信息,结合AI、多模态,会出现更多形态。 ii,coding创作的机会Instagram抓住了两大信号:一是手机摄像头普及,抓住“手机摄影师”的浪潮;二是创建社区、提供“滤镜”美化,促使人们分享照片。vibe coding也一样,很多人在做coding的“摄像头”(Anthropic、OpenAI、Google),但更大的机会,在于承接这波新创作者(设计师、PM等)。我脑海里的终极 coding,不再是人在写代码,而是人在做挑选。未来生成代码的时间,可能和打开网页的时间差不多(200、300 毫秒)。网页不再是写好的,而是实时生成的。 iii,YouWare做 Vibe coder's community(氛围编程者的社区),提供创作环境Vibe coder 是那些不会写代码,但有创作欲和创造力的非开发者——比如设计师、产品经理。我一直在服务创作者,而今天的新创作方式就是 coding。如何激发这类创作?《福格行为模型》的总结依然有效:动机、能力、触发器。太多AI产品提供能力(简单的对话框,指望用户自由发挥,但组织语言很费劲,多数人是懵的),而YouWare想激发“动机”和“触发器”。用户行为和创作行为,本质是环境,而非工具决定的;同一个人,去大排档和高档餐厅,行为模式截然不同。当你看到,有人一天能 prompt 500 多次、boost 60 多次,花很久做一个网页时,你知道,这件事开始了。 hanniman评注:如同前天晚上,我在星球直播里提到的,环境(以及关系),即边界。(2小时视频回放,已发星球) iv,需要有一个东西,点燃普通人的创作欲。点燃的方式,是找到那个有 go viral(病毒传播)潜力的 “神奇品类”,就像 Musical.ly 最早的 “对口型”。团队在这方面有优势:对内容敏感(能造出一些爆款),已经在持续观测用户,并可更快复制和放大爆款。而 CodePen 这种社区,更多是服务程序员和极客,并不是从 UGC 的角度去找 “对口型时刻” 或 “滤镜时刻”。 v,竞争情况不觉得Cursor会做coding创作社区,这是由创始人决定的,他熟悉程序员,而我(明超平)理解创作者的痛点、乐趣。B站、小红书、贴吧曾经是社区(基于共同兴趣、价值观,一起交流、创作),今天已是内容平台(效率导向,让生产、分发、消费内容成本更低)。如果未来变成一个平台,能让释放创意变得更快、更好,我一定会做。 vi,商业模式(计划大头来自广告,订阅摊平token成本)第一阶段:充当广告商,用knot(YouWare官方广告费)激励创作。第二阶段:官方广告费、三方广告费平摊给作者。第三阶段:纯粹靠三方广告激励;大概率会设置开关,若愿意加广告,会定向匹配,收益可能100%给创作者。 c)未来有两种Agent:调度别人的,和被调度的 i,未来会形成Agents网络有三重网络效应:人和人、人和Agent、Agent和Agent;每个人都有自己的Agent,帮用户与几百万Agents通讯(Google在推进A2A协议)。网络价值巨大:Agents节点很多、Agents间通讯带宽远超人类,网络价值与“节点数的平方”成正比。 ii,两类Agent调度型:本质像OS,直接面向用户;OpenAI、Anthropic、Gemini可能都做不到,因为硬件端,还是被苹果等公司掌握。被调度型:完成具体任务,搜索里的page rank可能变成Agent Rank。被调度的Agent有两种模式:最好的Agent,服务少数、想要极致效果的用户(如苹果);80分效果的Agent,服务更多用户,在成本、效果、速度间平衡,有差异化经验。 d)关于明超平2018年武汉大学毕业(自动化系),有3段产品经历(一加做手机影像;字节做剪映App;月之暗面做Noisee、Kimi浏览器插件),横跨硬件、软件、互联网和AI。偏直觉型。不相信绝对理性,“理性是对感性的说服”。……但也重视“用科学方式做产品”(产品会有一部分偏艺术或感性的东西,但至少六、七成,完全可以被科学化)。字节的冲击,是庞大的组织、高效交付结果、质量都在80分以上,系统能力惊人,但也会抹灭天才;Kimi的冲击,是天才密度高,脑速快、语速快。判断模型进化方向和节奏的方法是什么?看 paper 和聊人——主要是聊人,95% 是做算法,带着问题去请教他们(paper 上没看懂的、产品设计中的问题、或者单纯想知道他们最近在研究什么)。戴雨森说,明超平是那种野心大,ego(自我)小的创始人。 e)其他柳宗理传记里有一句话:“日本设计师,终于可以做自己了”(从 copy 欧美设计到原创)。我(明超平)读到这句时特别震撼,我说今天中国团队,也可以做自己了。自行车竞速中,何时是超车的最好时机?有人以为是下坡,其实是上坡,在巨难的坡到来时,拼爆发力、速度、耐力,最容易拉开差距。在一加做过一个产品,提醒用户散步、别一直看手机等,背后有傲慢和评判;苹果只展示事实(屏幕使用时间),比评价用户更高明。大家从不同角度解读AGI——俯拍、仰拍;字节可以用徕卡拍(资源多)、我们(创业公司)用手机拍,最后不是设备决定结果,而是什么时间、什么位置按下快门。 hanniman评注:本文能看出,明超平有非常不错的深度认知,而且有很多“心”的层面的东西,比如画面感、“直冒冷汗”、“悟了”、“要好玩”等细节,后续一定要重点关注他及其产品。  2、【最新案例】AI视频:用短动画的方式,讲述文艺复兴的历史(1分31秒) 视频链接,需在微信客户端打开:https://mp.weixin.qq.com/s/11JgbtTmR9Jc6HjxVv1uKQ或微信扫描下图二维码—— 这是Google 实验性产品 Sparkify(基于最新Gemini和Veo模型)——将用户问题或复杂概念知识,一键生成短动画视频(含旁边讲解)。适合场景:教育(将知识点可视化)、创意(快速呈现想法)、学习(将复杂概念转化为直观动画)。官网链接在这里(需能上外网),可加入候补名单排队。 hanniman评注:Sparkify这个产品创意和形态,是有让人眼前一亮的,非常不错~  3、【资源/工具】扣子空间,上线AI播客 a)生成可视化播客:网页+音频+字幕无需添加MCP或用插件。上传文件素材或提供链接,输入Prompt(推荐使用:“根据____,生成____分钟的双人播客,然后输出一个音频文件。”),几分钟后生成内容。可直接点击链接下载。之前还要邀请码,现已全量开放。(体验地址) b)效果评价第一反应,震撼(生成的声音真实、流畅);第二反应,恐惧(效果似乎已越过某个阈值,打破人机声音之间的“壁”);最后,兴奋(创作者们,能摆脱声音内容生产的桎梏了)。比NotebookLM的中文,效果更好(不会过于朗诵腔)。时长,基本在5分钟以内。可能是因为算力,做了限制。  4、【重要】【最新案例】少儿人机共生挑战:为身边的老人解决问题 a)身边的问题、当下可解决——这两个特性,能带来意义感。本次活动主题:AI与老年友好(孩子们在 AI 的帮助下,为自己的爷爷奶奶做点儿事)具体分为8个频道:  b)具体案例 hanniman评注:下面几个案例,从场景需求捕捉来说,都是非常有闪光点的;某种角度可以说,产品sense和年龄无关,而是取决于“心”的单纯、善良和敏锐度。 i,“祖孙词汇交换”游戏:每代人,有独属于自己的词汇;交换词汇(大三件、v我50),可了解不同的时代故事。 ii,用游戏来鼓励老人们多锻炼:老年人越怕摔越不锻炼、肌肉萎缩就越容易摔;通过游戏(拖鞋绑micro:bit板,踮脚尖运动的同时,玩flappy bird),增加康复训练趣味性。  iii,智能冰箱:提醒食品临期、根据健康状况推荐菜谱,能用自己的声音做智能体,提醒爷爷奶奶,一个人在家也要好好吃饭。  iv,从摩天轮中吸取灵感设计的置物架,能让老人不用登高就能取物。  v,其他智能眼镜:告诉阿兹海默老人,眼前的人是谁(专家建议:不一定“告诉老人这是谁”,而是变成温柔的陪伴者,说“你女儿来啦,她穿着你喜欢的蓝色衣服”)。让年轻人和老人搭伙吃饭的平台。……  5、【技术视角】港大马毅:智能的本质是学习,大模型还在DNA阶段,没有闭环机制、并非真正在推理 a)生命是智能的载体,智能的本质是“学习” i,生物智能,经历了4个发展阶段阶段一(40亿年前):DNA记录外部世界规律,物种通过遗传变异、自然选择进化,整体上跟环境形成闭环;DNA是最早的大模型。阶段二(近5亿年):生物出现视觉、神经系统,形成记忆,物体可以自己“fine-tuning”了,逐渐摆脱DNA依赖,更重视亲代传授、后天记忆、特殊环境所学。阶段三(人出现后):语言文字,极大提升知识传递效率,但这些知识,只是物理世界的小部分。阶段四(300年前):数学和科学产生,能对外部规律高度概括、抽象、凝练,科学能被证实或证伪、不断改进;这种抽象背后的机制,仍是个谜。 ii,这4种机制是叠加、并存的关系,后期智能,并未取代早期智能。 iii,智能始终在做一件事,就是“学习”对世界知识做编码,抽取规律、结构,进而预测外部世界;整个宇宙在熵增,世界越来越混乱,而生命则是熵减的。所有高级动物,都靠闭环反馈来纠错、学习、提升决策能力,这是自然界的选择,它不是“某种方向”,而可能是唯一的方向。 b)大模型还没有智能 i,没有闭环反馈机制大模型还在DNA阶段,训好一版后不能自己迭代,要人来微调或重训一版。知识不是智能,而是智能活动的结果;大模型只有静态知识,没有动物那样自主纠错、适应环境、产生个体记忆、不断修正的能力。端对端的开环系统,只能应对封闭世界,不管模型多大,也不能自我改进;VLA把感知、视觉、语言和动作整合在一起,能提升机器人性能,但未必是最高效的方式。 ii,模型没有真正在“推理”逻辑能力分3层:模仿、理解并严谨运用、抽象出新规律。没有严格证据显示,模型在使用逻辑:在训练过的题上,模型能解决奥数级问题,但同一个模型,又做不对小学数学问题。CoT仍需要人协助生成:专家手工写思考过程,供模型学习;或基于基础模型,用prompt引导它生成CoT。 c)工业界智能现状 i,深度学习缺乏“第一性原理”,智能的目的、学习机制都不明确,但有2条线索从生物学获取灵感:如单神经元建模、神经元排列方式、卷积结构、大脑皮层组织方式等。工程优化:不断试错、改进模型结构,期间诞生了大量结构,不少已湮灭在历史里,像早期生命进化。 ii,以试错为主的方法,存在运气成分新进展、新框架的提出,往往不是团队“系统性推进”的结果,而是随机“乱开炮”(一会打这、一会打那;一会DeepMind、一会OpenAI),进步依靠经验和资源,而非系统规律。大模型的护城河,不在方法技术,而在数据、算法,试错时间、成本和经验,所以开源迟早会超过闭源。预训练边际收益递减(Grok-3用了20万张卡,只提升1%;GPT-5现在还没出来);基因突变、自然选择走了30亿年,大模型也卡在低效演化里。 iii,AI 现在还是一个黑盒,一部分人觉得很难搞明白,另一部分人会利用它的模糊性炒作(或制造恐惧)。迷信是这么产生的,(某些)权力也是这么产生的。 d)学术界现状 i,学术圈也有 “回音壁效应”,多数人相信当下主流,不愿花精力理解新 “杂音”Hinton前30年没什么存在感,他的信心,不来自找到正确答案,而是知道,自己提出了对的问题。很多人觉得当前方法,就是通向AGI的大道,但新发现还会出现,那些没被看到的东西,未来会颠覆认识。 ii,学术“品位”不仅是一种认知,也是认知被挑战时,能继续坚持的自信。
文章预览
阅读全文