注:「黄钊的AI日报」,每天5条内容点。以下5条示例,分别来自3月27号、4月1号、4月8号、4月22号和4月1号的AI日报。
1、【重要】【技术视角】817样本激发7倍推理性能,「少即是多」挑战RL Scaling范式
a)上交大最新研究LIMO(Less Is More for Reasoning),仅用817条精心设计的样本,借助监督微调,全面超越十万量级模型
数学推理:在AIME24、MATH500测试中,准确率达57.1%、94.8%,超越QwQ(50%、89.8%)和o1-preview(44.6%、85.5%)。
泛化能力:LIMO数据集不含中文,高考数学测试正确率,达到81%;不是简单记忆训练数据,而是掌握数学推理本质。
反思能力:推理过程使用“等一下”、“也许”、“因此”等过渡词,进行自我验证,在长链推理中,保持高度准确性。
b)大模型的推理能力,本质上是 "潜伏" 、而非 "缺失" 的。
当下,以 DeepSeek-R1 为代表的 RL Scaling 方法逐渐成为主流,LIMO 研究的意义则在于,提供了一个更加本质的视角:大模型的推理能力,本身是内在存在的,关键挑战在于,如何找到最优的激活路径。
挑战了 “更大数据 = 更强推理” 的传统认知。一种全新的研究范式:从“训练新能力”转向“激活潜在能力”。
大模型的(数学能)力,或许一直都在,关键在于如何唤醒它。
hanniman评注:本文价值巨大,但99%的从业者会miss(即使认可、也不知道如何实操)。
是否相信“大模型的推理能力,本质上是 "潜伏" 、而非 "缺失" 的”?。2周前,在星球推送文章【重要】《也许AI在深度上,已经能够做到95分位了,而不仅是常规“以为”的7、80分位_20250313》里,已提前捕捉到这点。
如何实操?2个月前,在【重要】《李继刚的价值被“严重低估”了_20250114》一文,已说明其中本质。
c)LIMO如何实现
i,「少即是多」理念,来自2023年LIMA(Less Is More for Alignment),用1000条高质量数据,让LLM对话符合人类偏好。但要想扩展到数学推理,明显更难,关键问题是:「少即是多」原则,能否适用于推理?LIMO 的研究给出了肯定的答案,并揭示了,实现这一突破的两个核心前提:
知识基础革命(Llama3数学推理训练数据,达3.7万亿token,LLM早已知道大量数学知识)。
推理计算革命(CoT长度,与推理能力密切相关;与其训练时硬灌数据,不如推理时,提供优质问题与示范,让模型自主展开思考)。
ii,LIMO的三大关键
推理链质量(决定性影响):高质量推理链,要逻辑清晰、步骤完整,包含自我验证;低质量推理链,简单列举步骤,缺乏详细逻辑推导。
问题难度(激发潜力):复杂问题,需要更长的推理链、更深入的知识整合,将迫使模型,充分利用预训练知识。
预训练知识(基础):预训练有大量知识,少量高质量示例,就能激活推理;预训练知识不足,大量微调效果也有限(预训练数据质量、多样性为关键)。
hanniman评注:最后这3点,也很重要。
2、【最新案例】魂旅,一款AI云旅游电台APP
a)产品介绍
适合当下不方便旅游,又憧憬远方和自由的人。
体验流程:指定旅游目的地->选载具(自行车/摩托车/房车)->APP根据“载具移动速度”,判断“用户分身”到哪里->提供身临其境的体验:获取路途信息(景点/天气等),用AI编故事(以“后台背景音”形式播报);提供(附近可获取的)FM电台;模拟天气/载具的背景音。
达到“身在工位,魂游万里”的效果。
b)通过核心限制,获得更强的正反馈(路途中的惊喜、到达目的地),“好像我就在那个世界生活过”。
核心限制是,不能有“超人体验”(即无法瞬移),会碰到堵车等。若马上得到结果,路途的意义,就消失了。
用户消费的,不是目的地,是(和现在生活不同的)差异感。这需要,世界的真实感,来维持。
c)未来功能规划(来自用户诉求),聚焦“拟真感”
内容丰富度:可(看/主动上传)当地图片、沿途风景;拓展世界地图(将很快上线);随机触发(与街边老人的)聊天,了解当地故事/八卦;遇见名人,产生趣事。
交通细节:更多交通方式(瓦罐车/小米SU7/保时捷等);更改出发点飞机票;暂停泊车/中途休息;交通状况拟真(堵车/服务区);街溜探索模式(无固定目的地时,支持用户选择“闲逛范围”,找寻景点播报)。
个性化/成就收集:增加打卡点(支持收藏地点、足迹地图);沿途收集特色特产、各类勋章;留下纸条,供其他人发掘。
功能性提升:定时关闭(能听着睡觉);实时活动;小组件显示“行车位置”;行车风噪;横屏全屏;3D地图支持。
陪伴体验:AI聊天搭子(是一同的乘客,不是导游);定制音色+播报风格;真人组队旅游;好友所在位置和头像。
d)产品背后的创作者:海玮,喜欢做有趣的产品,个人blog。
i,概述:
前创业者:大学创办过年流水200w的公司。曾拿过种子轮投资、天使轮投资意向。
副业佬:从0到1经营了多款产品,其中有2款跨过10万级用户量的产品。
产品经理:职业生涯未经历过大厂,一直在垂直行业的龙头公司做1到10。
ii,做了很多AI相关产品,对AI和用户的交叉点比较敏感
有挂:使用自然语言+AI,对互联网上的所有网页进行编程,可掌控任何在你电脑上查看的网页,上线一周新增5千用户。
马大哈翻译:将中文网页当中的某个词抽出,然后用AI基于语境,直接将那个词在转化为英文单词,帮助用户在电脑环境下学习英语,目前日活1千。
mbtAI百科:mbti工具+AI报告,MBTI届的“测测星座”。商业模式是通过mbti文献库,用AI生成各种报告让用户解锁。已实现兼职状态下的盈利,最高月营收2w+,矩阵用户加起来34万。
Tars:察言观色的AI管家,通过屏幕语义识别,自动生成任务从而摆脱输入框。获得即刻ai黑客松30万美金投资意向。
hanniman评注:这个创业者,值得关注下。能持续创造出这种产品,不简单。
3、【重要】【产品视角】第一个投资王兴兴的人,是极客公园的张鹏——背后的故事及核心认知
a)缘起:
2015年,张鹏去MIT的实验室里,看过「机器猎豹」,非常“前沿科技”的感觉;
但2017年,在一篇文章里,张鹏看到一个中国团队(王兴兴),做出的东西,竟然非常成型、运动姿态顺畅、整体简洁,产品化的取向也很清晰了,就觉得很吃惊。
隔了个三四天,张鹏就飞到杭州去见他了。
hanniman评注:这个细节,大家如果直接看原文,99%会miss掉背后的关键的。表面看,只是“张鹏看到文章后,飞到杭州去见王兴兴”了,但一般人,是做不到这个程度的,因为缺乏以下几个方面的积累
i,张鹏有意识的,让自己“站到行业最前沿”(去MIT实验室参观),有这种体感,才可能在2年后、第一次看到王兴兴团队产品时,“足够”吃惊,以致于有动力去见他。
ii,在看到不同的时候(2015 MIT 机器猎豹、2017 王兴兴 产品视频),有洞察力和认知深度和专业度,去看出里面的巨大区别(非常成型、运动姿态顺畅、整体简洁,产品化的取向也很清晰了)——这个,也不是普通认知的人,能看出来的
iii,想见王兴兴,就能很快touch到——这个链接能力,也是需要有长期(5~10年以上)的行业人脉积累的。
iv,最微妙而关键的细节来了——“隔了三四天”,他就飞去杭州见王兴兴了。
99%的人,即使有念头(想去见),但也会一直拖延,或者给自己一个合理的借口(比如等下次去杭州时,再见他);
但真正重要的是,如果某件事真的有价值,就应该单独为了这件事,而耗费时间和机票成本。——如果你真的知道,这件事真的极度重要的话。
这个行为,甚至能成为某种反向check指标;如果你能做过1次这种事,那么说明你就已经很牛了。
b)2017年,张鹏第一个投资王兴兴的逻辑
i,在那个时刻做机器人,他是一个“人事匹配”的人。
他脑子里没有那些宏大的故事,不是讲黑暗后的光明,而是在意“光明之前的黑暗”。
比如对于机器人领域的发展节奏和预期,张鹏会说,某个技术卡点,是不是过几年就不是问题了,但王兴兴会很严谨地说,如果要突破的话,可能要先解决什么样的问题。张鹏说,那这个问题,是不是很快能解决,王兴兴会说,要解决这个问题背后,其实还有什么问题要先解决。
会感觉到,他对「未来战场」的每一寸,都有自己的基础认知,这挺不容易。毕竟他非常年轻,才工作过两三个月。这种与年龄不符的积累,表明他对这个领域有热爱和足够的专注,肯定投入了大量时间。否则,他不会在这么多细微之处都如此严谨,点出关键问题。
ii,有他的「技术审美」
机器狗的造型和简洁度,做得很好,显然真是花了一些心思的;比如看不到很多到处乱飞的线,对一些零件技术指标的要求等小细节。
看似学生,但也有理科生的浪漫,比如第一代机器狗产品叫「莱卡」,那是第一只替人类探索太空的小狗的名字——这些,张鹏能感受到。
iii,认可宇树的技术路线:电驱肯定是趋势,而不是当时酷炫的液压路线。
iv,一直很坚持的商业化策略:不碰C端市场、不做2B项目,而是选择科研市场。
越是技术的婴儿期,就越要「喝奶」,而不是「吃糠咽菜」。
c)极客公园,作为「非典型投资机构」的底层逻辑和价值
i,背景:
2013年,很多人还看不出张一鸣的价值,张鹏就天天跟别人推荐,说他特厉害。
2014年,张鹏就把马斯克请到中国,那可能是他第一次来,还让张一鸣跟马斯克同台,说这两人未来都很牛。
即,他本身已有这种认知能力和成功案例。后来,其他人会建议他来做投资业务。
ii,极客公园,不是典型的投资机构,它还是个社区,投资只是社区里、帮助创业者的一种能力。
社区,中心点是人,而不只是以信息获取流量,那么他的核心资产,不是流量和注意力,是一个一个面目清晰的创业者。
这样,你也有机会长期观察一个人,跟他建立更深入的交流,更看懂一个人;通过他们,也能更清晰地了解技术和商业趋势,做出更好的人和事的判断。
到了这个节点,可以通过投资来验证你认知和判断了。
成立早期基金,算是补上了社区的一个基础能力拼图,也是系统能力的一个延伸,能给社区反哺更大价值。
iii,跟其他基金的区别?
「Founders backing Founders」,创始人帮助创始人。
基金的 LP 主体,主要就是社区里的优秀创业者。用创业者的钱,再去投新的创业者,而且还会投入很多时间去帮忙
mission:生生不息地发现优秀创新者,成为他们的伙伴,共同创造价值。
iv,下图,2017年12月3日,极客下午茶
当时背景,是张鹏可以为了帮王兴兴,创造他认识大佬的机会。
左起:陈华(唱吧),米雯娟(vipkid),张鹏,雷军,周源(知乎),王兴,王兴兴

d)其他
新一代(想有巨大成就的)创业者的使命是,去提升、穿透天花板,而不是贴近天花板。
在黑暗的洞穴找路,是趴在地上,用整个身体感知地面,用每个毛孔感受风向,才能判断往哪走。这不是蹦蹦跳跳、快快乐乐就能跑出来的。
商业化:“沿途下蛋”可能有陷阱,更应该变成“找到前进的阶梯”。
4、【资源/工具】秘塔AI「学习」功能:文件/链接(支持除mobi外其他所有格式)→B站UP的定制课程视频
使用路径:点击右上角蓝条,切换新功能,或点击 https://metaso.cn/study 进入。
实现方式:输入(用户知识水平、目标、兴趣)→模型生成(讲解逻辑、语言风格、表达节奏)→输出(课程PPT + 对应讲稿 + 可交互答疑)。
角色转换:AI个性教学,找资料→找人格。辅助型工具→主讲型角色,甚至可塑造不同性格、风格人格。
hanniman评注:有团员反馈,体验超预期,“大为震撼”、“秘塔的产品力 相当ok”,推荐大家试试。
5、【重要】【产品视角】并非“一旦AI能做,赚钱就容易”,真相是“一旦AI能做,这事就不值钱”
a)当AI让生产力趋近无穷大,基于“技术壁垒”的价值体系开始崩溃。
i,AI极大地提高了供给侧效率,使得创作和生产变得过于容易,反过来又导致价值迅速被侵蚀,陷入价格战
吉卜力的艺术委托(付费作画),曾高达数十、数百元一份,现降到0.1美金。
若由人形机器人,自主运行iPhone生产线,iPhone无法保持当前价格——不是因为产品变差了,而是因为生产壁垒消失了。
不能简单地责怪AI,更深层次的问题在于“我们如何定义价值”——过度依赖稀缺性。
hanniman评注:不是“过度依赖稀缺性”,而是过度依赖“看得见”的、“物质方面”的稀缺性;将来是重视“看不见”的、“内在/精神方面”的稀缺性。

ii,美学面临通货膨胀:当AI能复制吉卜力风格(或大师级水墨画)的美学时,问题不仅是更便宜,而是人们会感到视觉疲劳。
4o发布前,吉卜力风格受欢迎,是因为稀缺;当风格过于常见,无论它多么美丽,都会失去情感共鸣、文化分量。
摄影、平面设计、翻译、写作——每次AI或模板化工具成为主流,首先受到影响的,是提供“标准化输出”的创作者。
只有那些创造非标准化、独特价值的人,才能在AI的重新洗牌中生存下来。
iii,当AI理解商业,人类不再是商业活动中心,而是观察者、消费者,甚至观众,这才是真正的颠覆
理解商业,不仅是卖什么、卖给谁,还有识别市场趋势、调整定价、领导营销策略、设计整个商业模式。
若AI能操作其它AI(既是工具又是用户),商业世界将被重建,AI就是公司本身(产品设计、内容创作、广告投放、销售循环)。
问题不是“AI能帮我创业吗?”,而是“在AI做生意的世界里,我能扮演什么角色?”。
b)基于“技术壁垒”的价值体系的崩溃,导致“人(职位)”的问题
i,F1赛事中,最有价值的资产不是赛车,而是驾驶员。
每辆赛车,都是由顶尖工程师设计,并调校至完美,但驾驶员的判断和技能差异很大。
这突显了强大工具和强大用户之间的区别。

ii,许多人担心AI工具会取代自己,但他们更应该担心的是:也许从一开始,自己就只是个工具(人)。
AI只是让这种“低价值状态”,对每个人来说,都变得显而易见。
AI不会取代所有人,但它将淘汰那些“价值在于重复性工作”的人。
c)出路:我们被迫重新定义“价值”的含义。AI并没有阻止我们创造,它推动我们去创造新的意义。
i,未来的战场不在于生产,而在于分配和价值创造
价值不会消失,但它会迁移,从“事物”转向“人”,从“产品”转向“产品代表的意义”。
必须提供“超越产品的意义”,如审美品味、独特观点、个人品牌、情感联系。
ii,机会,已经从你所做的事情,转移到了“你是谁”以及“你代表什么”。
真正的价值,不在风格本身,而是结合新想法,用风格讲自己的故事
比如,每个人都用吉卜力创作,而你的吉卜力作品,让人一眼认出是你,那才是下一个价值层次。
iii,几个战略方向
创造独特需求:不仅满足现有需求,还要创造“人们直到看到它,才知道自己想要”的东西。
打造个人品牌:不仅是做得好,而是因为“是你制作的”而想要买。
控制分销渠道:无论粉丝社区、推荐算法还是流量渠道,谁控制了需求流动,谁就控制了价值。
定义文化、控制叙事、建立社会信任。AI可以创办企业,但这些是我们最后的优势。