免费内容

精选免费文章,先睹为快

2025-04-24 19:53
免费

「黄钊的AI日报·第七季」详细介绍

公众号排版更好,请查看这里:https://mp.weixin.qq.com/s/UEvJD6IvkbauACxBOCotCQ
文章预览
阅读全文
2025-04-22 20:04
免费

试读【AI日报_示例2】

注:「黄钊的AI日报」,每天5条内容点。以下5条示例,分别来自2月5号、1月9号、1月10号、2月5号和2月6号的AI日报。 1、【重要】【产品视角】DeepSeek的创新三重门:小天才的规模化 + 华为式的军团平推 + 原创的哲学式思想 a)概述大模型训练,是相当复杂的软硬一体工程,而绝大部分的关键组件, DeepSeek几乎都重新设计了:MLA,GRPO,DeepSeekMoE,DualPipe,FP8混合精度,R1-Zero,MTP 等等。范围之广,密度之大,非常震撼。中国人和美国人对创新的认识,被DeepSeek同时颠覆了 b)创新的第一重门:小天才的规模化不仅有天才般的 learn 的能力,更重要的是,没有 unlearn 的负担。“小天才式的创新”:给定约束,寻找最优解的能力。想象一下,这样的文化,扩散到更多的创新型公司,成为主流,会是怎样的一种盛况? c)创新的第二重门:军团式的协同创新Peter Thiel 的深刻表述:一个真正的垄断式创新,需要构建 Complex, Vertically Integrated System,许多不同层面的创新,必须同时发生,并以一种高度协同的方式组合在一起。DeepSeek脑海中,把创造 AGI 这件事情,看成一个没有边界的大蓝图。算法?通信?数据?硬件?都在我需要解决的范畴内,而且高度协同的平推下去。如果有足够的精力和钱,他们甚至会做自己的硬件、造自己的电网。这是真正创新者的样子,就像乔布斯说过:真正在乎软件的人,应该去制造属于自己的硬件。 d)创新的第三重门:近乎哲学式的、原创的思想。 i,哲学性思想的创造,为何如此美妙?因为并不是为了找到优秀解法,而是为了问出更本质的问题。 ii,过去十年 AI 的创新源头:Google 2017年的 Transformer,DeepMind 2017年的 AlphaZero,以及 OpenAI 2018年的自回归模型 GPT。这不仅仅是三个模型,内核是三个哲学性思想,关于“学习”的本质:用什么结构来理解世界万物,和他们的内在关系(Transformer)如何通过不断的预测,把世界万物的复杂性压缩到直觉中(GPT)怎么基于直觉构建深度思考,完成对世界的进一步抽象(Zero) iii,最后一块拼图不知道梁文锋是不是中国的 Ilya ,但我坚信,一个跨过创新三重门的组织,需要一个思想性的领袖。今天 OpenAI 最缺的,不就是这个吗?  2、【重要】【最新案例】AI捏脸新玩法!网易新游戏《燕云十六声》,可根据声音(声线/音色/语音内容)为游戏角色捏脸,并生成一段古风“声评”案例一:男性声音试捏(有效果ok的案例,也有捏崩了的奇怪面容,反正网友玩得不亦乐乎)案例二:女性声音试捏(可直接说明星名字,出来的人脸,有8分相似——可能为了规避侵权风险,故意不做到100%还原度) hanniman评注:另外,还可“传照片捏脸”,游戏里NPC也是LLM驱动的——据说该游戏提现了国内“游戏+AI”的最前沿水平,大家可以关注下(该游戏,前天刚开放移动端下载)。  3、【行业动态】DeepSeek用人观:学霸(金牌)、年轻人(应届生)、禁止赛马 a)自2023年5月成立以来,团队规模一直控制在150人左右。 i,不要资深的技术人工作经验在3-5年,已经最多了,超8年基本就pass;不招有名的大佬,他们很少有创新的动力,但有不允许失败的包袱。创新的事,还是交给新人去做。 ii,偏爱尚未经过职场验证、刚毕业不久的年轻人不少没有模型训练经验,甚至都不是计算机出身。衡量“优秀”与否的标准,除了院校,还对竞赛成绩看得非常重(金奖以下基本不考虑)。杭州,是基础设施团队,北京,是工程师团队(百人规模) b)如何管理、留住这一群年轻的天才?砸钱砸卡:薪酬对标字节研发并加价;只要技术提案有潜力,算力不限。扁平化管理:成员不带团队,按具体目标分研究小组,组内无固定分工、上下级关系。不赛马(为了杜绝人力、资源浪费,“也不利于人才的留存和团队共识的形成,赛马造成的内耗太严重了”),不设硬性kpi,也没有商业化的压力。当一个idea显示出潜力,会自上而下调配资源。 c)要创新,团队必须摆脱惯性。大部分国内AI公司,已陷入“浅显模仿OpenAI”的惯性——跟随被验证的路径,降低失败的风险。很少有厂商、会去调整Transformer,但DeepSeek对算法架构的反思,从第一天就开始了(成员没有太多模型训练经验,反而不会去抄OpenAI的“标准答案”)。创新的底气,来源于充足算力和钱。DeepSeek没有其他业务,也不烧钱做投放、不做商业化,所有资源,都投到模型训练上。 hanniman评注:最近刚好看到,某厂内部对DeepSeek人才的mapping信息,其实也不是所有人都是那么年轻,高管很多40岁左右,也有些技术核心,是92/96年的。  4、【资源/工具】「硅基流动+Chatbox AI」,轻松解决DeepSeek R1的卡顿问题 a)只需两步:在“硅基流动”(后端),创建API key;在“Chatbox AI”(前端;覆盖Mac、Win、安卓、iOS),粘贴API key。 b)第一步注册、登录“硅基流动”(官网链接)。进入【模型广场】,在最左边的导航栏,点击进入【API密钥】。新建API密钥(密钥描述可随便写),完成后,点击复制自己的API Key(相当于卡密码,需严格保密。) c)第二步下载“Chatbox AI”(下载链接)打开“Chatbox AI”对话界面后,点击左下角【设置】按钮,在设置界面的【模型提供方】里,选择SiliconFlow API(硅基流动的英文名)。在【API密钥】里,输入复制的API key。在【模型】下拉框中,选DeepSeek R1,点击【保存】。  d)至此,你就拥有了“专属DeepSeek”。  5、【重要】【产品视角】AI创业者惨痛教训:弥补模型局限性是陷阱,利用模型灵活性才是答案 a)“从70年的AI研究中,得到的最大教训是:利用计算的通用方法,最终是最有效的,而且优势巨大”——《痛苦的教训》by Richard Sutton(强化学习之父)将知识构建到智能体中,短期会提升效果,但长期会阻碍进步。突破性进展,始终通过“扩展计算资源”相关方法实现。 b)“现在,AI应用领域创始人”,正在犯“过去,AI研究者”的错AI产品封装AI模型后,提高产品性能的方法:增加工程设计 & 使用更好的模型。随着模型的提升,工程工作的价值会越来越低,如下图所示(在应用层构建 AI 产品时,工程投入的回报递减)c)更出色的AI模型,将催生AGI应用,同时,AI模型的软件附加值将减少。 i,当前模型有很大局限性,许多公司从工程中盈利。本质上:工程努力旨在限制AI,从而减少错误。限制有两个维度:特异性:解决方案的专注度。(垂直解决方案的配套软件,为特定问题而构建。)自主性:AI独立运作程度。(workflow:LLM遵循预定路径;Agent:LLM自主决定如何完成任务)  ii,以制作PPT为场景,每一个类别的可能方法:Vertical workflow:固定的步骤顺序;Vertical agent:LLM循环运行;Horizontal workflow:GPT等工具协助完成部分任务;Horizontal agent:Claude根据prompt理解人类意图去操控计算机执行命令; iii,《情景意识》Leopold Aschenbrenner(前OpenAI研究员):模型进化速度,将超越“搭建工程工作解决问题速度”。对于解决路径不明确的问题,自主性更强的产品,将取得更好的效果。同样,在处理大型、复杂的输入空间时,特定性较低的产品将表现更好。 d)从长期看,创业公司更应该押注那些“能充分利用大模型自主性与灵活性”的机会。Sam Altman:创业者应对更好的模型发布而“感到兴奋”,而不是害怕。 e)补充说明1:《痛苦的教训》统计图模型构建时,通常有两个选择:高偏差、高精确度的处理模型 & 高方差、高灵活度,但不可预测的模型。建议:选择灵活的办法,因为可靠性问题,可通过算力和数据逐步解决。 f)补充说明2:“传统机器学习的手动特征工程”与“深度学习的端到端方法”的流程区别 传统机器学习,需要人为决定什么数据重要(获取原始输入-手动提取“特征”-计算特定任务)vs 深度学习,自动学习数据的模式。“特征工程”永远会被“端到端”取代,尽管在早期,特征工程感觉更安全、可控。(案例:自动驾驶)
文章预览
阅读全文
2025-04-22 20:00
免费

试读【AI日报_示例1】

注:「黄钊的AI日报」,每天5条内容点。以下5条示例,分别来自3月27号、4月1号、4月8号、4月22号和4月1号的AI日报。 1、【重要】【技术视角】817样本激发7倍推理性能,「少即是多」挑战RL Scaling范式 a)上交大最新研究LIMO(Less Is More for Reasoning),仅用817条精心设计的样本,借助监督微调,全面超越十万量级模型数学推理:在AIME24、MATH500测试中,准确率达57.1%、94.8%,超越QwQ(50%、89.8%)和o1-preview(44.6%、85.5%)。泛化能力:LIMO数据集不含中文,高考数学测试正确率,达到81%;不是简单记忆训练数据,而是掌握数学推理本质。反思能力:推理过程使用“等一下”、“也许”、“因此”等过渡词,进行自我验证,在长链推理中,保持高度准确性。 b)大模型的推理能力,本质上是 "潜伏" 、而非 "缺失" 的。当下,以 DeepSeek-R1 为代表的 RL Scaling 方法逐渐成为主流,LIMO 研究的意义则在于,提供了一个更加本质的视角:大模型的推理能力,本身是内在存在的,关键挑战在于,如何找到最优的激活路径。挑战了 “更大数据 = 更强推理” 的传统认知。一种全新的研究范式:从“训练新能力”转向“激活潜在能力”。大模型的(数学能)力,或许一直都在,关键在于如何唤醒它。 hanniman评注:本文价值巨大,但99%的从业者会miss(即使认可、也不知道如何实操)。是否相信“大模型的推理能力,本质上是 "潜伏" 、而非 "缺失" 的”?。2周前,在星球推送文章【重要】《也许AI在深度上,已经能够做到95分位了,而不仅是常规“以为”的7、80分位_20250313》里,已提前捕捉到这点。如何实操?2个月前,在【重要】《李继刚的价值被“严重低估”了_20250114》一文,已说明其中本质。 c)LIMO如何实现 i,「少即是多」理念,来自2023年LIMA(Less Is More for Alignment),用1000条高质量数据,让LLM对话符合人类偏好。但要想扩展到数学推理,明显更难,关键问题是:「少即是多」原则,能否适用于推理?LIMO 的研究给出了肯定的答案,并揭示了,实现这一突破的两个核心前提:知识基础革命(Llama3数学推理训练数据,达3.7万亿token,LLM早已知道大量数学知识)。推理计算革命(CoT长度,与推理能力密切相关;与其训练时硬灌数据,不如推理时,提供优质问题与示范,让模型自主展开思考)。 ii,LIMO的三大关键推理链质量(决定性影响):高质量推理链,要逻辑清晰、步骤完整,包含自我验证;低质量推理链,简单列举步骤,缺乏详细逻辑推导。问题难度(激发潜力):复杂问题,需要更长的推理链、更深入的知识整合,将迫使模型,充分利用预训练知识。预训练知识(基础):预训练有大量知识,少量高质量示例,就能激活推理;预训练知识不足,大量微调效果也有限(预训练数据质量、多样性为关键)。 hanniman评注:最后这3点,也很重要。  2、【最新案例】魂旅,一款AI云旅游电台APP a)产品介绍适合当下不方便旅游,又憧憬远方和自由的人。体验流程:指定旅游目的地->选载具(自行车/摩托车/房车)->APP根据“载具移动速度”,判断“用户分身”到哪里->提供身临其境的体验:获取路途信息(景点/天气等),用AI编故事(以“后台背景音”形式播报);提供(附近可获取的)FM电台;模拟天气/载具的背景音。达到“身在工位,魂游万里”的效果。 b)通过核心限制,获得更强的正反馈(路途中的惊喜、到达目的地),“好像我就在那个世界生活过”。核心限制是,不能有“超人体验”(即无法瞬移),会碰到堵车等。若马上得到结果,路途的意义,就消失了。用户消费的,不是目的地,是(和现在生活不同的)差异感。这需要,世界的真实感,来维持。 c)未来功能规划(来自用户诉求),聚焦“拟真感”内容丰富度:可(看/主动上传)当地图片、沿途风景;拓展世界地图(将很快上线);随机触发(与街边老人的)聊天,了解当地故事/八卦;遇见名人,产生趣事。交通细节:更多交通方式(瓦罐车/小米SU7/保时捷等);更改出发点飞机票;暂停泊车/中途休息;交通状况拟真(堵车/服务区);街溜探索模式(无固定目的地时,支持用户选择“闲逛范围”,找寻景点播报)。个性化/成就收集:增加打卡点(支持收藏地点、足迹地图);沿途收集特色特产、各类勋章;留下纸条,供其他人发掘。功能性提升:定时关闭(能听着睡觉);实时活动;小组件显示“行车位置”;行车风噪;横屏全屏;3D地图支持。陪伴体验:AI聊天搭子(是一同的乘客,不是导游);定制音色+播报风格;真人组队旅游;好友所在位置和头像。 d)产品背后的创作者:海玮,喜欢做有趣的产品,个人blog。 i,概述:前创业者:大学创办过年流水200w的公司。曾拿过种子轮投资、天使轮投资意向。副业佬:从0到1经营了多款产品,其中有2款跨过10万级用户量的产品。产品经理:职业生涯未经历过大厂,一直在垂直行业的龙头公司做1到10。 ii,做了很多AI相关产品,对AI和用户的交叉点比较敏感有挂:使用自然语言+AI,对互联网上的所有网页进行编程,可掌控任何在你电脑上查看的网页,上线一周新增5千用户。马大哈翻译:将中文网页当中的某个词抽出,然后用AI基于语境,直接将那个词在转化为英文单词,帮助用户在电脑环境下学习英语,目前日活1千。mbtAI百科:mbti工具+AI报告,MBTI届的“测测星座”。商业模式是通过mbti文献库,用AI生成各种报告让用户解锁。已实现兼职状态下的盈利,最高月营收2w+,矩阵用户加起来34万。Tars:察言观色的AI管家,通过屏幕语义识别,自动生成任务从而摆脱输入框。获得即刻ai黑客松30万美金投资意向。 hanniman评注:这个创业者,值得关注下。能持续创造出这种产品,不简单。  3、【重要】【产品视角】第一个投资王兴兴的人,是极客公园的张鹏——背后的故事及核心认知 a)缘起:2015年,张鹏去MIT的实验室里,看过「机器猎豹」,非常“前沿科技”的感觉;但2017年,在一篇文章里,张鹏看到一个中国团队(王兴兴),做出的东西,竟然非常成型、运动姿态顺畅、整体简洁,产品化的取向也很清晰了,就觉得很吃惊。隔了个三四天,张鹏就飞到杭州去见他了。 hanniman评注:这个细节,大家如果直接看原文,99%会miss掉背后的关键的。表面看,只是“张鹏看到文章后,飞到杭州去见王兴兴”了,但一般人,是做不到这个程度的,因为缺乏以下几个方面的积累 i,张鹏有意识的,让自己“站到行业最前沿”(去MIT实验室参观),有这种体感,才可能在2年后、第一次看到王兴兴团队产品时,“足够”吃惊,以致于有动力去见他。 ii,在看到不同的时候(2015 MIT 机器猎豹、2017 王兴兴 产品视频),有洞察力和认知深度和专业度,去看出里面的巨大区别(非常成型、运动姿态顺畅、整体简洁,产品化的取向也很清晰了)——这个,也不是普通认知的人,能看出来的 iii,想见王兴兴,就能很快touch到——这个链接能力,也是需要有长期(5~10年以上)的行业人脉积累的。 iv,最微妙而关键的细节来了——“隔了三四天”,他就飞去杭州见王兴兴了。99%的人,即使有念头(想去见),但也会一直拖延,或者给自己一个合理的借口(比如等下次去杭州时,再见他);但真正重要的是,如果某件事真的有价值,就应该单独为了这件事,而耗费时间和机票成本。——如果你真的知道,这件事真的极度重要的话。这个行为,甚至能成为某种反向check指标;如果你能做过1次这种事,那么说明你就已经很牛了。 b)2017年,张鹏第一个投资王兴兴的逻辑 i,在那个时刻做机器人,他是一个“人事匹配”的人。他脑子里没有那些宏大的故事,不是讲黑暗后的光明,而是在意“光明之前的黑暗”。比如对于机器人领域的发展节奏和预期,张鹏会说,某个技术卡点,是不是过几年就不是问题了,但王兴兴会很严谨地说,如果要突破的话,可能要先解决什么样的问题。张鹏说,那这个问题,是不是很快能解决,王兴兴会说,要解决这个问题背后,其实还有什么问题要先解决。会感觉到,他对「未来战场」的每一寸,都有自己的基础认知,这挺不容易。毕竟他非常年轻,才工作过两三个月。这种与年龄不符的积累,表明他对这个领域有热爱和足够的专注,肯定投入了大量时间。否则,他不会在这么多细微之处都如此严谨,点出关键问题。 ii,有他的「技术审美」机器狗的造型和简洁度,做得很好,显然真是花了一些心思的;比如看不到很多到处乱飞的线,对一些零件技术指标的要求等小细节。看似学生,但也有理科生的浪漫,比如第一代机器狗产品叫「莱卡」,那是第一只替人类探索太空的小狗的名字——这些,张鹏能感受到。 iii,认可宇树的技术路线:电驱肯定是趋势,而不是当时酷炫的液压路线。 iv,一直很坚持的商业化策略:不碰C端市场、不做2B项目,而是选择科研市场。越是技术的婴儿期,就越要「喝奶」,而不是「吃糠咽菜」。 c)极客公园,作为「非典型投资机构」的底层逻辑和价值 i,背景:2013年,很多人还看不出张一鸣的价值,张鹏就天天跟别人推荐,说他特厉害。2014年,张鹏就把马斯克请到中国,那可能是他第一次来,还让张一鸣跟马斯克同台,说这两人未来都很牛。即,他本身已有这种认知能力和成功案例。后来,其他人会建议他来做投资业务。 ii,极客公园,不是典型的投资机构,它还是个社区,投资只是社区里、帮助创业者的一种能力。社区,中心点是人,而不只是以信息获取流量,那么他的核心资产,不是流量和注意力,是一个一个面目清晰的创业者。这样,你也有机会长期观察一个人,跟他建立更深入的交流,更看懂一个人;通过他们,也能更清晰地了解技术和商业趋势,做出更好的人和事的判断。到了这个节点,可以通过投资来验证你认知和判断了。成立早期基金,算是补上了社区的一个基础能力拼图,也是系统能力的一个延伸,能给社区反哺更大价值。 iii,跟其他基金的区别?「Founders backing Founders」,创始人帮助创始人。基金的 LP 主体,主要就是社区里的优秀创业者。用创业者的钱,再去投新的创业者,而且还会投入很多时间去帮忙mission:生生不息地发现优秀创新者,成为他们的伙伴,共同创造价值。 iv,下图,2017年12月3日,极客下午茶当时背景,是张鹏可以为了帮王兴兴,创造他认识大佬的机会。左起:陈华(唱吧),米雯娟(vipkid),张鹏,雷军,周源(知乎),王兴,王兴兴 d)其他新一代(想有巨大成就的)创业者的使命是,去提升、穿透天花板,而不是贴近天花板。在黑暗的洞穴找路,是趴在地上,用整个身体感知地面,用每个毛孔感受风向,才能判断往哪走。这不是蹦蹦跳跳、快快乐乐就能跑出来的。商业化:“沿途下蛋”可能有陷阱,更应该变成“找到前进的阶梯”。  4、【资源/工具】秘塔AI「学习」功能:文件/链接(支持除mobi外其他所有格式)→B站UP的定制课程视频 使用路径:点击右上角蓝条,切换新功能,或点击 https://metaso.cn/study 进入。实现方式:输入(用户知识水平、目标、兴趣)→模型生成(讲解逻辑、语言风格、表达节奏)→输出(课程PPT + 对应讲稿 + 可交互答疑)。角色转换:AI个性教学,找资料→找人格。辅助型工具→主讲型角色,甚至可塑造不同性格、风格人格。 hanniman评注:有团员反馈,体验超预期,“大为震撼”、“秘塔的产品力 相当ok”,推荐大家试试。  5、【重要】【产品视角】并非“一旦AI能做,赚钱就容易”,真相是“一旦AI能做,这事就不值钱” a)当AI让生产力趋近无穷大,基于“技术壁垒”的价值体系开始崩溃。 i,AI极大地提高了供给侧效率,使得创作和生产变得过于容易,反过来又导致价值迅速被侵蚀,陷入价格战吉卜力的艺术委托(付费作画),曾高达数十、数百元一份,现降到0.1美金。若由人形机器人,自主运行iPhone生产线,iPhone无法保持当前价格——不是因为产品变差了,而是因为生产壁垒消失了。不能简单地责怪AI,更深层次的问题在于“我们如何定义价值”——过度依赖稀缺性。 hanniman评注:不是“过度依赖稀缺性”,而是过度依赖“看得见”的、“物质方面”的稀缺性;将来是重视“看不见”的、“内在/精神方面”的稀缺性。 ii,美学面临通货膨胀:当AI能复制吉卜力风格(或大师级水墨画)的美学时,问题不仅是更便宜,而是人们会感到视觉疲劳。4o发布前,吉卜力风格受欢迎,是因为稀缺;当风格过于常见,无论它多么美丽,都会失去情感共鸣、文化分量。摄影、平面设计、翻译、写作——每次AI或模板化工具成为主流,首先受到影响的,是提供“标准化输出”的创作者。只有那些创造非标准化、独特价值的人,才能在AI的重新洗牌中生存下来。 iii,当AI理解商业,人类不再是商业活动中心,而是观察者、消费者,甚至观众,这才是真正的颠覆理解商业,不仅是卖什么、卖给谁,还有识别市场趋势、调整定价、领导营销策略、设计整个商业模式。若AI能操作其它AI(既是工具又是用户),商业世界将被重建,AI就是公司本身(产品设计、内容创作、广告投放、销售循环)。问题不是“AI能帮我创业吗?”,而是“在AI做生意的世界里,我能扮演什么角色?”。 b)基于“技术壁垒”的价值体系的崩溃,导致“人(职位)”的问题 i,F1赛事中,最有价值的资产不是赛车,而是驾驶员。每辆赛车,都是由顶尖工程师设计,并调校至完美,但驾驶员的判断和技能差异很大。这突显了强大工具和强大用户之间的区别。 ii,许多人担心AI工具会取代自己,但他们更应该担心的是:也许从一开始,自己就只是个工具(人)。AI只是让这种“低价值状态”,对每个人来说,都变得显而易见。AI不会取代所有人,但它将淘汰那些“价值在于重复性工作”的人。 c)出路:我们被迫重新定义“价值”的含义。AI并没有阻止我们创造,它推动我们去创造新的意义。 i,未来的战场不在于生产,而在于分配和价值创造价值不会消失,但它会迁移,从“事物”转向“人”,从“产品”转向“产品代表的意义”。必须提供“超越产品的意义”,如审美品味、独特观点、个人品牌、情感联系。 ii,机会,已经从你所做的事情,转移到了“你是谁”以及“你代表什么”。真正的价值,不在风格本身,而是结合新想法,用风格讲自己的故事比如,每个人都用吉卜力创作,而你的吉卜力作品,让人一眼认出是你,那才是下一个价值层次。 iii,几个战略方向创造独特需求:不仅满足现有需求,还要创造“人们直到看到它,才知道自己想要”的东西。打造个人品牌:不仅是做得好,而是因为“是你制作的”而想要买。控制分销渠道:无论粉丝社区、推荐算法还是流量渠道,谁控制了需求流动,谁就控制了价值。定义文化、控制叙事、建立社会信任。AI可以创办企业,但这些是我们最后的优势。
文章预览
阅读全文