试读【AI日报_示例2】
注:「黄钊的AI日报」,每天5条内容点。以下5条示例,分别来自2月5号、1月9号、1月10号、2月5号和2月6号的AI日报。 1、【重要】【产品视角】DeepSeek的创新三重门:小天才的规模化 + 华为式的军团平推 + 原创的哲学式思想 a)概述大模型训练,是相当复杂的软硬一体工程,而绝大部分的关键组件, DeepSeek几乎都重新设计了:MLA,GRPO,DeepSeekMoE,DualPipe,FP8混合精度,R1-Zero,MTP 等等。范围之广,密度之大,非常震撼。中国人和美国人对创新的认识,被DeepSeek同时颠覆了 b)创新的第一重门:小天才的规模化不仅有天才般的 learn 的能力,更重要的是,没有 unlearn 的负担。“小天才式的创新”:给定约束,寻找最优解的能力。想象一下,这样的文化,扩散到更多的创新型公司,成为主流,会是怎样的一种盛况? c)创新的第二重门:军团式的协同创新Peter Thiel 的深刻表述:一个真正的垄断式创新,需要构建 Complex, Vertically Integrated System,许多不同层面的创新,必须同时发生,并以一种高度协同的方式组合在一起。DeepSeek脑海中,把创造 AGI 这件事情,看成一个没有边界的大蓝图。算法?通信?数据?硬件?都在我需要解决的范畴内,而且高度协同的平推下去。如果有足够的精力和钱,他们甚至会做自己的硬件、造自己的电网。这是真正创新者的样子,就像乔布斯说过:真正在乎软件的人,应该去制造属于自己的硬件。 d)创新的第三重门:近乎哲学式的、原创的思想。 i,哲学性思想的创造,为何如此美妙?因为并不是为了找到优秀解法,而是为了问出更本质的问题。 ii,过去十年 AI 的创新源头:Google 2017年的 Transformer,DeepMind 2017年的 AlphaZero,以及 OpenAI 2018年的自回归模型 GPT。这不仅仅是三个模型,内核是三个哲学性思想,关于“学习”的本质:用什么结构来理解世界万物,和他们的内在关系(Transformer)如何通过不断的预测,把世界万物的复杂性压缩到直觉中(GPT)怎么基于直觉构建深度思考,完成对世界的进一步抽象(Zero) iii,最后一块拼图不知道梁文锋是不是中国的 Ilya ,但我坚信,一个跨过创新三重门的组织,需要一个思想性的领袖。今天 OpenAI 最缺的,不就是这个吗? 2、【重要】【最新案例】AI捏脸新玩法!网易新游戏《燕云十六声》,可根据声音(声线/音色/语音内容)为游戏角色捏脸,并生成一段古风“声评”案例一:男性声音试捏(有效果ok的案例,也有捏崩了的奇怪面容,反正网友玩得不亦乐乎)案例二:女性声音试捏(可直接说明星名字,出来的人脸,有8分相似——可能为了规避侵权风险,故意不做到100%还原度) hanniman评注:另外,还可“传照片捏脸”,游戏里NPC也是LLM驱动的——据说该游戏提现了国内“游戏+AI”的最前沿水平,大家可以关注下(该游戏,前天刚开放移动端下载)。 3、【行业动态】DeepSeek用人观:学霸(金牌)、年轻人(应届生)、禁止赛马 a)自2023年5月成立以来,团队规模一直控制在150人左右。 i,不要资深的技术人工作经验在3-5年,已经最多了,超8年基本就pass;不招有名的大佬,他们很少有创新的动力,但有不允许失败的包袱。创新的事,还是交给新人去做。 ii,偏爱尚未经过职场验证、刚毕业不久的年轻人不少没有模型训练经验,甚至都不是计算机出身。衡量“优秀”与否的标准,除了院校,还对竞赛成绩看得非常重(金奖以下基本不考虑)。杭州,是基础设施团队,北京,是工程师团队(百人规模) b)如何管理、留住这一群年轻的天才?砸钱砸卡:薪酬对标字节研发并加价;只要技术提案有潜力,算力不限。扁平化管理:成员不带团队,按具体目标分研究小组,组内无固定分工、上下级关系。不赛马(为了杜绝人力、资源浪费,“也不利于人才的留存和团队共识的形成,赛马造成的内耗太严重了”),不设硬性kpi,也没有商业化的压力。当一个idea显示出潜力,会自上而下调配资源。 c)要创新,团队必须摆脱惯性。大部分国内AI公司,已陷入“浅显模仿OpenAI”的惯性——跟随被验证的路径,降低失败的风险。很少有厂商、会去调整Transformer,但DeepSeek对算法架构的反思,从第一天就开始了(成员没有太多模型训练经验,反而不会去抄OpenAI的“标准答案”)。创新的底气,来源于充足算力和钱。DeepSeek没有其他业务,也不烧钱做投放、不做商业化,所有资源,都投到模型训练上。 hanniman评注:最近刚好看到,某厂内部对DeepSeek人才的mapping信息,其实也不是所有人都是那么年轻,高管很多40岁左右,也有些技术核心,是92/96年的。 4、【资源/工具】「硅基流动+Chatbox AI」,轻松解决DeepSeek R1的卡顿问题 a)只需两步:在“硅基流动”(后端),创建API key;在“Chatbox AI”(前端;覆盖Mac、Win、安卓、iOS),粘贴API key。 b)第一步注册、登录“硅基流动”(官网链接)。进入【模型广场】,在最左边的导航栏,点击进入【API密钥】。新建API密钥(密钥描述可随便写),完成后,点击复制自己的API Key(相当于卡密码,需严格保密。) c)第二步下载“Chatbox AI”(下载链接)打开“Chatbox AI”对话界面后,点击左下角【设置】按钮,在设置界面的【模型提供方】里,选择SiliconFlow API(硅基流动的英文名)。在【API密钥】里,输入复制的API key。在【模型】下拉框中,选DeepSeek R1,点击【保存】。 d)至此,你就拥有了“专属DeepSeek”。 5、【重要】【产品视角】AI创业者惨痛教训:弥补模型局限性是陷阱,利用模型灵活性才是答案 a)“从70年的AI研究中,得到的最大教训是:利用计算的通用方法,最终是最有效的,而且优势巨大”——《痛苦的教训》by Richard Sutton(强化学习之父)将知识构建到智能体中,短期会提升效果,但长期会阻碍进步。突破性进展,始终通过“扩展计算资源”相关方法实现。 b)“现在,AI应用领域创始人”,正在犯“过去,AI研究者”的错AI产品封装AI模型后,提高产品性能的方法:增加工程设计 & 使用更好的模型。随着模型的提升,工程工作的价值会越来越低,如下图所示(在应用层构建 AI 产品时,工程投入的回报递减)c)更出色的AI模型,将催生AGI应用,同时,AI模型的软件附加值将减少。 i,当前模型有很大局限性,许多公司从工程中盈利。本质上:工程努力旨在限制AI,从而减少错误。限制有两个维度:特异性:解决方案的专注度。(垂直解决方案的配套软件,为特定问题而构建。)自主性:AI独立运作程度。(workflow:LLM遵循预定路径;Agent:LLM自主决定如何完成任务) ii,以制作PPT为场景,每一个类别的可能方法:Vertical workflow:固定的步骤顺序;Vertical agent:LLM循环运行;Horizontal workflow:GPT等工具协助完成部分任务;Horizontal agent:Claude根据prompt理解人类意图去操控计算机执行命令; iii,《情景意识》Leopold Aschenbrenner(前OpenAI研究员):模型进化速度,将超越“搭建工程工作解决问题速度”。对于解决路径不明确的问题,自主性更强的产品,将取得更好的效果。同样,在处理大型、复杂的输入空间时,特定性较低的产品将表现更好。 d)从长期看,创业公司更应该押注那些“能充分利用大模型自主性与灵活性”的机会。Sam Altman:创业者应对更好的模型发布而“感到兴奋”,而不是害怕。 e)补充说明1:《痛苦的教训》统计图模型构建时,通常有两个选择:高偏差、高精确度的处理模型 & 高方差、高灵活度,但不可预测的模型。建议:选择灵活的办法,因为可靠性问题,可通过算力和数据逐步解决。 f)补充说明2:“传统机器学习的手动特征工程”与“深度学习的端到端方法”的流程区别 传统机器学习,需要人为决定什么数据重要(获取原始输入-手动提取“特征”-计算特定任务)vs 深度学习,自动学习数据的模式。“特征工程”永远会被“端到端”取代,尽管在早期,特征工程感觉更安全、可控。(案例:自动驾驶)