杏彩体育2024年,硅谷的生成式AI大战丝毫不比2023年逊色,只是这一年的AI战争更残酷更直接:
巨头们不但拼模型能力,还拼爆款产品,同时继续投入数百亿美元拼算力建数据中心;而几家一年前还是明星项目的初创企业却因为资金烧光,直接被巨头吞并。
在学术界,技术领袖们对AI的未来依然争论不休、骂战不断:GPT5依然没有踪影,Scaling law甚至被认为已经遇阻“撞墙”。
然而2024年底,谷歌Gemini 2.0的发布,以及OpenAI一连12天发布更新,却让大家对2025年AI的进展又有了一些新的期待...
这期内容我们将回顾下生成式AI在硅谷的2024年有哪些drama杏彩体育,又有哪些实在的技术进展和路线年的AI会如何发展。
我们将结合与技术大佬的采访聊天,从巨头的AI布局路线、产品落地、陨落的明星公司和冉冉升起的新星们,以及业内对2025年AI展望这几条主线来展开,看看过去一年都发生了些什么。
OpenAI在2024年的drama并不少:2023年底的董事会风波之后,2024年OpenAI的高层依然极度不稳定,人才流动性很大。
联合创始人、首席科学家Ilya Sutskever在五月离职。之后他宣布创办自己的初创公司Safe Superintelligence,快速融资了10亿美元杏彩体育。
和Ilya一起离职的还有超级对齐团队的关键技术人物Jan Leike。之后在九月,CTO Mira Murati也宣布离职,有消息称她正在为她新的初创公司融资。
同时,联合创始人、前总裁Greg Brockman在休了三个月的长假之后回到了OpenAI。
OpenAI用了一年的时间来处理高层之间的人际冲突,如今终于暂时稳定了局面。坏消息是多数的创始成员都已经离开,好消息是这场宫斗终于结束。
Sam Altman有了稳定的权利,接下来或许可以更顺利地推进他想象中的AI发展方向,包括将OpenAI从非盈利组织变成赢利组织来更好融资,推出更多可以商业化的产品等。
2024年10月,Sam Altman为OpenAI完成了新一轮66亿美元的融资,公司估值来到1570亿美元。但OpenAI烧钱之狠也是有目共睹的:
《》获得的融资文件显示,OpenAI2024年预计收入达到37亿美元,但预计亏损将达到50亿美元,而2026年亏损可能会高达140亿美元,这一估算还不包括给员工的股票激励兑现。
虽然OpenAI承诺投资人收入在成倍增长,预计在2029年达到1000亿美元,实现盈利,但按照这样的烧钱进度,OpenAI在2025年的两大趋势会是必然:第一是大规模融资;第二是更激进的商业化。而这其实和2024年OpenAI的路线年,OpenAI没能如预期发布GPT5,这让市场中不少人失望,但惊喜的是4o的多模态进展。此外,o1和最近o3的发布让人看到模型能力进化的另外一种路线。
事实证明,4o发布之后,特别是在免费版本中提供有限的4o功能和4o-mini之后,ChatGPT的订阅人数大幅上升,依然在2C领域上远超竞争对手。
简单来说,o1学会了人类的“慢思考”,包括利用思维链(Chain of Thought,简称CoT)来进行反复的思考、拆解、理解、推理,然后给出最终答案。这使得AI的推理能力在处理科学、编码、数学及类似领域的复杂问题时有了飞跃的进步。
o1这个内部代号为“Strawberry”的强大模型更新,让我们看到了在预训练上堆参数的“大力出奇迹”之外的、通过推理阶段的算法突破找到一条新的通往AGI的道路。
我们在2024年硅谷华源科技年会上采访了多位技术大牛,都非常看好o1的路线。
最近发布的o1整体模型,凭借在推理能力上的显著提升,展现出非常不错的结果,但在产品方面,我们仍需更多努力。
而o1尝试自己解决问题,比如在后台将问题分解为小步骤。这时你需要权衡的是延迟的问题,因为后台处理可能需要花费一分钟。所以我认为对于特定的应用场景来说,这种做法肯定是有效的,特别是如果你不介意延迟的话。
其它的更新比如说ChatGPT Search升级、与苹果Apple Intelligence的协作等等,看上去就非常不痛不痒,甚至感觉是在给12天的发布会凑数
o3在数个测试上的能力,无论是程序员编码竞赛(Codeforces)中超过99%的人类程序员,还是博士水平的科学问题(GPQA)已经超过一般人类博士生,还是最难的前沿数学测试,还是抽象推理能力基准考试ARC-AGI,o3比o1的提升可以说是惊人的,而这个版本的更新仅仅用了三个月的时间。
这让AI业界的不少人相信,OpenAI在o1和o3这个强化推理这个范式转变是有效的,这让担心AI大模型已经“撞墙”的人们稍微松了口气:至少AI模型的发展还在推进。
有采访嘉宾认为,在2025年,预训练上的“拼参数”会持续,但后训练的推理能力探索会同时进行。
Tick-Tock的意思是左边是数据驱动,右边是规则驱动,两边会来回跳动。一会是用更好的数据集去训练它,但同时用更好的算法去推动它,所以就是在算法跟数据两边Tick-Tock(摇摆)。因为现在o1和o3更多的还是算法,但是之前包括 GPT 其实也是数据集的驱动。所以,在(数据和规则)这两边的摇摆的时候,应该会摇出下一个大的 breakthrough(突破)或者milestone(里程碑)。
在2024年年底,OpenAI给整个产业送上了一份圣诞惊喜。虽然o1和o3非常昂贵,o1 pro的订阅价格是每月200美元,而o3进行一次低算力计算的成本高达20美元,高算力就更不用说了,要在现阶段大规模商用几乎是不可能的。
如果说Gemini 1.0是用于组织和理解信息,那么Gemini 2.0则是让信息变得更有用
谷歌目前对外开放的新模型是Gemini 2.0 Flash,在响应时间上比上一代的1.5 Flash性能更强、延迟性更低。在多模态上,2.0 Flash支持图片、视频和音频的输入以及多模态的输出。
Sora在最开始公开到最终对用户发布的这10个月中,包括谷歌在内的竞争对手已经赶上来并在多模态能力上做得更强了。
我个人认为,智能眼镜在一些场景下比手机更适合作为agent入口的交互硬件,因为它可以捕捉人们的目光,作为音频视频和屏幕的呈现载体,而用户也能得到7*24小时永远在线的体验。
看得出来,Sundar Pichai非常重视Project Astra,认为它“展示了通用AI助手的曙光”,而谷歌Gemini大模型依靠长文本的能力,能让Project Astra记住长达10分钟的会话内容来提供个性化的服务。
很多application(应用)把自己叫agent之后没有在算法上面有真正的创新,也没有数据。如果就做agent,我个人觉得下一步还是要往数据的角度去走,agent也需要数据。我觉得下一步 2025 年,可能会在这几个层面。
同时,谷歌新发布的论文,描述了一种新的注意力技术“inifini-attention”(无限注意力),能使Tranformer大模型在有限算力情况下处理无限长度的输入。
而谷歌的Gemini模型将上下文窗口从最先进的20万扩展到了100万到1000万——这几乎是一个50倍到100倍的增长。对于大型语言模型来说,这个上下文窗口实际上是一项非常有用的技术:上下文窗口越大,你可以向模型提供的输入就越多。
在这样的长文本技术下,谷歌2024年的一个爆款应用名为NoteBookLM。
你可以理解他是个产品创新。NotebookLM是Google Labs出来的,但Google自己是有底座模型的。Notebook LM用的底座其实也不是Google Gemini,而是谷歌自己内部的一个定制化底座。所以,如果你不是那么懂底座,纯第三方的来用谷歌Gemini API,你未必能做得出来NotebookLM。
产品创新之上要结合对底座的理解,不然光是产品创新,我觉得可能不能跑得特别远。
Anthropic的商业模式目前更2B和2D,对企业和开发者群体更受欢迎,但2C方面就不太理想了。
这是因为背后的软件开发人员主要利用Claude执行调试代码、解释Git操作及概念等任务。
xAI在2024年做了三件大事:搞定了算力、搞定了融资、开源了自己的大模型。
虽然Meta不像OpenAI和谷歌那么在大模型前线厮杀,但Meta的策略也非常的明朗:在AI研发上不掉队,且布局下一代的AI应用,结合在硬件、社交媒体以及广告中。
它和LLM大语言模型逐字预测不同,LCM的概念是能直接在高纬度语意空间中运算,就像人类思考的方式,并不是一个字一个字地去思考,而是以”概念“和”意义“为单位。所以LCM是Meta完全突破LLM架构的一个创新的尝试。
因为Meta不提供独立的AI应用,所以新闻或者业界一般不将Meta的Chatbot直接与ChatGPT或者Claude去做直接对比,但就这些活跃用户的基数而言,Meta的AI产品是有很大优势的。
虽然目前AI生成的素材还没有那么精致,但无论是从广告标题和文案的多个版本,还是自动调整广告大小,还是利用文生图、文生视频和文生音乐更高效的制作广告,AI都有非常大的潜力。
最后几家科技巨头中,再说说亚马逊。亚马逊的路线和其它几家都不太一样,采取的是一个卖铲子生意的模式。
除了亚马逊云科技,芯片公司本身,像英伟达,AMD,英特尔等芯片公司本身,以及上下游的电力公司以及数据中心服务公司也会继续是市场关注的焦点。
这三家公司的“变相收购案”也在成为硅谷科技巨头拓展AI版图的新模式:既避开垄断监管,又能收人才收技术。
做大模型吧,太烧钱;不做大模型吧,没有技术壁垒和护城河。这么一看,AI时代的创业真的太难了。
首先是前面Jonathan提到的Perplexity:2024年年底,公司完成了新一轮5亿美元的融资,估值达到90亿美元。
这家公司成立于2022年,可以说重新定义了全球第一个对话式AI搜索引擎,月活跃用户已经达到1500万人次,日活跃用户200万人,连英伟达创始人黄仁勋也为它站台,称每天都会使用。
Perplexity的聪明之处在于,自己不训练模型,而是使用多种大型语言模型,包括GPT、Claude、LLAMA、Mixtral等,以及来自多个搜索引擎的排名信号和第三方数据提供商的数据。
他曾在一个小型的聚会上分享说,有很多项目找他投资,他答应的原因只是为了帮助朋友,毕竟他的名字在天使投资人的那一栏能帮很多项目更容易拿到投资。但为数不多的他真心想投资且看好的项目,就当属Physical Intelligence了。
Physical Intelligence表示,π0将使得机器人变得更容易编程和使用,使其能够更高效地执行多样任务。
我觉得π0更多是 training data driven(数据驱动)的路线更代表的是algorithm(算法)驱动的路线肯定也要在算法上继续做迭代,也可能在推理侧引入一些方法。当然难一点就是推理,因为具身智能的推理侧要在端侧发生,可能对算力的要求会更高一些。
具身智能以及AI机器人模型还在非常早的阶段,因为数据和算法都是挑战,但相信在2025年会有新的进展。同时,斯坦福的机器人中心在2024年开业了,我也去参加了开业仪式,有机会我们去那里采访一下跟大家分享最新的项目和有意思的进展。
由于篇幅原因,还有很多科技巨头的进展、初创企业和新趋势我们没办法一一列举,包括AI视频生成的初创公司Pika和Luma,音乐生成初创公司Suno,最近很火的AI编程应用Cursor和Devin,李飞飞博士的World Labs、该有2025年初引起一片震撼的DeepSeek等,之后有机会我们详细做成单独选题来聊。
对于那些有资本、有资源、有工程能力的大公司来说,他们会继续构建大模型。大模型在很多不同方面表现得更好,特别是在通用场景中。
我认为这两条主线将会持续很长一段时间,希望有第三种并行努力的方向,那就是寻找不同的模型架构,因为现在的模型基本都是基于Transformer的,还有一些基于diffusion模型用于生成图像等中间工作。我希望能有其他非transformer、非diffusion的模型架构出现,让生成结果更有效、更高质量、同时降低成本。如果在这方面能有所突破,将再次对AI行业产生巨大的影响。
在硅谷的AI生态中,已经衍生出了多个派系:有更大的模型、大模型衍生出的垂直模型、不信仰Transformer而在探索其它通往AGI路径的研究者,同时也有应用杏彩体育、硬件、agent智能体、机器人、无人驾驶,还有“卖铲子”的英伟达、数据中心、电力上下游等等,这些生态在2024年得到了进一步的巩固与布局,而在2025年,我们会看到更多技术的进展。
当然,硅谷只是AI发展的其中一个主力战场,全球其它市场的AI也有非常快速的发展,今天我们只是稍微总结了一些硅谷的情况,也欢迎大家给我们留言最值得提的公司,技术或者事件,这对我们团队更进一步探索AI产业非常有帮助。
平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。