前OpenAI研究副总裁Jerry Tworek分别创业,目标基本都是颠覆现有AI范式,试图构建
Anthropic正式推出旗舰模型Claude Opus 4.6,该模型首次集成1M Token上下文窗口,配合自适应思考(Adaptive Thinking)与上下文压缩技术,有效克服了长文档推理中的“记忆衰减”难题,在BrowseComp在线检索评测中位列行业第一。
性能实测显示,Opus 4.6在长文本“大海捞针”(MRCR v2)测试中得分76%,远超前代Sonnet 4.5的18.5%。其工程化落地能力极具破坏力:在编程侧,16个Agent协作仅两周便从零编写出10万行代码的Linux编译器;在安全侧,其在无人工干预的沙箱环境中自主挖掘出500余个零日漏洞。此外,该模型在法律(BigLaw Bench得分90.2%)与Office办公场景(Excel/PPT自动化)的深度渗透,标志着AI正从辅助工具向具备独立执行力的专家级员工进化。
紧随Claude新作发布仅15分钟,OpenAI迅速上线其最强编程模型GPT-5.3-Codex。新模型在SWE-Bench Pro(57%)与TerminalBench 2.0(76%)基准测试中刷新SOTA,不仅显著提升了代码美学与UI意图理解能力,更实现了研发过程的“自我加速”——即利用早期版本调试自身训练流程并优化数据分析,单任务Token消耗降至前代一半,推理速度提升超25%。
OpenAI同步推出了企业级平台Frontier,旨在帮助企业构建具备共享上下文、反馈机制及严格权限边界的“AI同事”,目前已获HP、Uber等巨头采用。此外,通过与Ginkgo合作,新模型成功将蛋白质合成成本降低40%,标志着AI正从单纯的编码助手向全链路、跨领域的生产力智能体演进。
谷歌正式开放基于世界模型Genie 3的实验性研究原型Project Genie,该产品由Genie 3、Nano Banana Pro及Gemini联合驱动,旨在通过生成式AI重构3D虚拟世界的构建、交互与迭代流程。
Project Genie具备“构建、进入、修改”三大核心能力,支持用户利用文本或图像零代码生成可实时探索的3D环境。其底层模型突破了传统图形引擎限制,能精准模拟物理规律(如冲浪水体互动)并保持长程一致性,实现了从静态图片复活(如毛绒玩具动效)到跨应用角色导入的无缝衔接。尽管在CAD等专业精度上仍显粗糙,但其展现的“即时生成、即时游玩”能力,标志着AI正从辅助资产生产迈向直接接管虚拟世界渲染的新阶段。
谷歌Cloud AI Research与北京大学联合发布PaperBanana,这是一款专为科研论文设计的AI绘图工具。该模型针对现有生成式AI在学术插图中常见的逻辑错误、文字乱码及布局混乱问题,提供了从方法描述到高质量插图的端到端解决方案,旨在直接生成符合顶级学术会议审美标准的流程图与统计图表。
PaperBanana采用多智能体协作架构,通过检索范例、规划结构、视觉转化及评论修正的闭环迭代,确保图表的语义逻辑正确性。该系统不仅支持从零生成方法框图,还能对用户草图进行美化与规范化重排。在处理统计图表时,它利用Gemini-3-Pro编写代码而非直接生成像素,有效保证了数据呈现的精确度,显著降低了科研人员在绘图排版上的时间投入。
马斯克旗下xAI正式上线视听生成模型Grok Imagine 1.0,支持文生视频与图生视频双模式,主打“高保真音频同步”与“极致推理效率”。
该模型单次可生成10秒720P视频,核心优势在于实现了角色语音、环境音效与画面节奏的精准对齐,并具备物体增删、风格迁移及动作驱动等精细化视频编辑能力。据Artificial Analysis基准测试显示,Grok Imagine在生成延迟与成本控制指标上均位列行业第一,目前已开放API并免费提供Web端试用,仅测试期月生成量即突破12亿条 。
OpenAI正式发布Codex桌面应用(首发macOS),基于GPT-5.2-Codex模型构建,将AI编程范式从传统的“结对编程”对话框升级为全生命周期的“智能体指挥中心”。该产品打破了单线程交互限制,允许开发者以管理视角指挥多个AI Agent并行协作,旨在解决大模型能力提升后的人机大规模协作难题。
技术架构上,Codex利用Git worktrees技术实现环境隔离,支持多个Agent在同一仓库的不同分支独立处理任务,消除上下文冲突。其核心引入“Skills”与“Automations”模块:前者将工具链(如Figma UI还原、Vercel部署、Linear管理)封装为可复用能力,支持通过API扩展;后者支持后台定时执行Bug分类、CI故障排查等重复性工作。配合系统级沙箱机制保障安全性,Codex实际上将开发者的角色从代码编写者转变为技术决策者与流程管理者,显著提升了复杂工程的交付吞吐量。
英伟达机器人团队负责人Jim Fan发文指出,AI技术正处于从以LLM为代表的“预测下一个词”向以世界模型(World Modeling)为核心的“预测下一个物理状态”进行范式转移。
他在文中批评现有视觉语言模型(VLA)本质仍是“语言优先”,将视觉视为“二等公民”,虽擅长知识检索却缺乏对物理规律的推演能力。
第二代范式即“大世界模型”(LWM),旨在构建可学习的物理模拟器,通过海量视频流数据训练,在特定动作约束下预测未来的RGB帧、3D空间运动及触觉变化。该路径主张摒弃语言中转,直接在视觉空间建立“思维链”以解决物理难题。
腾讯混元与复旦大学联合团队发布姚顺雨入职后的首篇署名论文《CL-bench》,推出针对大模型“上下文学习(Context Learning)”能力的全新评测基准。该研究打破了“长窗口即万能”的行业迷思,证实即便向模型提供完备的上下文信息,若缺乏实时从当前环境中汲取新知识的能力,模型仍无法解决实际问题,揭示了当前AI在动态适应性上的本质缺陷。
CL-bench包含500个全封闭、无污染的专家级复杂场景(如虚构法律、新编程语法),强制模型脱离预训练记忆,仅依赖当前信息进行演绎与归纳。测试结果显示,包括GPT-5.1在内的SOTA模型平均解决率仅17.2%,在处理从未见过的规则或需从数据中归纳定律时表现拙劣。该成果表明模型正处于从“参数化背书”向“实时学习者”转型的瓶颈期,未来竞争焦点将从预训练数据规模转向高价值上下文的构建及知识的持久化记忆机制。
MIT何恺明团队发布Pixel Mean Flow (pMF)模型,彻底摒弃传统扩散模型中“多步采样”与“潜空间压缩”两大核心组件,实现了一步端到端像素级图像直出。
该模型基于流形假设,通过构建变换场直接预测去噪后的流形图像,从而解决了高维像素空间预测崩溃的问题,并首次在生成器训练中原生引入感知损失 。实验显示,pMF在ImageNet 256分辨率下达到2.22 FID,刷新了单步无潜空间模型的最佳成绩,且计算效率显著优于StyleGAN-XL(仅需其1/6算力),同时完全省去了VAE解码器的巨额推理开销 。这一突破证明了在不依赖潜空间“拐杖”的情况下,极简架构依然能实现高效的高保真生成,为端到端生成建模开辟了新路径 。
Waymo目前核心业务是提供L4级无人驾驶网约车服务,旨在通过移除驾驶员成本并提供超越人类的安全水平(严重事故率降低90%)来重构出行经济学。它在旧金山、凤凰城、洛杉矶等全美6大都会区运营,周订单量突破40万单,2025年全年订单量激增至1500万单,不仅实现了全无人驾驶(无安全员),还打通了旧金山国际机场接驳及Uber合作等高频高价值场景,展现了极强的商业落地能力与运营壁垒。Waymo计划在2026年进驻包括伦敦和东京在内的20多个新城市。
2.SpaceX收购xAI,合并估值1.25万亿美元,构建天基AI算力网络
SpaceX正式宣布以全股票形式收购人工智能公司xAI,合并后的实体总估值高达1.25万亿美元,其中SpaceX估值约1万亿美元,xAI估值约2500亿美元 ,这两家公司都属于马斯克旗下。
此次合并的核心商业逻辑在于突破地面AI算力发展的两大物理瓶颈:能源供给与散热限制。马斯克计划构建“轨道云”,利用Starlink V3卫星搭载的高速激光链路与计算节点,直接在太空中利用24小时无间断的太阳能及辐射散热优势运行Grok模型的推理与训练任务,从而摆脱地球电网的资源匮乏问题。这一战略打通了从火箭发射(运力)、星链(通信/算力载体)、X平台(实时数据)到特斯拉(终端/传感器)的垂直整合闭环,构建了纯软件AI公司无法复制的基础设施护城河.
3.AI语音独角兽ElevenLabs获5亿美元融资,估值飙升至110亿美元
ElevenLabs正从单一的“语音AI模型商”向“多模态AI代理平台”演进。针对单纯语音模态在复杂交互中的局限,ElevenLabs正利用新资金研发结合“语音+视频+执行”能力的下一代产品。通过与LTX合作引入音频转视频技术,并开发能“说话、打字、行动”的综合Agent,旨在重构人机交互体验。它在商业化层面表现强劲,年底ARR已达3.3亿美元,且仅用5个月时间即实现ARR从2亿至3亿美元的跃升。
Positron AI精准切入AI从“模型训练”转向“大规模部署”的结构性机会,核心解决现有GPU在推理场景下存在的“内存墙”与能耗瓶颈。不同于NVIDIA侧重通用计算,Positron采用了“内存优先”的架构设计,其下一代Asimov芯片计划配备超过2TB的内存(是NVIDIA下一代Rubin GPU的6倍),旨在通过极高的内存带宽和容量,大幅降低长上下文、视频处理及万亿参数模型的推理成本。其技术壁垒已在商业侧得到强验证:领投方Jump Trading正是在测试中发现Positron现有的Atlas系统比Nvidia H100系统延迟降低了3倍,才从客户转变为核心投资方。
Positron AI CEO Mitesh Agrawal率领团队构建了基于Arm生态的软硬件栈,计划于2026年底完成下一代芯片流片,2027年初实现量产,意在通过高频发货节奏抢占推理基础设施市场。
David Silver是AI领域的传奇人物,作为DeepMind创始团队成员,他主导了AlphaGo、AlphaZero、AlphaStar及MuZero(无规则自我博弈)等里程碑式项目的研发。近期他还参与了AlphaProof(数学奥赛AI)及Gemini大模型的研发工作。他的核心理念是“纯粹强化学习”,认为这是实现超越人类认知的超级智能的唯一路径。
Ineffable Intelligence的愿景是构建“一种能够不断学习的超级智能,它可以自主发现所有知识的基础”。 Silver认为,当前的大语言模型过度依赖人类数据(预训练)和人类反馈(RLHF),因此能力上限被锁死在人类认知水平。 他主张AI应像AlphaGo的“第37手”那样,摒弃人类偏见,从第一性原理出发,通过自我博弈和试错探索未知的知识疆域,从而实现真正的“非人类”智慧跃迁。
Core Automation的核心愿景是推翻目前统治业界的Transformer架构,解决现有大模型无法在部署后“从实践中即时学习”且极度依赖海量数据的痛点。
不同于OpenAI等大厂将预训练、微调割裂的传统范式,Core Automation计划重构包括“梯度下降”在内的底层数学基础,开发名为“Ceres”的单一算法模型。其技术壁垒在于实现“持续学习(Continual Learning)”能力,目标是将数据需求量降低100倍,并将模型训练步骤整合为单一流程,从而让AI具备像人类一样“边做边学”的能力。
创始人Jerry Tworek曾在OpenAI担任研究副总裁,是强化学习、推理模型、编程工具及AI智能体开发的关键贡献者。
Upwind Security旨在解决传统云安全工具(CSPM)“外部扫描”模式的弊端。现有主流方案多采用“无代理”的“由外向内”扫描,虽然部署便捷,但因缺乏内部上下文,往往产生海量误报。Upwind反其道而行,构建了“由内向外”的运行时安全平台,通过实时监控网络请求、API流量等内部信号,精准识别真正活跃的威胁。其核心壁垒在于利用eBPF等技术深入容器、Serverless及AI Agent等动态基础设施内部,将安全告警与业务运行时的真实状态强关联,从而帮助安全团队从海量噪音中筛选出真正需要处理的风险。
公司目前保持着惊人的增长速度,实现了900%的年收入同比增长,客户群翻倍,已服务Siemens、Peloton、Roku、Nubank等头部企业。
Upwind Security创始人Amiram Shachar及其核心团队拥有极其成功的“云基础设施”创业背景,此前创立的云算力优化平台Spot.io于2020年以4.5亿美元被NetApp收购。
Resolve AI 切入的是企业级“站点可靠性工程(SRE)”场景,核心解决在 AI 辅助编码导致软件变更速度激增的背景下,传统运维手段无法匹配的结构性痛点。Resolve AI 并非单纯的监控报警工具,而是构建了具备“生产环境上下文理解”能力的 AI Agent。
其技术壁垒在于让 AI 深度学习特定企业的代码、遥测数据、云基础设施配置及历史操作记录,从而能够跨越碎片化的工具链进行逻辑推理。产品不仅能精准定位故障根因,还能在工程师监督下自主执行回滚、容量调整等复杂决策,将运维从“救火模式”转变为“主动治理”。目前已在 Coinbase(MTTR降低72%)、DoorDash 及 Zscaler等头部科技企业实现落地。
Shield采用“私募股权+AI运营改造”的整合策略(Roll-up),通过收购中小型IT服务商的多数股权,随后注入自研AI技术以大幅提升人效。它不同于仅在侧面添加聊天机器人的浅层应用,Shield深入业务核心,利用AI对IT工单进行智能分类与自动化处理,目前已实现约60%的工单由AI独立解决,终极愿景是打造完全自主运作的虚拟IT工程师系统。 其差异化在于利用OpenAI(Thrive利益相关方)的工程资源与底层模型能力,基于收购获取的真实业务数据训练专用模型,构建了难以复制的数据与技术闭环。
Shield操盘手Jim Siders曾任大数据巨头Palantir的首席信息官(CIO),深谙复杂系统的数字化转型。
10.Axiom获超1亿美元融资,估值15亿美元,主攻AI数学推理与形式化证明
AI数学初创公司Axiom正在进行一轮超过1亿美元的新融资,投后估值高达15亿美元,本轮融资由Menlo Ventures领投。
Axiom解决的是现有大模型在数学逻辑上的“幻觉”痛点(如无法准确判断9.11与9.8的大小)。不同于传统的概率生成模式,Axiom采用“形式化数学证明”技术路线,利用专用软件对AI生成的解题步骤进行严格的逻辑核验,从而构建能自我优化且结果可验证的“AI数学家”系统。 其技术壁垒已获强验证:模型成功解出了普特南数学竞赛(Putnam Competition,顶级本科生数学竞赛)的全部12道试题。 商业化方面,公司计划向对冲基金和量化交易员输出这种高精度的复杂推理能力,用于资产定价与市场分析。
Axiom创始人Carina Hong具备极强的学术背景,拥有麻省理工学院数学与物理双学位及牛津大学神经科学硕士学位,系斯坦福博士退学创业。核心团队汇聚了Shubo Sengupta、François Chardon等前Meta AI专注于数学研究的资深科学家。
11.Phylo获1350万美元种子轮融资,打造AI驱动的生物科研集成环境(IBE)
Phylo致力解决生物医学研究中工具碎片化与人工流程低效的核心痛点。不同于单一的分析软件,Phylo提出了“集成生物学环境”(Integrated Biology Environment, IBE)这一全新品类,其核心产品Biomni Lab是一个由AI Agent驱动的操作系统,集成了300多种数据库、软件及分析工具(如Consensus、COSMIC等)。科研人员可通过自然语言指挥AI Agent自动执行跨数据模态、跨疾病领域的复杂任务(如药物发现、实验设计),从而将原本耗时数周的湿实验与分析流程压缩至数小时。该逻辑已在与Ginkgo Bioworks的合作中得到验证,成功加速了复杂的细胞成像与转录组分析。
本文由阿尔法公社综合自多个信息源,并在AI模型的辅助下写作,封面图片由AI生成。