资讯
八大VLM操控机器人实测:Gemini登顶 GPT-5.2全败 三大缺陷曝光
普渡大学与意大利理工学院联合测试8大主流视觉语言模型(VLM)在实体机器人操控中的表现,Gemini Flash以75%成功率夺冠,而GPT-5.2等模型表现不佳。测试揭示了VLM在物理世界中的三大致命缺陷,并指出闭环推理与模块化设计是提升机器人操控能力的关键。
NVIDIA开源大模型Nemotron 3 Super性能媲美GPT-5.4
英伟达发布开源大模型Nemotron 3 Super,采用创新的Mamba-MoE混合架构,推理速度提升300%,性能直逼GPT-5.4。该模型支持1M超长上下文,已在多项权威测评中表现优异,并被多家科技巨头集成。
Hume AI开源TADA模型 手机端可流畅运行700秒长音频
Hume AI开源了其最新TTS模型TADA,采用文本-声学双对齐架构,实现5倍速生成与零内容幻觉,支持多语言并在低功耗设备上运行长达700秒长音频。该模型还支持同步转录,提升语音交互与内容创作效率。
OpenRouter推出匿名模型Hunter Alpha和Healer Alpha 支持1T参数与多模态输入
OpenRouter 平台上线了两款匿名新模型 Hunter Alpha 和 Healer Alpha,分别拥有最高 1T 参数量和 262K token 上下文窗口,支持多模态输入。两款模型均被推测与智谱AI相关,具备强大的推理与执行能力,目前免费使用。
智元机器人ACoT-VLA框架获CVPR 2026收录 实现机器人动作空间自主决策
本文介绍了智元机器人联合北航团队提出的ACoT-VLA框架,该框架直接在动作空间进行思考决策,成功解决机器人执行动作中的语义与运动鸿沟问题,并在LIBERO、LIBEROPlus和VLABench三大基准测试中取得优异成绩。文章也探讨了其技术原理和创新点。
OpenClaw实现边用边训 智能体强化学习框架AReaL v1.0稳定版发布
蚂蚁集团与清华大学联合发布开源强化学习训练框架AReaL v1.0稳定版,支持智能体一键接入RL训练,无需修改代码即可实现持续优化。该框架通过Proxy Worker中转层简化接入流程,并推出原生训练引擎Archon,支持5D并行训练,大幅降低开发门槛。AReaL还引入AI辅助开发体系,显著提升工程效率,引领下一代AI基础设施工程革新。
腾讯清华联手推出SongGeneration 2 音素错误率仅8.55%
腾讯与清华大学联合发布的SongGeneration 2音乐基础模型在AI音乐领域实现重大突破,音素错误率低至8.55%,超越主流商业模型。该模型采用创新的LLM-扩散混合架构,支持多语种生成,并在消费级硬件上流畅运行,标志着AI音乐正式进入商业级应用阶段。
MiniMax语音音乐模型登陆OpenClaw 支持音色定制与一键作曲
MiniMax 将其顶尖的语音和音乐模型深度集成到 OpenClaw 生态中,赋予AI助手“小龙虾”语音回复和音乐创作能力。用户可通过自然语言定制音色,生成个性化语音,还能一键创作流行音乐或纯音乐。操作简单,即插即用,让办公软件更具人情味。
VLA本体状态引担忧 人大北航突破获ICLR26认可
人大高瓴GeWu-Lab与北航联合团队研究发现,在机器人操纵任务中,视觉-本体策略在运动转变阶段会出现视觉模态失效问题。团队提出基于阶段引导的梯度调整算法(GAP),通过动态调整优化强度提升策略性能,该研究已被ICLR 2026接收。
阿里达摩院推出MAOSS模型 AI筛查脂肪肝效率倍增
阿里巴巴达摩院联合多家医院研发的MAOSS AI模型,通过平扫CT技术高效筛查脂肪肝和肝纤维化,诊断精度超越医生水平,高风险检出率提升2倍以上。该技术有望在基层医院推广,实现慢性肝病早发现、早逆转。
小红书开源AI编辑模型FireRed-Image-Edit v1.1 解决ID一致性与复杂融合问题
小红书发布图像编辑模型FireRed-Image-Edit v1.1,优化ID一致性与复杂融合等场景,显著提升推理效率与工程可行性。该模型的全面开源,为内容创作和商业化提供了强大支持,也推动了多模态智能在电商与社交场景的应用。
苏黎世联邦理工研发仿生气动机械手 精准复刻人体解剖结构
瑞士苏黎世联邦理工学院(ETH Zurich)研究团队开发出一款高度仿生的气动肌肉机械手,采用3D打印技术一次成型,精确复刻人体解剖结构。该机械手使用22块独立控制的气动人工肌肉,性能接近生物肌肉,成本大幅降低。具备触觉感知能力,能完成多种抓握动作,为仿生机器人和假肢设计提供了新思路。
机器人微操创纪录 42G弹射横跨14数量级精准操控
苏州大学联合国际团队研发出基于功能液态金属的通用抓手LiMU,通过电化学与磁场协同调控,实现从皮克级到百克级物体的超柔顺抓取与主动释放,释放加速度高达42G,操作接触压力低至10 Pa,为机器人微操控提供了全新范式。
斯坦福李飞飞团队提出新框架 机器人可从错误中学习
斯坦福李飞飞团队提出全新 Reflective Test-Time Planning 框架,赋予机器人类人的反思能力,使其能从错误中学习并优化决策。该框架通过三重反思机制,显著提升任务成功率,展现出强大的实际应用潜力。
西南科大爬壁机器人实现全角度翻转突破
本文介绍西南科技大学研发的一款翻转连续体爬壁机器人,其灵感来源于象鼻子和尺蠖结构,具备387°超强弯折能力及多模态运动性能。该机器人采用电磁吸附技术,适应多种复杂工业场景,具有重要的学术价值与工程应用潜力。