资讯
高阳团队发布重磅成果 Point-VLA用单个视觉框攻克具身智能核心难题
本文介绍千寻智能高阳团队推出的Point-VLA具身智能方案,通过在指令中加入视觉框锚定目标,无需改动现有模型架构和海量标注,即可解决纯文本指令指代歧义、泛化不足的痛点,真实场景操作平均成功率达92.5%,还同步提升了纯文本模式下的模型性能。
美团发布多模态模型LongCat-Next 视觉语音底层统一
本文介绍美团4月3日发布的原生多模态大模型LongCat-Next,其依托DiNA架构实现图文音模态底层统一,在多项测试中性能超越专用模型,已全面开源,可为开发者研发能感知真实世界的AI提供核心技术支持。
高德开源ABot-M0基座模型
本文介绍高德CV Lab推出的全量开源自研具身基座ABot-M0,该框架针对具身智能领域数据异构、跨形态泛化难、学习效率低三大痛点,通过统一标准化数据集、动作流形学习新范式、多模态感知架构,为通用机器人智能体研发提供完整开源技术栈,附相关论文、代码及项目主页链接。
谷歌发布开源模型Gemma4 采用Apache许可证助力开发者
谷歌正式发布了其新一代开源AI模型Gemma4,标志着其在开源策略上的重大转变。该模型采用业界公认的Apache 2.0许可证,赋予开发者更大的自由度,可无顾虑地使用、修改和分发,尤其利于商业化应用。Gemma4在技术架构上实现了性能飞跃,能够处理更复杂的开发任务。同时,其与现有开发者生态系统(如Android)的高度兼容性,极大降低了技术门槛,使得中小型企业也能轻松部署高质量的AI解决方案,彻底释放开发者生产力。
谷歌Vids整合Veo3.1 文字指令操控AI虚拟形象
本文介绍谷歌4月2日为企业级视频创作应用Vids升级的核心功能:集成Veo3.1模型后支持文字提示词指挥AI虚拟形象完成场景互动,保持角色视觉一致性,同时叠加多模态能力、导出分发配套功能,标志AI视频工具向自动化导演阶段进阶,还提及同日微软发布新模型的行业竞争动态。
谷歌发布Gemma4开源大模型 31B版跻身全球开源前三
本文介绍谷歌于4月3日正式发布的开源大模型Gemma4,涵盖4种不同规格,全系支持多模态输入,部分版本原生支持语音输入,31B稠密版位列全球开源大模型榜单第三,支持本地部署且兼容多类硬件,依托Apache2.0协议为开发者提供高灵活性的AI应用开发底座。
AI仿生皮肤突破水下探测 机器人实现激流触觉感知
本文介绍浙大与新国大联合研发的AI仿生水下电子皮肤。受鲨鱼侧线启发,该皮肤结合仿生鳞片物理降噪与深度学习算法,能在湍流、高压及零能见度环境中精准识别微细纹理。该技术突破传统声呐与视觉局限,赋予水下机器人高精度触觉感知,为深海探测提供全新解决方案。
北大谢广明团队研发仿生章鱼抓取器 秒级切换刚柔态突破水下软体机器人响应瓶颈
北京大学谢广明教授团队受章鱼启发研发新型水下仿生抓取器。该装置利用海水散热与三层热界面结构,实现秒级刚柔切换,破解传统软体机器人响应慢难题。结合零能耗锁定与多模态设计,可高效完成复杂水下环境中的静音抓取与运输,为海洋探测提供创新方案。
蚂蚁集团与清华联合开源ClawAegis 应对智能体安全风险
蚂蚁集团与清华大学联合开源智能体安全插件ClawAegis,专为OpenClaw框架打造。该插件覆盖智能体全生命周期,提供轻量化纵深防御体系,有效拦截指令注入、数据污染及权限越界等威胁。通过无缝集成与动态防护,助力构建安全可信的智能体运行环境。
蚂蚁AI安全实验室开源ClawAegis 破解OpenClaw类智能体安全难题
蚂蚁集团AI安全实验室联合清华开源ClawAegis插件,首创覆盖OpenClaw全生命周期防御体系。该工具可无缝集成,动态拦截指令注入与意图篡改等威胁,提供轻量化即时防护。旨在系统化解智能体安全风险,共建可信可控AI生态。
国芯 AI 驭未来,酒仙桥论坛三大升级启新篇
第二届酒仙桥论坛将于4月14日至16日在京举行,以“国芯AI驭未来”为主题,聚焦AI赋能地方发展、产业创新与技术突破。大会汇聚政产学研多方力量,设置四大方向百余议题,旨在破解AI底座搭建与智慧城市发展痛点,发布前沿报告与新品,共探智能经济新路径,助推人工智能全面赋能千行百业。
具身智能新突破:高德全量开源通用机器人基座模型 ABot-M0
高德正式开源全球首个统一架构的通用机器人基座模型ABot-M0,实现一个通用大脑适配多种机器人形态。该模型在多项权威基准测试中刷新SOTA纪录,涵盖数据、算法与模型全量开源,助力具身智能从实验室走向工业与家庭场景。
告别 AI 标准脸:阿里发布 Wan2.7-Image,开启“千人千面”新时代
阿里大模型团队发布Wan2.7-Image图像生成与编辑模型,突破AI生成图像的标准化限制,实现千人千面的个性化创作。该模型支持精准捏脸、色彩控制、3K Token超长文本渲染及交互式编辑功能,大幅提升创作自由度与专业内容生产效率。
真人AI剧赛道爆发 巨日禄多款专属模型上线 重新定义AI演技
巨日禄重磅推出多款真人AI剧专属模型,实现声画同步、精准对口型等核心突破,彻底解决传统AI剧质感假、无演技、难控制等痛点。新模型不仅提升画质至电影级别,更赋予AI角色真实情感表达,让AI演员具备商业级演技。同时大幅降低制作成本,效率提升5倍,为创作者提供全场景适配的工业化解决方案。
蚂蚁灵波开源2.7T深度数据集 含200万真实样本覆盖6款相机
蚂蚁灵波科技开源LingBot-Depth-Dataset,包含300万对RGB-D深度数据样本(200万真实场景+100万渲染),总规模2.71TB,覆盖6款主流深度相机。这是目前开源社区中规模最大的真实场景RGB-D数据集,将为具身智能、空间感知和三维视觉研究提供高质量数据支持,有效提升模型在真实环境中的应用性能。