DeepMind果蝇登Nature,强化学习再立功,AI模拟飞行,逼真到腿毛颤抖
谷歌DeepMind与HHMI Janelia研究所合作,利用AI和物理模拟技术打造了一个逼真的虚拟果蝇模型,该模型能精准模拟果蝇的飞行与行走,并通过深度强化学习模仿真实果蝇的行为。
研究团队详细扫描了一只雌性果蝇的身体,构建了精确的三维模型,并在MuJoCo物理引擎中加入新的功能,如模拟翅膀扇动与空气的流体相互作用,以及设计黏附执行器来模仿果蝇脚部与地面的抓握力。
通过深度强化学习和模仿学习,虚拟果蝇学会了复杂的运动模式,展现了与真实果蝇相似的飞行和行走行为,研究团队已将该模型开源。
618大促前,拥有专属数字人是种怎样的体验?真·提效神器
随着AI技术的发展,巨量引擎旗下的即创数字人平台通过生成高质量的数字人素材,显著提升了内容生产效率,降低了视频制作成本。商家通过定制专属私有数字人,实现了内容的高效生产和营销提效。
体验者反馈,即创数字人不仅高度仿真,操作简便,还能通过智能工具快速生成高质量视频,成为商家在618大促等关键节点提升竞争力的重要工具。
巨量引擎即创数字人正重新定义内容生产力,成为商家降本增效的有力武器。
英伟达揭示RL Scaling魔力!训练步数翻倍=推理能力质变,小模型突破推理极限
来自英伟达的ProRL框架通过长期强化学习显著提升了大语言模型的推理能力,特别是在逻辑谜题和数学任务上取得了重大突破。
ProRL通过多样化可验证奖励、改进算法组合、KL正则化和周期性策略重置等技术手段,解决了传统RL训练中的熵崩塌和性能震荡等问题,使得模型能够生成全新的解题路径。
这项研究证明了长期稳定的强化学习能够真正拓宽模型的能力边界,为小模型在复杂推理任务中的应用提供了新的可能性。
西门子“Realize LIVE”活动透视:AI+工业软件新征程,持续推进一站式AI解决方案
西门子在2025年Realize Live大会上强调其推动制造业数字化转型的战略,重点介绍了Xcelerator平台的持续演进和AI技术的应用,旨在提升制造敏捷性和运营效率。
大会还展示了西门子通过收购Altair强化数字孪生技术的能力,以及低代码开发平台Mendix和PLM解决方案的升级,助力企业快速响应市场变化。
Workhorse首席信息官Jeff Mowry分享了Workhorse如何利用西门子的数字化转型工具,如Teamcenter X和NX,实现从设计到生产的快速流程,推动电动卡车产品的高效开发。
论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster
开源框架PosterAgent能够一键将论文转化为学术海报,相比GPT-4o,PosterAgent在生成指标上更优,token使用量减少87%,成本仅为0.0045美元。
PosterAgent采用多智能体框架,包括解析器、规划器和绘制器-评论器三个组件,能够实现多模态海报的自动生成,并通过Paper2Poster评估基准进行优化。
实验结果显示,PosterAgent在视觉质量和文本连贯性上表现优异,且成本远低于其他方法,适用于学术会议和公司PPT制作。
经典ReLU回归!重大缺陷「死亡ReLU问题」已被解决
德国吕贝克大学等机构的研究者提出了一种名为SUGAR的新方法,通过在反向传播时使用非零、连续的替代梯度函数,解决了ReLU单元的“死亡ReLU问题”,从而显著增强了网络的泛化能力和测试准确率。
实验结果显示,SUGAR结合B-SiLU激活函数在CIFAR-10和CIFAR-100数据集上的测试准确率分别提升了10个百分点和16个百分点,而结合ELU和SELU也提供了可靠的改进。
SUGAR方法易于实现,适用于多种现代架构,展示了其在深度学习领域的适应性和有效性。
最新必读,互联网女皇340页AI报告解读:AI岗位暴涨,这些职业面临最大危机
互联网分析师Mary Meeker发布了一份长达340页的《AI趋势报告》,详细分析了AI技术路径、投资规模及对自动驾驶等领域的影响。
报告指出,AI带来的变化前所未有,ChatGPT用户增长迅速,资本支出大幅增加,英伟达成为最大受益者,同时开源模型正在缩小与闭源模型的差距。
AI正在加速渗透到多个领域,推动行业生态和工作方式变革,成为新基建的重要驱动力。
余承东含沙射影,雷军不点名回应,端午车圈口水仗没停
智能车参考报道,端午期间车圈口水战未停,余承东在深圳开炮,雷军隔空回应。
余承东在大会上批评了某些跨行企业凭借品牌和流量优势卖爆产品,同时呼吁打击吹牛,鼓励真牛,引发行业内外热议。
价格战仍在继续,中国汽车工业协会呼吁避免恶性竞争,行业大佬纷纷发声抵制。
视觉感知驱动的多模态推理,阿里通义提出VRAG,定义下一代检索增强生成
来自阿里巴巴通义实验室的最新研究成果——VRAG-RL,通过引入强化学习算法,全面提升视觉语言模型在检索、推理和理解视觉信息方面的能力,有效解决了传统RAG方法在处理视觉丰富信息时的挑战。
VRAG-RL 通过定义视觉感知动作空间和多轮交互机制,使模型能够从粗到细逐步聚焦信息密集区域,精准提取关键视觉信息,显著提升了模型的推理能力和检索效率。
该方法在多个基准数据集上取得了显著优于现有方法的性能,为多模态智能体的训练提供了新的解决方案,开启了视觉感知驱动多模态推理的新时代。
网友晒21页PDF质疑Grok 3套壳Claude,Grok 3自己承认了,xAI工程师被喷无能
近日,有用户在网上爆料称,埃隆·马斯克旗下 xAI 公司最新发布的 Grok 3 人工智能模型在“思考模式”下自称是竞争对手 Anthropic 公司开发的 Claude 3.5 模型,引发广泛关注。
该用户提供了与模型的完整对话记录,显示模型在特定模式下明确表示自己是 Claude,尽管始终显示 Grok 标识。模型的异常回应并非随机,仅在“思考模式”下触发。
模型坚持认为自己是 Claude,即便用户提供了 x.com 网站名称和“Grok 3”标识的图片证据,仍否认自己是 Grok 3,导致进一步混淆。
音频大模型安全可信度的全面“体检”!清华南洋理工联手打造
首个专为音频大语言模型(ALLMs)设计的多维度可信度评估基准AudioTrust由南洋理工与清华大学联合提出,扩展评估范围至公平性、幻觉、安全性、隐私、鲁棒性和身份验证六个核心维度,填补了现有评估框架的不足。
AudioTrust采用两阶段架构,第一阶段支持高效批量处理,第二阶段进行自动化、多维度评估,深入探究音频模态特有的安全与可信问题,全面提升了模型的可信度。
该基准及评估平台现已全面开发,旨在推动音频大模型的健康发展,提升其在实际应用中的可靠性和安全性。
本周日不见不散!CVPR 2025北京论文分享会最后报名了
谷歌在I/O 2025大会上发布了最新AI视频生成模型Veo 3,实现了音画同步,被誉为跨时代产品,标志着AI视频进入「有声时代」。
为让从业者了解AI社区的最新创新成果和发展趋势,机器之心计划于6月8日在北京举办「CVPR 2025论文分享会」,围绕多模态、视频生成等主题邀请专家进行交流。
分享会设有Keynote、论文分享、圆桌对话、Poster交流及企业展位交流等环节,特别设置了「迈向理解与生成统一的多模态大模型」主题圆桌讨论。