遏制AI幻觉:苹果DeepMMSearch-R1论文揭秘“图像裁剪”搜索术
2026-01-15 10:47
#科技
本文揭示了苹果公司在其研究项目DeepMMSearch-R1中使用的一种新颖的技术——“图像裁剪”搜索术,该技术通过精确地调整和修改原始图像,使其更符合用户的预期,并减少对实际图像的依赖,这一方法对于提高图像检索的准确性和效率至关重要,尤其是在处理大量图像数据时,通过这种方法,用户可以更快地找到他们需要的信息,而无需花费大量时间进行复杂的图像预处理工作。,尽管“图像裁剪”搜索术具有很高的潜力,但它也存在一些潜在的风险和挑战,如何在保证用户体验的同时,确保算法的准确性和稳定性是一个亟待解决的问题,这种技术也可能引发隐私问题,因为它涉及到对用户个人信息的敏感操作,在实施此类技术之前,必须对其进行深入的研究和测试,以确保它既能满足性能需求,又能遵守相关法律法规和伦理标准。
IT之家 1 月 15 日消息,科技媒体 Appleinsider 今天(1 月 15 日)发布博文,报道称苹果发表重磅研究论文,详细介绍名为 DeepMMSearch-R1 的 AI 模型,重点优化 AI 在复杂视觉场景下的搜索逻辑,用“裁剪”治愈 AI 幻觉。

针对现有 AI 模型在处理复杂视觉信息时常出现的“答非所问”或“漏看”问题,苹果推出了 DeepMMSearch-R1 模型。传统模型在面对“图中左上角那只鸟的最高时速是多少”这类复合问题时,往往因无法聚焦局部细节而给出错误的平均数据。

DeepMMSearch-R1 引入了独特的“视觉定位工具(Grounding Tool)”,能够主动裁剪图片以剔除干扰信息,先精准识别微小目标,再进行针对性的网络搜索验证,从而确保答案的事实准确性。
为确保模型仅在必要时才启用裁剪功能以节省算力,研究人员采用了“监督微调(SFT)+ 在线强化学习(RL)”的组合训练法。SFT 负责教会模型“不乱剪”,而 RL 则提升了工具调用的效率。

测试数据显示,该模型在处理需精准图文对应的问题上,表现显著优于目前的 RAG(检索增强生成)工作流及基于提示词的搜索智能体,成功解决了 AI 在常识性事实检索中的“偷懒”现象。

IT之家附上参考地址
枣庄零距离