平博pinnacle新闻

平博pinnacle

当前位置: 首页 > 平博pinnacle新闻

平博pinnacle新闻

首页 > 平博pinnacle新闻

平博pinnacle体育平台:已部署英伟达芯片,IDEA开集检测模型实现端侧部署突破,赋能具身智能

作者:平博发布时间:2025-01-31

  深圳商报·读创客户端首席记者 袁静娴

  2023年,IDEA研究院CVR团队在GitHub上推出了广受关注的开集检测模型Grounding DINO和能检测、分割一切的Grounded SAM。这些开源模型被国内外很多团队用于各类视觉及多模态应用中。

  5月24日,记者从IDEA研究院获悉,该团队推出全新升级版Grounding DINO 1.5。模型分为Pro和Edge两个版本,其中Edge版实现了端侧可部署的革命性突破,已部署在英伟达的Orin NX卡上,将强力赋能具身智能、自动驾驶等新型应用场景。

  IDEA研究院创院理事长沈向洋在社交媒体上推荐 Grounding DINO 1.5

  据该团队介绍,Grounding DINO 1.5 在其前身 Grounding DINO 的基础上,通过结合更大的视觉backbone扩大模型尺寸,并使用超过2000万的Grounding 数据获得了丰富的语料,大幅提升了检测精度和速度,且通过Pro和Edge版本分别针对不同应用场景进行了优化。其中,Pro版本在大规模数据集构建和高精度需求场景中表现卓越,Edge版本则在端侧部署中展示了其独特的优势。

  Grounding DINO 1.5 Pro版本实现了当前开集目标检测的最先进水平(SOTA),在图像和文本的语义理解上表现出色,能够快速、准确地根据语言提示检测和识别图像中的目标对象。比如,物体级别理解是机器和物理世界交互的感知基础,也是解决多模态大模型(VLM)幻觉问题绕不过去的基础问题。 作为当前性能最好的开集检测模型,Grounding DINO 1.5 Pro 可以帮助构建海量的具有物体级别语义信息的多模态数据,从而有效地助力多模态大模型的训练。

  Grounding DINO 1.5 将长文本描述中的短语与图像中的具体对象或场景精确匹配,以增强AI对视觉内容和文本之间关系的理解

  在其他需要处理大量复杂数据的领域,如电商、社交媒体和自动驾驶等,Grounding DINO 1.5 Pro 也具有强大应用价值。 例如,在电商领域,该模型可以帮助快速标注商品图像,优化搜索和推荐系统。在社交媒体中,该模型能自动标注用户上传的图片,提升内容审核和分类的效率平博pinnacle体育平台

  从最后两行可看出,Grounding DINO 1.5 Pro经过微调,在多个数据集上都展现出大幅的性能提升

已部署英伟达芯片,IDEA开集检测模型实现端侧部署突破,赋能具身智能

  NVIDIA Orin NX卡部署Grounding DINO 1.5 Edge 实拍

  在端侧部署方面,Grounding DINO 1.5 Edge版本展现了其独特的优势。记者了解到,通过模型结构优化,成功部署在英伟达的Orin NX卡上,并实现了10FPS的推理速度平博。该团队表示,相比业界现有的其它模型,Grounding DINO 1.5 Edge的这一能力属于首创,为大模型的端侧部署开辟了新的领域。

  Grounding DINO 1.5 Edge部署在端侧后执行目标检测任务实拍,区分真假植物轻松无压力。

  例如,在目前最火爆的具身智能领域,在端侧部署的开集检测模型可以使机器人真正和开放环境进行交互。在自动驾驶领域,Grounding DINO 1.5 Edge未来可以在车辆上实时运行,实现高效的目标检测和环境感知,提高驾驶安全性。在智能安防中,该模型能快速处理视频监控数据,实时检测异常行为,提升安全监控的响应速度。

  IDEA研究院CVR团队表示,未来还会不断进行端侧工程优化,致力于进一步提升Grounding DINO 1.5 Edge的实时性能和检测精度。Grounding DINO 1.5 Edge的运行速度有望提升至20到30FPS,进一步扩大其在边缘计算领域的应用范围。

13244777854

168169@pingbopinnacle.com