AI 能看懂细节了!老师 足交
IDEA 商榷院发布基于多模态大说话模子的贪图检测模子 DINO-XSeek。
联接视觉与说话清醒,只需通过天然说话边幅,DINO-XSeek 就能精确定位复杂场景中的贪图。
比如这张图。
消防员手合手喷水枪,站在推行任务的消防车云梯上。
戒指它能精确识别出来这个正在使命的消防员。
在东谈主来东谈主往的米兰大教堂前,找到个有金色头发的东谈主 ~
戒指也精确识别出来了。
基于 IDEA 商榷院 DINO-X 和解视觉模子,DINO-XSeek 在精确感知智力的基础上,交融了多模态大说话模子的推理与清醒智力。
它的中枢粉碎在于,不仅能识笔名词层级的贪图(如"女孩"),还能王人集解析刻画词(如"红色上衣")和介词(如"站在傍边"),着实让 AI 看懂细节。
不管是"穿红色上衣的女孩"照旧"站在白衣男生傍边的她",DINO-XSeek 都能准确检测。
传统贪图检测模子天然在贪图感知上发扬优异,但穷乏对复杂说话的清醒智力。大说话模子在文智力悟方面凸起,却在精确贪图定位上存在短板。
为了处分这一矛盾,DINO-XSeek 参考 ChatRex 的模子架构,选定了一种检索式框架。
即先使用开集贪图检测模子 DINO-X 检测图像中的整个物体,并生成候选贪图的界限框。
然后,大说话模子证明指代抒发,从检测出的贪图围聚中检索最关联的对象,而非径直瞻望坐标。
△DINO-XSeek 模子概览图。其主要有三部分构成,包括索要视觉 token 的视觉编码器、索要物体 token 的贪图检测模子,以及索要文本 token 的 tokenizer。三种 token 全部送入 LLM 中,进行物体索引瞻望。
现存主流智力,连续仅针对单实例进行历练和推理,难以草率本质全国中一条指代边幅对应多个贪图的情况。
这一设想幸免了传统 MLLM 在检测任务上的泛化繁难,使得 DINO-XSeek 能精确处理多实例指代任务。
通过天然说话边幅,DINO-XSeek 不错推理出待检测贪图的属性(如颜料、大小、姿势、一稔等)、标的(如朝向、距离、深度等)或者(物品之间或与环境的)交互关联,从而竣事精确的贪图定位。DINO-XSeek 竣事了指代抒发清醒(Referring Expression Comprehension, REC)。REC 是缱绻机视觉与天然说话清醒交叉范畴的中枢任务,旨在通过天然说话边幅精确定位图像中的贪图对象。DINO-XSeek 通过多模态交融和高等语义推理,为 REC 任务提供了更刚劲的处分决议。
老师 足交
△DINO-XSeek 识别戒指。在工业制造与质检、安防等行业运用后劲平日。
与主流贪图检测模子以物体为中枢不同,DINO-XSeek 以"清醒物体属性及关联"为中枢,不再孤就地存眷物体本人,而是专注于物体关联的处理逻辑。
具体而言,以东谈主类学习为例,以物体为中枢的模子更像是幼儿发蒙阶段对物体的解析,如幼儿会辩认谈路的"车"。跟着见地(即数据)增长,部分高阶的解析芜俚进一步识别物体基础的属性以及关联,如"红色的车"、"前边的车"、"大的车"、"货车",但仍旧难以清醒"正在推行任务的消防车"之类的更复杂的边幅。
比较之下,DINO-XSeek 则像是一位学生,如故诞生起学问储备和对事务逻辑的清醒,芜俚对"正在推行任务的消防车的云梯上拿着喷水枪的消防员"这么复杂的边幅进行正确的辩认,而不是简便地符号"消防车"或"消防员",着实竣事了雷同东谈主类对复杂场景的清醒智力。
以"清醒物体属性及关联"为切入点意味着,DINO-XSeek 将芜俚证明用户输入的业务处理逻辑来完成关联的贪图检测任务,裁减在实质坐褥运用中,用户基于视觉模子进行二次处理的后置开垦资本。
举个例子,在现时的工场活水线中,企业在使用视觉模子检测出零部件存在舛错以后,需要进一步对舛错进行分类,如划痕、裂纹、尺寸偏差等,并统计多样舛错的出现频率和散布情况,为坐褥工艺的转变提供数据撑合手。
而 DINO-XSeek 为坐褥工艺智能化提供了更多思象。比如通过使用 DINO-XSeek 精确分裂出"划痕过多的零部件"、"带裂纹的零部件"或者"尺寸不对格的零部件",企业便不错竣事零部件舛错的检测和分类使命全自动化,无需再像之前雷同参加稠密的资源对零部件舛错进行进一步分类和统计。
安全合规检测:识别「未带领护目镜的操作员」「进入危境区域的工东谈主」,触发语音警告。
△DINO-XSeek 识别戒指。教导词:The worker not wearing a safety helmet(莫得戴安全帽的工东谈主)
△DINO-XSeek 识别戒指。教导词:The worker under the steel bars(在钢筋底下的工东谈主)
质料检测:针对活水线上坐褥的零部件或最终制品,自动识别并分类多样舛错(如划痕、裂纹、尺寸偏差),为工艺转变提供更精确的数据参考。
△DINO-XSeek 识别戒指。教导词:abnormal light(相配晴明)
亚洲桃色网智能家居与生计
危境行径识别:在家庭场景中自动识别老东谈主不测颠仆等高风险现象,实时见告护理东谈主员或发出迫切警告。
△教导词:The person who fell(颠仆的东谈主)
农业与食物
农作物检测:证明发育进度对农作物进行分类,或识别腐坏、病虫害侵染的果实,灵验普及训诫和成绩效果。
△教导词:Bad apple(坏苹果)
自动驾驶
谈路场景识别:对车载录像头拍摄的谈路图像进行标注,识别出谈路、交通象征、车谈线、行东谈主、其他车辆等贪图,匡助自动驾驶汽车清醒周围环境,作念出正确的行驶决策。
△DINO-XSeek 识别戒指。教导词:The road sign pointing to Soral(指向 Soral 的路标)
停止物检测:实时标注出图像中的停止物,如路边的停止物、顷刻间出现的动物等,使自动驾驶系统芜俚提前作念出制动或躲避等操作,保险行车安全。
△DINO-XSeek 识别戒指。教导词:Tree on the road(路上的树)
对于新模子就先容到这里,接待各人体验 ~
论文相连:
官网: https://deepdataspace.com/
Blog: https://deepdataspace.com/blog/dino-xseek
— 完 —
学术投稿请于使命日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 名堂主页相连,以及推敲边幅哦
咱们会(尽量)实时恢复你
一键存眷 � � 点亮星标
科技前沿进展逐日见
一键三连「点赞」「转发」「提神心」
接待在批驳区留住你的思法!老师 足交