Dinov3 是 meta fair 提出的新一代视觉基础模型家族,强调“高质量稠密特征(dense features)”与广谱适用性:无需或仅需极少微调,即可在分类、目标检测、语义分割. 如果你想搞乱自监督视觉,或者构建一些运行良好而又不易受到域转移影响的东西,请开始研究 dinov3。 它不仅仅是另一个 vit,它是 vit 真正理解空间时的样子。 Import torch # dinov3 dinov3_vitl16_dinotxt_tet1280d20h24l, tokenizer = torch.