visual-reasoning
话题找到数量
salesforce/BLIP
BLIP 模型的 PyTorch 实现:通过自举法实现语言-图像预训练,达成统一视觉-语言理解与生成
5.7k
763
143
+1