CLIP驱动的基于文本的实例分割基于文本的实例分割,大概就是给出一段文字,然后在图片中标注出符合描述的一片区域