选择Qwen2.5-VL而不是纯语言模型有三个重要原因:它的语言和视觉空间已经预先对齐,使其更适合文字到图像的转换任务;它保持了强大的语言建模能力,没有因为多模态训练而削弱文字理解能力;它支持多模态输入,这意…...