优享资讯 | 多模态方向岂不是同时得学nlp和cv？

知乎热榜 ( ) • 2024-04-21 19:14

叫我Alonzo就好了的回答

写在前面，先聊聊关于NLP。

不知道大家对NLP的定义是不是有什么误解…也有可能是大语言模型时代之后NLP才真正火出圈，个人理解真正的NLP是linguistics那一套东西，具体点就是做parsing、CCG、知识图谱这种东西的，跟现在所谓的“NLP”完全不是一回事，也就可以理解为什么ChatGPT一出来很多人都在说“NLP已经死了”。有机会的话可以对比一下17、18年NLP的code和现在研究的code，完全不是一个概念，现在有transformers库的封装，已经方便太多了。

对于问题本身，个人观点是多模态方向更多的还是偏向CV。

最早做多模态的这帮人其实就是做cv的，做image captioning、image-text matching、text-based image retrieval，等等，这些工作对于NLP基础知识只要知道怎么做tokenize就可以了，具体点也就是调一个BERT tokenizer。

甚至现在很多做LLMs研究的也未必懂传统NLP的知识，基本上都是堆数据、堆算力、改训练策略，很少有人在传统语言学上面这套东西做文章，只能说时代变了，大人。

再看现在比较热门的多模态方向——做VLMs和文生图的。做VLMs的大家都在想怎么样把image encoder接到LLMs上面去，本质上就是解工程问题，根本没有NLP什么事；做文生图的其实也就是调CLIP或者T5的时候会用，本质上也还是前面说到的做tokenize，提出feature之后的步骤也基本是之前GAN时代做生成那帮人的行当了，本质上还是CV问题。

当然现在做研究也没有很明确的界限了，想要做有价值的工作光知道单个领域的技术肯定是远远不够的，基本上哪个火都需要去了解清楚。

另外多模态中的“模态”可不仅限于“图像”和“文本”，还有视频、语音、3D点云…等等诸多模态，image里面有各种条件信号，video里面有光流和motion，语音里面有梅尔图等等。这些都可以称之为“模态”，里面研究的方向虽然大部分是CV和NLP的并集，但是还是有集合之外的技术。单从“图像”和“文本”上来未免有点太草率了。

我是 @叫我Alonzo就好了，一名中科大在读PhD兼CVer，欢迎大家私信评论一键三连批评指正！往期回答/文章详见：

2024年了diffusion还有什么可做的？到底什么样的CV工作才是好的工作而不是灌水的烂工作？2024年了cv还有什么可以卷的吗？当前基于diffusion model的文生图模型有些什么缺陷？为什么vae效果不好，但vae+diffusion效果就好了？目前有将diffusion model用于文本生成的研究吗？2024年大模型LLM还有哪些可研究的方向？对于资源较少的青椒或者实验室，深度学习的未来方向在哪里？叫我Alonzo就好了：When LLMs Meet Diffusion Models：浅谈LLMs与Text-to-Image Diffusion Models中的文本编码叫我Alonzo就好了：从Relay Diffusion到Cogview 3：浅谈Noise Scheduling与扩散模型叫我Alonzo就好了：一文解读：Stable Diffusion 3究竟厉害在哪里？叫我Alonzo就好了：Diffusion Transformer Family：关于Sora和Stable Diffusion 3你需要知道的一切

最后，欢迎大家关注我的个人GitHub账号，我总结了一些课题的顶会paper list，有需要的小伙伴可以参考，paper list会持续更新最新发布的顶会文章。如果觉得有帮助的朋友欢迎帮忙点个GitHub star谢谢！

Video Generation Paper List Text-to-Image Generation Paper List Image Inpainting Paper List