知乎热榜 ( ) • 2024-04-21 19:14
叫我Alonzo就好了的回答

写在前面,先聊聊关于NLP。

不知道大家对NLP的定义是不是有什么误解…也有可能是大语言模型时代之后NLP才真正火出圈,个人理解真正的NLP是linguistics那一套东西,具体点就是做parsing、CCG、知识图谱这种东西的,跟现在所谓的“NLP”完全不是一回事,也就可以理解为什么ChatGPT一出来很多人都在说“NLP已经死了”。有机会的话可以对比一下17、18年NLP的code和现在研究的code,完全不是一个概念,现在有transformers库的封装,已经方便太多了。


对于问题本身,个人观点是多模态方向更多的还是偏向CV。

最早做多模态的这帮人其实就是做cv的,做image captioning、image-text matching、text-based image retrieval,等等,这些工作对于NLP基础知识只要知道怎么做tokenize就可以了,具体点也就是调一个BERT tokenizer。

甚至现在很多做LLMs研究的也未必懂传统NLP的知识,基本上都是堆数据、堆算力、改训练策略,很少有人在传统语言学上面这套东西做文章,只能说时代变了,大人。

再看现在比较热门的多模态方向——做VLMs和文生图的。做VLMs的大家都在想怎么样把image encoder接到LLMs上面去,本质上就是解工程问题,根本没有NLP什么事;做文生图的其实也就是调CLIP或者T5的时候会用,本质上也还是前面说到的做tokenize,提出feature之后的步骤也基本是之前GAN时代做生成那帮人的行当了,本质上还是CV问题。

当然现在做研究也没有很明确的界限了,想要做有价值的工作光知道单个领域的技术肯定是远远不够的,基本上哪个火都需要去了解清楚。

另外多模态中的“模态”可不仅限于“图像”和“文本”,还有视频、语音、3D点云…等等诸多模态,image里面有各种条件信号,video里面有光流和motion,语音里面有梅尔图等等。这些都可以称之为“模态”,里面研究的方向虽然大部分是CV和NLP的并集,但是还是有集合之外的技术。单从“图像”和“文本”上来未免有点太草率了。


我是 @叫我Alonzo就好了 ,一名中科大在读PhD兼CVer,欢迎大家私信评论一键三连批评指正!往期回答/文章详见:

2024年了diffusion还有什么可做的?到底什么样的CV工作才是好的工作而不是灌水的烂工作?2024年了cv还有什么可以卷的吗?当前基于diffusion model的文生图模型有些什么缺陷?为什么vae效果不好,但vae+diffusion效果就好了?目前有将diffusion model用于文本生成的研究吗?2024年大模型LLM还有哪些可研究的方向?对于资源较少的青椒或者实验室,深度学习的未来方向在哪里?叫我Alonzo就好了:When LLMs Meet Diffusion Models:浅谈LLMs与Text-to-Image Diffusion Models中的文本编码叫我Alonzo就好了:从Relay Diffusion到Cogview 3:浅谈Noise Scheduling与扩散模型叫我Alonzo就好了:一文解读:Stable Diffusion 3究竟厉害在哪里?叫我Alonzo就好了:Diffusion Transformer Family:关于Sora和Stable Diffusion 3你需要知道的一切

最后,欢迎大家关注我的个人GitHub账号,我总结了一些课题的顶会paper list,有需要的小伙伴可以参考,paper list会持续更新最新发布的顶会文章。如果觉得有帮助的朋友欢迎帮忙点个GitHub star谢谢!

Video Generation Paper ListText-to-Image Generation Paper ListImage Inpainting Paper List