第一个阶段是将图像和文字进行匹配

Reddi2 · Post by **Reddi2** » Sun Apr 20, 2025 5:54 am

所以尽管从数学理论上来看生成的概念是存在的但实际上没有任何生成效果让人感到满意。然后我想特别提到一位博士生他在深度学习方面有着浓厚的兴趣来到了我的实验室。这个博士生的整个博士学习经历几乎可以说是这个领域发展轨迹的缩影。

他的第一个项目是数据我逼着他做尽管他不喜欢但事后他也承认学到了很多有用的东西。 “现在我很高兴你能这么说。”于是我们转向深度学习核心问题是如何从图像生成文字。实际上这个过程中有三个明确的阶段。

我们有图像也有文字接下来我们要看它们之间的关联度。我的第一篇西班牙 whatsapp 筛查学术论文也是我的第一篇博士论文研究的就是基于场景图的图像检索。

接下来我们继续深入研究从像素生成文字这方面他和 j 都做了很多工作但依然是一种非常有损的生成方式信息从像素世界中获取时损失很大。

中间阶段有一个非常著名的工作那个时候有人第一次实现了实时化。年一篇叫《神经算法的艺术风格》的论文由领导发表。他们展示了将现实世界的照片转换为梵高风格的图片。我们现在可能习以为常但那是在年那篇论文突然出现在 v 上震惊了我。

我感觉大脑中被注入了一种“生成的病毒”。我心想：“天哪我需要理解这个算法玩一玩试着把自己的图片变成梵高风格。” 于是我花了一个长周末重新实现了这个算法让它能够正常运行。