视觉框架

技术文章

VLM2Vec-V2：用于跨图像、视频和视觉文档进行多模态嵌入学习的统一计算机视觉框架

嵌入模型通过将多样化的多模态信息编码到共享的稠密表示空间中，充当不同数据模态之间的桥梁。近年来，在大型基础模型的推动下，嵌入模型取得了长足进步。然而，现有的多模态嵌入模型大多基于 …

AIGC
2025年7月28日
技术文章

开源 | MeiGen-MultiTalk：基于单张照片实现多人互动演绎

近日，美团推出了音频驱动的多人对话视频生成框架MultiTalk，并在GitHub上开源，首创L-RoPE绑定技术，通过标签旋转位置编码精准解决多音频流与人物错位难题。该框架创新性…

大厂Animal
2025年6月27日
技术文章

Hugging Face 发布 SmolVLA：经济高效的机器人紧凑型 VLA 模型

尽管近期通过大规模视觉-语言-动作 (VLA) 模型实现机器人控制取得了进展，但实际部署仍然受到硬件和数据需求的限制。大多数 VLA 模型依赖于基于 Transformer 的主干…

AIGC
2025年6月4日
行业资讯

工程师使用古老的Blender开源图形系统，推动计算机视觉的发展

人工智能似乎非常适合创建大量图像集，用于训练自动驾驶汽车和其他机器识别环境，然而，当前的生成式人工智能系统存在一些缺点，可能会限制其使用。如今，普林斯顿大学的工程师们开发了一个软件…

假装是大佬
2023年7月11日
技术文章

PeekingDuck：计算机视觉框架

计算机视觉项目可能会非常令人望而生畏，涉及到各种工具和包，如OpenCV、TensorFlow和PyTorch等等。不仅需要熟悉所涉及的工具和API，还需要正确组合各个包，以使整个…

图像处理
2023年6月8日