语言模型
-
为什么小型语言模型(SLM)有望重新定义 Agentic AI:效率、成本和实际部署
LLM 因其类似人类的能力和对话技巧而广受推崇。然而,随着 Agentic AI 系统的快速发展,LLM 越来越多地被用于执行重复性、专业化的任务。这种转变势头强劲——超过一半的大…
-
Sakana AI 推出 Text-to-LoRA (T2L):基于任务文本描述生成特定任务 LLM 适配器 (LoRA) 的超级网络
Transformer 模型显著影响了 AI 系统处理自然语言理解、翻译和推理任务的方式。这些大型模型,尤其是大型语言模型 (LLM),在规模和复杂度上不断增长,如今已涵盖了各个领…
-
NVIDIA 研究人员在 Transformer LLM 中引入动态内存稀疏化 (DMS),实现 8× KV 缓存压缩
随着推理密集型任务需求的增长,大型语言模型 (LLM) 越来越有望生成更长的序列或并行推理链。然而,推理时间性能不仅受限于生成的令牌数量,还严重受限于键值 (KV) 缓存的内存占用…
-
语言模型到底能记忆多少内容?Meta 的新框架定义了比特级的模型容量
现代语言模型的记忆行为面临越来越多的质疑。例如,一个拥有 80 亿个参数的转换器,需要用 15 万亿个词元进行训练,研究人员开始质疑这些模型是否能够以有意义的方式记忆训练数据。数据…
-
Meta 推出 LlamaRL:基于 PyTorch 的可扩展强化学习 RL 框架,可实现高效的大规模 LLM 训练
强化学习已成为一种强大的方法,可以对大型语言模型 (LLM) 进行微调,使其更加智能。这些模型已经能够执行从摘要到代码生成的各种任务。强化学习能够根据结构化反馈调整其输出,从而提供…
-
工具增强型 AI Agents 如何利用推理、记忆和自主性重新定义语言模型
早期的大型语言模型 (LLM) 擅长生成连贯的文本;然而,它们在处理需要精确操作的任务(例如算术计算或实时数据查找)时却举步维艰。工具增强型代理的出现弥补了这一缺陷,它赋予 LLM…
-
NVIDIA AI 发布 Llama Nemotron Nano VL:专为文档理解而优化的紧凑型视觉语言模型
NVIDIA 推出了Llama Nemotron Nano VL,这是一种视觉语言模型 (VLM),旨在高效、精准地处理文档级理解任务。该版本基于 Llama 3.1 架构构建,并…
-
LuminX 获 550 万美元融资,利用边缘视觉语言模型实现仓储智能化
LuminX是一家总部位于旧金山的人工智能公司,致力于重新定义仓库运营。近日,该公司宣布完成 550 万美元的种子轮融资,以推进其将视觉语言模型 (VLM) 直接嵌入仓库环境的使命…
-
Dimple:一种用于高效可控文本生成的离散扩散多模态语言模型
近几个月来,人们对将扩散模型(最初设计用于图像等连续数据)应用于自然语言处理任务的兴趣日益浓厚。这促成了离散扩散语言模型 (DLM) 的发展,该模型将文本生成视为一个去噪过程。与传…
-
Meta AI 推出 Multi-SpatialMLLM:基于多模态大型语言模型的多帧空间理解
多模态大型语言模型 (MLLM) 作为能够处理各种视觉任务的多功能 AI 助手,已取得显著进展。然而,它们作为孤立的数字实体部署限制了其潜在的影响力。将 MLLM 集成到机器人和自…
-
超越顿悟时刻:在大型语言模型中构建推理
大型推理模型 (LRM),例如 OpenAI 的 o1 和 o3、DeepSeek-R1、Grok 3.5 和 Gemini 2.5 Pro,在长期 CoT 推理中展现出强大的能力…
-
PrimeIntellect 发布 INTELLECT-2:通过分布式异步强化学习训练的 32B 推理模型
随着语言模型在参数数量和推理复杂度方面的不断增长,传统的集中式训练流程面临着越来越多的限制。高性能模型训练通常依赖于紧密耦合且具有快速互连的计算集群,这些集群成本高昂、可用性有限,…
-
中科院发布可扩展模块化语音语言模型 LLaMA-Omni2,以最小的延迟进行实时对话
中国科学院计算技术研究所的研究人员推出了LLaMA-Omni2,这是一系列支持语音的大型语言模型(SpeechLM),现已在Hugging Face上可用。这项研究引入了一个模块化…
-
字节跳动推出 QuaDMix:用于 LLM 预训练的数据质量和多样性的统一 AI 框架
大型语言模型 (LLM) 的预训练效率和泛化能力受到底层训练语料库质量和多样性的显著影响。传统的数据管理流程通常将质量和多样性视为独立的目标,先进行质量过滤,然后再进行领域平衡。这…
-
NVIDIA AI 发布 Describe Anything 3B:用于细粒度图像和视频字幕的多模态 LLM
视觉语言模型本地化字幕面临的挑战 描述图像或视频中的特定区域一直是视觉语言建模领域的一项挑战。虽然通用视觉语言模型 (VLM) 在生成全局描述方面表现良好,但它们往往无法生成详细的…
-
NVIDIA AI 推出通用视觉语言模型 Eagle 2.5,仅用 8B 参数就能在视频任务中与 GPT-4o 匹配
近年来,视觉语言模型 (VLM) 在连接图像、视频和文本模态方面取得了显著进展。然而,一个持续存在的限制依然存在:无法有效处理长上下文多模态数据,例如高分辨率图像或扩展视频序列。许…
-
Meta AI 发布感知语言模型 (PLM): 用于解决视觉识别难题的开放式可复制视觉语言模型
尽管视觉语言建模取得了快速发展,但该领域的大部分进展都源于基于专有数据集训练的模型,这些模型通常依赖于闭源系统的提炼。这种依赖阻碍了科学的透明度和可重复性,尤其是在涉及细粒度图像和…
-
ServiceNow AI 发布 Aprilel-5B,以更少的资源超越更大的 LLM
随着语言模型的规模和复杂性不断增长,训练和部署它们所需的资源需求也随之增长。虽然大规模模型可以在各种基准测试中取得卓越的性能,但由于基础设施的限制和高昂的运营成本,许多组织往往无法…
-
NVIDIA AI 发布 UltraLong-8B:超长上下文语言模型,旨在处理大量文本序列
大型语言模型 LLM 在各种文本和多模态任务中展现出卓越的性能。然而,许多应用,例如文档和视频理解、上下文学习以及推理时间扩展,都需要能够处理和推理长序列的标记。LLM 有限的上下…
-
减少大型视觉语言模型中的幻觉:潜在空间引导方法
幻觉仍然是部署大型视觉语言模型 (LVLM) 的一大挑战,因为这些模型通常会生成与视觉输入不一致的文本。与 LLM 中因语言不一致而产生的幻觉不同,LVLM 难以应对跨模态差异,导…