
AIGC
-
评估基于 LLM 的语音助手:超越传统指标的指南
这是一份实用指南,指导如何使用涵盖实用性、准确性、安全性和系统性能的多维指标来评估基于 LLM 的语音助手。
-
生成式 AI 如何将视频翻译转变为实时体验
本文探讨实时视频翻译如何改变我们的沟通方式。我们将了解它对商业、媒体、教育等领域的影响,并深入探究这项重大变革背后的技术。
-
《Agentic Design Patterns:构建智能系统的实战指南》- 第十章 模型上下文协议
本文是对《智能体设计模式》第十章的翻译。此章节介绍了模型上下文协议(MCP协议)。
-
《Agentic Design Patterns:构建智能系统的实战指南》- 第九章 学习与适应
本文是对《智能体设计模式》第九章的翻译。此章节介绍了支撑智能体学习与适应的原理和机制。
-
《Agentic Design Patterns:构建智能系统的实战指南》- 第八章 内存管理
本文是对《智能体设计模式》第八章的翻译。此章节介绍了智能体系统的内存管理机制。
-
Liquid AI 发布 LFM2-VL-3B,为边缘设备带来 3B 参数的视觉语言模型
Liquid AI 发布了 LFM2-VL-3B,这是一个用于图像文本到文本任务的 3B 参数视觉语言模型。它扩展了 LFM2-VL 系列,使其超越了 450M 和 1.6B 版本…
-
《Agentic Design Patterns:构建智能系统的实战指南》- 第七章 多智能体协作
本文是对《智能体设计模式》第七章的翻译。此章节介绍了多智能体协作和通信的内容,以及如何进行相关设计。
-
《Agentic Design Patterns:构建智能系统的实战指南》- 第六章 规划
本文是对《智能体设计模式》第六章的翻译。此章节介绍了规划(Planning)在智能体编程中的作用,以及如何结合规划功能进行设计。
-
Google AI 推出VISTA:一款用于文本转视频生成的测试时自我改进智能体
摘要:VISTA 是一种多智能体框架,可在推理过程中提升文本到视频的生成效果。该方法将结构化提示规划为场景,通过成对的比赛机制筛选最佳候选方案,运用视觉、音频及上下文领域的专业评判…
-
《Agentic Design Patterns:构建智能系统的实战指南》- 第五章 工具使用
本文是对《智能体设计模式》第五章的翻译。此章节介绍了智能体工具(Tools)和结合工具的智能体设计模式。
-
《Agentic Design Patterns:构建智能系统的实战指南》- 第四章 反思
本文是对《智能体设计模式》一书第四章节的翻译,此章节主要介绍了反思(Reflection)模式。
-
《Agentic Design Patterns:构建智能系统的实战指南》- 第三章 并行化
本文是对《智能体设计模式》一书第三章节的翻译,此章节主要介绍了并行化(Parallelization)模式。
-
《Agentic Design Patterns:构建智能系统的实战指南》- 第二章 路由
本文是对《智能体设计模式》一书第二章节的翻译,此章节主要介绍了路由(Routing)模式。
-
《Agentic Design Patterns:构建智能系统的实战指南》- 第一章 提示链
书籍名称:Agentic Design Patterns: A Hands-On Guide to Building Intelligent Systems本书作者:Antonio…
-
《Agentic Design Patterns:构建智能系统的实战指南》- 前言
本文是对《智能体设计模式》一书前言部分的翻译,此章节介绍了本书的目录、引言等内容。
-
微软 AI 推出 MAI-Image-1:一款内部文本转图像模型,跻身 LMArena 前十名
Microsoft AI 推出了MAI-Image-1,这是其首个完全由微软内部开发的图像生成模型。该模型首次亮相LMArena文本转图像排行榜前十(截至 2025 年 10 月 …
-
谷歌推出语音到检索(S2R)技术,无需先将语音转为文本即可检索信息
谷歌人工智能研究团队通过引入语音转检索(S2R)技术,实现了语音搜索的重大突破。该技术将语音查询直接映射为嵌入向量,无需先将语音转为文本即可检索信息。谷歌团队将S2R定位为架构与理…
-
AI 代理初创公司 N8n 获英伟达投资,估值25亿美元
据彭博社报道,N8n 在由 Accel 领投的一轮融资中筹集了 1.8 亿美元,Nvidia 的 NVentures 也参与其中。 N8n 是一家总部位于柏林的为企业提供自动化软件…
-
Hume AI 准备推出 Octave 2 多语言文本转语音模型
Hume AI 正在内部测试 Octave 2 Multilingual,这是一种文本转语音模型,具有跨 10 多种语言的低延迟语音合成功能,可实现实时音频。 Hume AI 正准…
-
VoXtream:一款开源的全流式零样本文本转语音模型,支持实时应用
实时语音代理、现场配音和同声传译都因千分之一秒的延迟而受阻。大多数“流式”文本转语音(TTS)系统仍需等待整段文本处理完毕才开始发声,导致听者在语音启动前会听到短暂的停顿。由KTH…