
AIGC
-
语音AI编排:大规模构建高质量语音AI代理的关键环节
语音 AI 已从实验演示阶段走向日常运营。如今,企业将诸多职责委托给自动化语音系统,包括预约安排、潜在客户资格审查、后续跟进、支持分流和招聘筛选。Omdia 的《2025 年对话式…
-
TwelveLabs 在 Amazon Bedrock 上推出 Marengo 3.0 视频理解模型
2025年12月1日,TwelveLabs 在 AWS re:Invent 大会上宣布,其迄今为止最先进的视频基础模型Marengo 3.0正式上线。它不仅能观看视频,还能读取视频…
-
AAAI 2026|MARS:基于多模态检索和选择增强的对话LLM语音识别
随着以智能助手为代表的人机语音对话系统和会议转录与纪要等应用的爆发,对话语音识别(Conversational ASR) 技术变得愈发重要。对话语音(Conversational …
-
为何现代人工智能需要网络即服务 (NaaS)
企业和为人工智能提供支持服务的供应商本质上需要人工智能连接即服务。这就是网络即服务 (NaaS) 的用武之地。 在单一数据中心或集中式云设施中运行人工智能的时代已经一去不复返了。现…
-
OpenCV 创始人创立 AI 视频初创公司,挑战 OpenAI 和谷歌
OpenCV 创始人创立的新 AI 初创公司 CraftStory 本周二获得200万美元融资,其技术可生成长达五分钟的逼真以人为中心的视频,这比包括 OpenAI 的 Sora …
-
2025 年 AI Agent 技术趋势:工具、框架和未来展望
AI agent(人工智能代理)正迅速从原型走向生产,重塑企业自动化、规模化和客户互动的方式。从工作流程编排到多模态助手,“agentic AI”不再是实验室实验,而是新型企业基础…
-
Uni-MoE-2.0-Omni:基于开源Qwen2.5-7B的文本、图像、音频与视频理解全模态MoE模型
如何构建一个能够可靠理解文本、图像、音频和视频,同时仍能高效运行的统一模型?来自哈尔滨工业大学深圳分校的研究团队推出了 Uni-MoE-2.0-Omni,这里一款全开放式全模态大型…
-
2025 年四大 AI 浏览器对比:Atlas、Copilot Mode、Dia 和 Comet
AI 浏览器正将模型从“回答关于网络的问题”转向“在网络上操作”。在 2025 年,四款 AI 浏览器将定义这一领域:OpenAI 的 ChatGPT Atlas、搭载 Copil…
-
ollama 0.12.11 带来 Vulkan 加速功能
ollama 0.12.11 版本于上周五发布,作为部署 OpenAI GPT-OSS、DeepSeek-R1、Gemma 3 等大型语言模型的便捷方案,本次更新带来了全新功能。最…
-
Meta AI 发布 Omnilingual ASR:一套支持1600 多种语言的开源语音识别模型
如何构建一个能够理解数千种语言(包括许多以前从未有过有效自动语音识别 (ASR )模型的语言)的语音识别系统? Meta AI 发布了 Omnilingual ASR,这…
-
评估基于 LLM 的语音助手:超越传统指标的指南
这是一份实用指南,指导如何使用涵盖实用性、准确性、安全性和系统性能的多维指标来评估基于 LLM 的语音助手。
-
生成式 AI 如何将视频翻译转变为实时体验
本文探讨实时视频翻译如何改变我们的沟通方式。我们将了解它对商业、媒体、教育等领域的影响,并深入探究这项重大变革背后的技术。
-
《Agentic Design Patterns:构建智能系统的实战指南》- 第十章 模型上下文协议
本文是对《智能体设计模式》第十章的翻译。此章节介绍了模型上下文协议(MCP协议)。
-
《Agentic Design Patterns:构建智能系统的实战指南》- 第九章 学习与适应
本文是对《智能体设计模式》第九章的翻译。此章节介绍了支撑智能体学习与适应的原理和机制。
-
《Agentic Design Patterns:构建智能系统的实战指南》- 第八章 内存管理
本文是对《智能体设计模式》第八章的翻译。此章节介绍了智能体系统的内存管理机制。
-
Liquid AI 发布 LFM2-VL-3B,为边缘设备带来 3B 参数的视觉语言模型
Liquid AI 发布了 LFM2-VL-3B,这是一个用于图像文本到文本任务的 3B 参数视觉语言模型。它扩展了 LFM2-VL 系列,使其超越了 450M 和 1.6B 版本…
-
《Agentic Design Patterns:构建智能系统的实战指南》- 第七章 多智能体协作
本文是对《智能体设计模式》第七章的翻译。此章节介绍了多智能体协作和通信的内容,以及如何进行相关设计。
-
《Agentic Design Patterns:构建智能系统的实战指南》- 第六章 规划
本文是对《智能体设计模式》第六章的翻译。此章节介绍了规划(Planning)在智能体编程中的作用,以及如何结合规划功能进行设计。
-
Google AI 推出VISTA:一款用于文本转视频生成的测试时自我改进智能体
摘要:VISTA 是一种多智能体框架,可在推理过程中提升文本到视频的生成效果。该方法将结构化提示规划为场景,通过成对的比赛机制筛选最佳候选方案,运用视觉、音频及上下文领域的专业评判…
-
《Agentic Design Patterns:构建智能系统的实战指南》- 第五章 工具使用
本文是对《智能体设计模式》第五章的翻译。此章节介绍了智能体工具(Tools)和结合工具的智能体设计模式。