
AIGC
-
AI 语音数据集如何助力打造自然流畅的语音系统
近年来,AI 的发展早已超越了基于文本的工具。语音如今已成为 AI 的前沿领域,它不仅能够聆听,还能说话、合成甚至克隆人类的声音。 这些进步的核心在于 AI 语音数据集——庞大的、…
-
AI TTS API 通过三种方式可将全球 OTT 内容的配音成本降低 70%
全球OTT和流媒体平台实现市场饱和的主要障碍是本地化。用户希望在内容发布当天就能看到母语版本,而传统的配音速度远远不够。 传统配音需要选角、录音棚录制、导演和混音,这是一个耗时耗力…
-
数据显示:2025 年 GenAI 应用广告支出将达到 8.24 亿美元
AppsFlyer 发布了年度移动应用趋势分析报告,揭示了 AI 在 2025 年如何塑造消费者行为和营销策略。GenAI 在整个应用生态系统中加速普及,iOS和Android平台…
-
Simple CEO 表示情感 AI 教练才是未来,而非单纯追踪与提醒
本文内容来自 Simple 公司的首席执行官兼创始人 Mike Prytkov 关于打造情感 AI 教练的分享。Simple 是一款 AI 驱动的健康和减肥应用程序,提供个性化指导…
-
语音AI编排:大规模构建高质量语音AI代理的关键环节
语音 AI 已从实验演示阶段走向日常运营。如今,企业将诸多职责委托给自动化语音系统,包括预约安排、潜在客户资格审查、后续跟进、支持分流和招聘筛选。Omdia 的《2025 年对话式…
-
TwelveLabs 在 Amazon Bedrock 上推出 Marengo 3.0 视频理解模型
2025年12月1日,TwelveLabs 在 AWS re:Invent 大会上宣布,其迄今为止最先进的视频基础模型Marengo 3.0正式上线。它不仅能观看视频,还能读取视频…
-
AAAI 2026|MARS:基于多模态检索和选择增强的对话LLM语音识别
随着以智能助手为代表的人机语音对话系统和会议转录与纪要等应用的爆发,对话语音识别(Conversational ASR) 技术变得愈发重要。对话语音(Conversational …
-
为何现代人工智能需要网络即服务 (NaaS)
企业和为人工智能提供支持服务的供应商本质上需要人工智能连接即服务。这就是网络即服务 (NaaS) 的用武之地。 在单一数据中心或集中式云设施中运行人工智能的时代已经一去不复返了。现…
-
OpenCV 创始人创立 AI 视频初创公司,挑战 OpenAI 和谷歌
OpenCV 创始人创立的新 AI 初创公司 CraftStory 本周二获得200万美元融资,其技术可生成长达五分钟的逼真以人为中心的视频,这比包括 OpenAI 的 Sora …
-
2025 年 AI Agent 技术趋势:工具、框架和未来展望
AI agent(人工智能代理)正迅速从原型走向生产,重塑企业自动化、规模化和客户互动的方式。从工作流程编排到多模态助手,“agentic AI”不再是实验室实验,而是新型企业基础…
-
Uni-MoE-2.0-Omni:基于开源Qwen2.5-7B的文本、图像、音频与视频理解全模态MoE模型
如何构建一个能够可靠理解文本、图像、音频和视频,同时仍能高效运行的统一模型?来自哈尔滨工业大学深圳分校的研究团队推出了 Uni-MoE-2.0-Omni,这里一款全开放式全模态大型…
-
2025 年四大 AI 浏览器对比:Atlas、Copilot Mode、Dia 和 Comet
AI 浏览器正将模型从“回答关于网络的问题”转向“在网络上操作”。在 2025 年,四款 AI 浏览器将定义这一领域:OpenAI 的 ChatGPT Atlas、搭载 Copil…
-
ollama 0.12.11 带来 Vulkan 加速功能
ollama 0.12.11 版本于上周五发布,作为部署 OpenAI GPT-OSS、DeepSeek-R1、Gemma 3 等大型语言模型的便捷方案,本次更新带来了全新功能。最…
-
Meta AI 发布 Omnilingual ASR:一套支持1600 多种语言的开源语音识别模型
如何构建一个能够理解数千种语言(包括许多以前从未有过有效自动语音识别 (ASR )模型的语言)的语音识别系统? Meta AI 发布了 Omnilingual ASR,这…
-
评估基于 LLM 的语音助手:超越传统指标的指南
这是一份实用指南,指导如何使用涵盖实用性、准确性、安全性和系统性能的多维指标来评估基于 LLM 的语音助手。
-
生成式 AI 如何将视频翻译转变为实时体验
本文探讨实时视频翻译如何改变我们的沟通方式。我们将了解它对商业、媒体、教育等领域的影响,并深入探究这项重大变革背后的技术。
-
《Agentic Design Patterns:构建智能系统的实战指南》- 第十章 模型上下文协议
本文是对《智能体设计模式》第十章的翻译。此章节介绍了模型上下文协议(MCP协议)。
-
《Agentic Design Patterns:构建智能系统的实战指南》- 第九章 学习与适应
本文是对《智能体设计模式》第九章的翻译。此章节介绍了支撑智能体学习与适应的原理和机制。
-
《Agentic Design Patterns:构建智能系统的实战指南》- 第八章 内存管理
本文是对《智能体设计模式》第八章的翻译。此章节介绍了智能体系统的内存管理机制。
-
Liquid AI 发布 LFM2-VL-3B,为边缘设备带来 3B 参数的视觉语言模型
Liquid AI 发布了 LFM2-VL-3B,这是一个用于图像文本到文本任务的 3B 参数视觉语言模型。它扩展了 LFM2-VL 系列,使其超越了 450M 和 1.6B 版本…