AIGC的文章 - 实时互动网个人中心 - 实时互动网

AIGC

这个人很懒，什么都没有留下～

406 文章

0 粉丝

行业资讯

Krafton开源语音AI基础模型“A.X K2 Raon-Speech”，发力游戏角色语音交互

Krafton宣布在全球AI平台Hugging Face开源语音AI基础模型“A.X K2 Raon-Speech”。该模型结合SK Telecom的小型语言模型“A.X K2”与Krafton自研语音编码器、语音编解码器，可直接完成语音理解与生成，减少情感和语调信息损失。

AIGC
2026年7月29日
技术文章

Black Forest Labs发布FLUX 3：用于图像、视频、音频和机器人动作预测的多模态流模型

Black Forest Labs (BFL) 发布了FLUX 3，这是一个多模态基础模型，可在单一架构内学习图像、视频和音频。它也是首个仅使用一组权重即可实现视频、音频和动作预测…

AIGC
2026年7月27日
技术文章

论文解读｜WavAlign：让语音模型既会“想”，也会“说”

端到端语音对话模型最让人头疼的地方，是“聪明”和“会说”常常互相拉扯。WavAlign 给出的答案很朴素：不要把同一个偏好奖励粗暴地砸到所有 token 上。把语义交给偏…

AIGC
2026年7月23日
技术文章

Interspeech2026 | MSU-Bench：多说话人对话理解评测基准

近年来，音频语言模型（Audio Language Model, ALMs）推动语音理解从传统单任务系统走向统一的音频到文本生成范式。在这一框架下，说话人验证、语音识别、说话人识别…

AIGC
2026年7月14日
行业资讯

中国电信联合北京邮电大学、鹏城实验室完成基于知识库的高轨卫星跨模态语义通信试验

近日，中国电信（研究院、上海公司和中电信应急公司）联合北京邮电大学、鹏城实验室在中国电信研究院北京园区完成基于知识库的高轨卫星跨模态语义通信试验。该试验依托中国电信云网融合中试平…

AIGC
2026年7月13日
行业资讯

国际电信联盟启动旨在建立对 AI 行为信任的倡议

联合国数字技术机构国际电信联盟（ITU）宣布了一项新倡议，旨在制定可信数字身份框架，并确保 AI 代理在其整个生命周期内保持可信且可问责的行为。在“AI 造福人类全球峰会”上宣布…

AIGC
2026年7月10日
行业资讯

OpenAI发布全新语音模型，实现更自然的实时对话

2026年7月8日，OpenAI 发布了名为 GPT-Live-1 和 GPT-Live-1 mini 的全新对话模型，声称它们听起来更加自然，并且能够更好地处理轮流对话。这些模型…

AIGC
2026年7月9日
技术文章

NVIDIA 发布 Audex (Nemotron-Labs-Audex-30B-A3B)：一种统一的音频-文本大语言模型

NVIDIA 发布了Audex（Nemotron-Labs-Audex-30B-A3B），这是一个统一的音频-文本大型语言模型。它能够理解和生成音频和语音，并保留了其核心的文本智能…

AIGC
2026年7月8日
行业资讯

语音是物理 AI 的关键，开发方法需要跟上

在关于物理 AI 的讨论中，视觉占据了主导地位。然而，视觉仅仅是其中的一部分。机器还需要“聆听”周围的世界。机器必须能够理解语音指令、区分多位说话者、定位声音来源、过滤干扰，并与…

AIGC
2026年7月7日
技术文章

Gradium推出stt-translate和s2s-translate，实时语音翻译模型在准确率和延迟方面均优于gpt-realtime-translate

Gradium 发布了两款实时语音翻译模型：stt-translate和s2s-translate。这两款模型均支持五种语言，并将结果实时显示在浏览器中。 Gradium 声称其准…

AIGC
2026年6月25日
技术文章

如何使用 NVIDIA Canary-1B-v2 在 Python 中实现 ASR、翻译和自动 SRT 字幕导出

本文将使用NVIDIA Canary-1B-v2构建一个语音识别和翻译工作流程。首先，我们将设置所需的音频、NeMo、NumPy 和 SciPy 依赖项，然后在支持 GPU 的运行…

AIGC
2026年6月24日
技术文章

AI改了画面却没改声音？浙大团队首次将一句话编辑视频延伸到音频维度

自然语言指令驱动的视频编辑是当前生成式 AI 的重要方向，但现有工作普遍只处理纯视觉维度——InsViE-1M、Ditto-1M、OpenVE-3M 等主流大规模数据集均不涉及音频…

AIGC
2026年6月22日
行业资讯

为什么 AI 在商业领域的未来不仅仅是自动化，更是智能对话

多年来，关于 AI 在商业领域的讨论主要集中在自动化方面。人们的关注点主要在于帮助企业提高工作效率、减少人工投入并提升整体效能。虽然这些益处确实存在，但这仅仅是 AI 发展的一部分…

AIGC
2026年6月18日
行业资讯

阻碍企业人工智能发展的客户情境鸿沟

企业人工智能的发展速度超过了大多数组织为其提供可靠客户背景信息的能力。如今的挑战不再是人工智能能否生成内容、推荐、预测或决策，而是这些输出结果是否基于对客户的准确理解。在许多企…

AIGC
2026年6月15日
技术文章

Zyphra发布Zamba2-VL：混合Mamba2-Transformer视觉语言模型

Zyphra 发布了 Zamba2-VL，这是一系列开放的视觉语言模型。该版本涵盖三种规模：12 亿、27 亿和 70 亿参数。每个模型都基于 Zamba2 混合 SSM-Tran…

AIGC
2026年6月15日
技术文章

SmoothConv & DuplexConv：面向对话式 AI的大规模中文全双工语音数据集开源！

在语音大模型与具身智能快速发展的今天，全双工人机交互正成为学术界与工业界关注的焦点。构建高拟人度、支持实时中断与流式响应的口语对话系统，关键在于是否拥有具备“真实交互动态”与“富含…

AIGC
2026年6月12日
行业资讯

Google AI 发布 DiffusionGemma：基于文本扩散的 260 亿 MoE 开放模型，生成速度可提升 4 倍

谷歌 AI 团队（包括谷歌DeepMind的研究人员）刚刚发布了DiffusionGemma，这是一个用于文本生成的实验性开源模型。它使用文本扩散而非标准的自回归解码。该模型采用宽…

AIGC
2026年6月11日
技术文章

Google 发布 Gemini 3.5 Live Translate：一款支持 70 多种语言的流式语音翻译音频模型

谷歌刚发布了 Gemini 3.5 实时翻译。这是他们最新的实时语音翻译音频模型。语音翻译是指输入语音，然后输出翻译后的语音。该模型可以自动检测 70 多种语言并生成翻译后的语音。…

AIGC
2026年6月10日
行业资讯

2030年对话式AI的收入预计达到85亿美元，将对电信和媒体行业产生巨大影响

未来五年，对话式 AI 市场将呈现显著增长；服务收入将从 2026 年的 24 亿美元增长 250% 以上，到 2030 年达到 85 亿美元。 Juniper Research …

AIGC
2026年6月9日
技术文章

NVIDIA 发布 Nemotron 3.5 ASR：一个拥有 6 亿参数、支持缓存的流式转录模型，可实时转录 40 种语言区域设置

NVIDIA 的 Nemotron Speech 团队发布了Nemotron 3.5 ASR。这是一个拥有 6 亿参数的流式自动语音识别 (ASR) 模型。单个检查点即可实时转录 …

AIGC
2026年6月8日

点击查看更多