按时间归档:2023年03月
-
视频压缩客观度量 BD-Rate 和 BD-PSNR的计算和解释
BD-Rate 和 BD-PSNR 是视频压缩中使用的客观度量,用于比较两种不同视频编解码器或同一视频编解码器在一定范围内的比特率或质量值的不同设置的率失真性能或压缩效率。本文着眼…
-
NeuMan:从单视角视频中创建数字人
本文提出了一个新颖的框架,可以从单一野外视频中重构人物和场景,并能够渲染出新的人体姿态和视角。给定一段由移动相机捕捉的视频,作者训练了两个 NeRF 模型:一个是人类的 NeRF …
-
从阵元域到模态域的三维音频技术
随着视频空间化的进程,人们对音频空间化也越来越感兴趣。空间音频也称三维音频,是一项可以在扬声器阵列或者耳机上产生三维方位感的音频技术,其目的是营造一种身临其境的体验,在这种体验中,…
-
袁昱:建立一个持久的虚拟世界
尽管包括Meta、微软和英伟达在内的科技巨头投资了数十亿美元开发元宇宙,但它仍然只是一个幻想。要使之成为现实,可能需要在存储、建模和通信等一系列领域取得突破。 为了推动这些技术的进…
-
什么是EVC(MPEG-5 Part-1)?EVC的标准、架构及编码工具
MPEG-5 Part-1 或 EVC 或基本视频编码是三星、华为、高通和 Divideon 支持的 MPEG 标准。它由两个配置文件组成 – 一个仅使用过期专利且免版…
-
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下
该论文提出了一个为多模态设计的概率建模框架 UniDiffuser,除了单向的文生图,还能实现图生文、图文联合生成、无条件图文生成、图文改写等多种功能。 据悉 GPT-4 将于本周…
-
Gartner 2023 年企业对话式 AI 平台魔力象限
本月,Gartner 公布了备受期待的 2023 年企业对话式 AI 平台魔力象限报告。 此次发布正值市场兴趣高涨之际。这在很大程度上源于 ChatGPT 的兴起,以及人们对大型语…
-
ZEGO实时合唱方案 助力社交平台用户留存和时长等指标环比提升20%
在社交平台刚刚把KTV搬到线上的2017年,能做到单人音轨与伴奏音乐的对齐已经殊为不易。直到目前,也仍有相当数量的社交平台仅提供「单人独唱,众人围观」的K歌体验。 01 让更多人乐…
-
ICASSP2023 通用会议理解及生成挑战(MUG)成功举办及获奖团队结果分析
近日,ICASSP2023 通用会议理解及生成挑战(MUG)完成了测试集评测及结果公布,并举办了线上完赛沙龙。本次挑战由ModelScope魔搭社区、阿里巴巴达摩院语音实验室、阿里…
-
快手StreamLake中标浙江广播电视集团多个百万级项目
近期,快手StreamLake中标浙江广播电视集团多个百万级项目。围绕省级重大文化传播平台项目,双方展开深度合作。 浙江广播电视集团一直在广电领域引领创新,其App产品覆盖了多样化…
-
8×8 联络中心获得 AI 升级
8×8 宣布对其联络中心平台进行一系列人工智能更新,这将带来更好的客户体验。 8×8 联络中心获得了 8×8 智能客户助理和 8×8 主管工作区,OpenAI 已集成到其 8×8“…
-
视频编码中的Closed GOP 和 Open GOP
在本文中,我们将了解Closed GOP 和 Open GOP 的概念。这两种 GOP 类型在视频流中都很常见,并且会影响您的压缩效率、流的错误恢复能力以及 ABR 流中的可切换性…
-
使用 Handbrake 的视频压缩:安装和使用指南
Handbrake 是一种开源视频转码器,被广泛认为是视频转换的最佳工具。它使用起来毫不费力,支持多平台,并且涵盖范围广泛的预设和设备。这意味着您会发现比以往任何时候都更容易快速压…
-
视频压缩中的离散余弦变换
离散余弦变换 (DCT)可以说是现代图像和视频压缩中最基本的工具。DCT 用于将像素域中的数据转换为频域,以揭示有关图像或视频帧的洞察力。 本文的目的是让您直观地了解 DCT,而无…
-
数字经济时代 在线社交娱乐行业迎来新的想象空间
连续6年被写入政府工作报告、两会期间再度被高频提及的热词“数字经济”,正成为拉动我国经济增长的新引擎,也成为全球经济竞争的新焦点。 于在线社交娱乐行业而言,随着移动互联网的…
-
首个!火山语音立项有声阅读标准,获CCSA工作组一致通过
日前,中国通信标准化协会(CCSA)互联网与应用标准技术工作委员会(TC1)互联网应用总体及人工智能工作组(WG1)第75次组会在京顺利召开。本次会议由TC1WC1工作组组长曹峰主…
-
填补国际标准空白!海尔智家牵头IEEE智能家居语音标准
理想的智慧生活少不了语音交互,对用户来说,好的语音交互应该是简单一句话,智能家居就能“心领神会”,正确执行。但实际用起来,听不懂老人的方言、距离太远听不清、指令不具体没法执行等…
-
腾讯音乐天琴实验室面向行业首次发布三套开源数据集,助力音视频技术的发展变革
3月13日,腾讯音乐天琴实验室联合清华大学人机语音交互实验室(THUHCSI)、音频语音与语言处理研究组(ASLP@NPU)、CCF计算艺术分会及北京市智慧广电(网络视听)重点实验…
-
万字详解生成式 AI 与 Web3
自 2022 年末 OpenAI 面向公众推出 ChatGPT 以来,人工智能(AI)的热度一直居高不下。圣诞老人来得很早,他给人类带来了一台能回答大多数问题的机器! ChatGP…
-
虚拟现实与元宇宙产业联盟《可信虚拟人生成内容管理系统技术要求》标准制定工作启动
中国信通院CAICT官微3月13日消息,近年来,作为元宇宙和AIGC的关键产业要素,虚拟人概念炙手可热,技术产业发展乘势而起,呈现强劲的增长态势。但是,快速发展的市场机遇下蕴含着一…