按时间归档:2023年
-
助力 VR/AR 等复杂图像场景极致高清,火山引擎夺得 NTIRE 大赛双料冠军
近日,CVPR Workshop 下属的 NTIRE2023大赛公布比赛结果,在双目超分双三次插值保真赛道和 360° 全景图像超分赛道上,火山引擎多媒体实验室…
-
杜比 Ac-4 与 MPEG-H:下一代音频编解码器
下一代音频 (NGA) 的两个领先实现是杜比 AC-4 和 MPEG-H。尽管它们都基于 ITU 的一套核心建议,但它们有不同的起源、优势和局限性。 杜比 AC-4 与 MPEG-…
-
SVOD 获得 4 亿订阅者
预计到 2022 年至 2028 年,全球 SVOD 订阅量将增加 4 亿,达到 17.6 亿。 根据 Digital TV Research 的最新报告,这表明 SVOD 仍有很…
-
如何以实时精度完善 5G 场内体验
随着 5G 服务提供商宣布改变人们在体育场馆和音乐厅参加活动时的体验的头条新闻承诺,这些努力面临的尚未解决的挑战被忽视了。简而言之,仅靠 5G 无法可靠地提供具有完美同步的直播和屏…
-
通过DRM数字广播进行远程教学,推动全球偏远地区发展
通过DRM(Digital Radio Mondiale)数字广播进行远程教学是一种创新的教育方式,它能够为全球偏远地区的学生普及便捷且负担得起的教育。 何谓可持续发展?联合国针对…
-
视频技术如何助力财险理赔?
对于财产保险公司来说,收集直观的理赔信息通常既耗时又费钱。这一过程通常需要长时间的沟通,以进行面对面的损失评估。 但是这种方法会延长理赔时间。平均而言,财险客户需要等待17.8天才…
-
WebRTC RTCP协议 PLI、FIR 请求关键帧
本篇文章主要介绍rtcp的反馈包,在音视频通话过程中反馈包是接收端用来通知发送端的消息。 RTCP 反馈包 反馈包详情见:rfc4585 反馈包协议格式: 协议字段介绍 versi…
-
WebRTC Android 视频硬件编码
本文将重点介绍在 Android 平台上,WebRTC 是如何使用 MediaCodec 对视频数据进行编码,以及在整个编码过程中 webrtc native 与 java 的流程…
-
B站公布新专利,可在车载场景下语音发布弹幕
5 月 14 日消息,上海哔哩哔哩科技有限公司申请的“弹幕处理方法及装置”专利公布,实现了在车载场景的情况下使用语音发布弹幕。 IT之家附专利摘要: 本申请提供弹幕处理方法及装置,…
-
上海市经济信息化委:加快运用元宇宙、AR/VR 等
5月14日,首届中国制造品牌发展论坛暨第九届中国品牌经济(上海)论坛在普陀区举行。 在论坛上,上海市经济信息化委副主任阮力表示:品牌塑造及品牌价值提升对上海经济发展的贡献和带动作用…
-
如何弥合人类和机器视觉之间的差距
麻省理工学院的研究人员发现,使用对抗训练来训练计算机视觉模型可以提高它们的感知直线度,使它们更类似于人类的视觉处理。感知直线度使模型能够更好地预测物体运动,从而有可能提高自动驾驶汽…
-
音视频编解码WebP格式
WebP 是一种由 Google 开发的图像格式,旨在提供比传统 PNG 和 JPEG 格式更高效的压缩算法。它可以在保持很好的视觉质量的同时减小文件大小,从而加快图像加载速度并降…
-
掩码语言模型(MLM)的加权采样策略 | ICASSP2023
本次分享阿里巴巴达摩院语音实验室、新南威尔士大学与香港科技大学(广州)等在ICASSP2023会议发表的论文《Weighted Sampling for Masked Langua…
-
省级卫视跨年演唱会AR技术应用
近年来江苏省广播电视总台在AR技术应用方面深入探索,积极在节目拍摄、制作、分发等环节创新实践,AR技术成功在多年的江苏卫视跨年演唱会中充分应用,极大增强了节目传播效果,成为AR技术…
-
DCVC-DC 多样化上下文的深度视频压缩 | CVPR 2023
本文基于深度视频压缩模型 DCVC 的上下文条件编码框架,在时域和空域中挖掘更加多样化的上下文信息,提出的模型 DCVC-DC 达到了 SOTA 性能。 论文标题:Neural V…
-
语音鉴伪&说话人识别
随着语音处理技术的不断提升,伪造语音的身影在社会生活中出现的更加频繁,一方面语音提醒、语音解锁以及短视频配音等自动化语音技术极大的丰富了人们业余生活,但是随之而来的滥用问题也给生活…
-
SRTP 协议是什么?SRTP 协议格式及加密介绍
SRTP协议是什么 SRTP,即安全实时传输协议(Secure Real-time Transport Protocol),是在实时传输协议(Real-time Transport…
-
RTCP协议之SR和RR简介
RTCP:实时传输控制协议(Real Time Transport Control Protocol),主要是用来反馈音视频通信时的质量。 常用的RTCP 类型: 包类型 缩写 作…
-
WebRTC NACK 机制,Mediasoup对NACK的处理
由于webrtc所用的rtp协议底层是基于udp传输,所以并不能保证数据的可靠性。在发生丢包时,为了保证音视频的质量需要进行重传,而nack机制就是用来处理重传逻辑的,需要注意一点…
-
音视频开发入门:音频基础
什么是声音 介质振动在听觉系统中产生的反应。是一种波。因为是一种波,所以我们可以用频率、振幅等描述。 频率与振幅 有两个基本的物理属性:频率与振幅。声音的振幅就是音量,也叫作响度,…