技术文章
-
人工智能的进步,提升了芯片语音识别能力
21dB声学人据悉,IBM和加州大学(California universities)旧金山和伯克利分校在语音识别技术方面的独立研究,为患有声带麻痹和失语症的患者带来了好消息。 I…
-
嵌入式音视频低延迟传输协议SRT
一、SRT协议简介 SRT(Secure Reliable Transport,安全可靠传输)是一种用于超低(亚秒)延迟的实时音视频流及通用批量数据传输的传输协议。SRT基于UDT…
-
搭建WebRTC视频会议应用系列3:Android端
在本文中,我们将编写一个简单、功能齐全的 WebRTC 会议 Android 应用程序。我们将通过创建对等连接、添加媒体轨道、信令、SDP 交换和 ICE 协商来设置会议应用程序。…
-
如何在 Kubernetes 中部署实时应用程序
实时应用程序的运行非常困难,需要大量的工作和资源。如果你曾经尝试过部署实时应用程序,你就会明白我在说什么。你必须面对 NAT、防火墙、可扩展性、维护以及出现的任何异常情况。不过,有…
-
英特尔 SVT-AV1 1.7 视频编码器提供更快的性能
近日,Intel 主导的 SVT-AV1 开源 AV1 视频编码器发布了一个主要版本,全面提升了性能。 SVT-AV1 1.7 是新版本,是基于 CPU 的 AV1 视频编码又向前…
-
使用FFmpeg调整手机拍摄视频的旋转角度
前些日子,我在使用 MoviePy 处理手机拍摄的视频,处理完成之后,发现原来是竖屏拍摄的最后变成了横屏,而且内容显示也很奇怪。 但是使用播放器播放处理之前的视频却是没有问题的。 …
-
nerf2nerf: 神经辐射场的成对配准
本文提出了新的3D配准方法:NeRF 的成对配准技术。核心方法是引入”surface field”(表面场)。然后利用 nerf2nerf registra…
-
音视频杂谈–校招面试总结
又到一年一度的开学季了,马上大四,研三的同学就要开始秋招了,公司也着手开始校招事宜,最近也陆续开始预约面试,作为过来人,给即将面试的小伙伴们一些意见,仅仅作为参考。 夯实计算机基础…
-
AVS3变换:PBT、ST和SBT
前面的文章介绍了AVS3中的变换工具IST和ISTS,本文将介绍AVS3中剩余的几种变换工具:基于位置的变换(PBT,Position Based Transform)、二次变换(…
-
WebRTC 源码分析 (四) Android 、IOS 、Windows 端视频数据流程分析
1. 简介 该篇文章主要针对在 (IOS、Android、Windows)平台上的视频数据的流程,只有当我们熟悉了这些流程后,才能快速针对性的去看某块代码。下面是一个简要的流程图,…
-
聊天应用中的 Socket.IO 与 XMPP 对比
近年来,聊天应用程序越来越受欢迎,用户希望在多个平台上进行实时、无缝的交流。Socket.IO 和 XMPP(可扩展消息和现场协议)是构建多平台聊天应用程序的两种流行协议。 Soc…
-
中国移动孔露婷:构建XR网业端协同技术体系,助力XR业务快速规模化应用
扩展现实(XR)是当前国内外关注的热点领域,前不久中国移动发布了全面覆盖XR网络技术体系的综合性白皮书《XR网络技术体系白皮书》,旨在推动XR技术的发展和应用。移动Labs就该白皮…
-
搭建WebRTC视频会议应用系列2:Web端实现一个会议应用程序
在本文中,我们将编写一个可在网络浏览器中运行的简单、功能齐全的 WebRTC 会议应用程序。我们将通过创建对等连接、添加媒体轨道、信令、SDP 交换和 ICE 协商来设置会议应用程…
-
CDN 与边缘计算的区别与用例
速度、可用性和可靠的用户体验在视频流行业(直播、直播购物、VOD 或用户生成内容)中至关重要。因此,内容分发网络 (CDN) 和边缘计算等技术已成为满足这些需求的关键组成部分。然而…
-
PanoDiff:从窄视场图片生成全景图 | ACM MM 2023
简介:该工作由上海交通大学宋利教授带领的Medialab实验室产出,并于近期被ACM MM 2023所接收。360度全景图在计算机图形学及视觉领域应用广泛,相比于手机等移动设备即能…
-
编译Android OpenCV with FFmpeg静态库
编译环境 • opencv : 4.6.0 • ndk: r21e • os: mac m1 & 13.3.1 编译脚本 修改编译脚本 ope…
-
适用于多语言 ASR 的语种路由专家混合模型 | Interspeech 2023
导读:Interspeech 是国际语音通信协会(ISCA)举办的年度会议,也是全球最大、最全面的专注于语音通信领域的学术盛会。2023 届 Interspeech 会议于 202…
-
语音深度伪造技术
深度伪造(Deepfake)是深度学习(deep learning)与伪造(fake)二者的组合词,可实现图像、音频、视频的伪造生成。近年来人工智能技术发展迅速,语音深度伪造技术也…
-
FreeSWITCH+SRS=MCU:实现合流、混流、SIP、会议直播
本文介绍了如何使用FreeSWITCH+SRS实现WebRTC MCU,支持合流和混流,以及SIP电话接入,或者会议合流后转直播。 Background SRS是一个直播和WebR…
-
金山云直播架构演进及边缘计算场景探索
编者按:在视频云升级、直播行业走向成熟的大背景下,金山云如何通过整合边缘云和相关计算能力,保持在行业的重要位置?LiveVideoStack 2023上海站邀请到金山云的朱岩老师,…