技术文章
-
掌握 STUN 和 TURN 服务器:WebRTC 应用程序正确集成指南
在 WebRTC 看似无缝的体验背后,是一个复杂的服务器和协议网络,用于管理浏览器、本地应用程序和媒体服务器之间的实时点对点连接。建立和维护这些连接需要多个步骤,每个步骤对于可靠和…
-
DeepSeek AI 发布 JanusFlow:图像理解和生成的统一框架
人工智能驱动的图像生成和理解领域取得了快速进展,但重大挑战阻碍了无缝统一方法的发展。目前,擅长图像理解的模型往往难以生成高质量的图像,反之亦然。需要为每个任务维护单独的架构不仅增加…
-
Fixie AI 推出 Ultravox v0.4.1:专为实现与 LLM 实时对话而训练的开放式语音模型系列
人工智能实时无缝交互对开发人员和研究人员来说一直是一项复杂的任务。一项重大挑战在于将多模态信息(例如文本、图像和音频)集成到一个有凝聚力的对话系统中。尽管 GPT-4 等大型语言模…
-
使用 Janus WebRTC 媒体服务器构建视频会议应用程序
对于网络上基本的一对一视频通信,我们可以只使用 WebRTC 并直接连接对等点。但是,当我们需要高级功能(即录制或转码)时,或者如果我们有更多参与者,我们将需要媒体服务器的帮助。W…
-
如何在 IOS 的 WebView 中实施 WebRTC
在本文中,我们将学习如何在 IOS 的 WebView 中实施 WebRTC。 在 IOS WebView 中实施 WebRTC 让我们一步步创建一个启用了 WebRTC 的简单应…
-
TensorOpera AI 发布 Fox-1:系列小型语言模型包括 Fox-1-1.6B 和 Fox-1-1.6B-Instruct-v0.1
大型语言模型 (LLM) 的最新进展已在从解决数学问题到回答医学问题的广泛应用中展现出强大的能力。然而,由于这些模型规模庞大,并且需要大量的计算资源来训练和部署它们,因此它们变得越…
-
声学模型和语言模型融合的N种方式
作者:Ryuk来源:语音算法组链接:https://mp.weixin.qq.com/s/PMKFQvPNLJH7qXqp8fWjkA 语音识别算法目的是从声学特征x中找到最有可能…
-
音视频面试题集锦第 38 期 | iOS 渲染方向
分享音视频面试题集锦第 38 期,来自音视频技术社群关键帧的音视频开发圈。 下面是几道关于 iOS 渲染方向的面试题: 1、在 iOS 中属性 kCVPixelBufferIOS…
-
即构 Uniapp 即时通讯SDK 2.18.2 版本发布,新增和优化多项功能
2024年11月12日,即构 Uniapp 即时通讯SDK(ZIM)2.18.2 版本发布,新增和优化多项功能。 ZIM 是一款实时的通信互动产品,为开发者提供全平台互动、海量并发…
-
MOS-Bench:用于训练和评估主观语音质量评估 (SSQA) 模型的综合数据集
主观语音质量评估 (SSQA) 的一个关键挑战是使模型能够在各种未见过的语音领域中推广。通用 SSQA 模型评估了许多模型在其训练领域之外表现不佳,主要是因为这种模型在跨领域表现不…
-
go2rtc:终极摄像头流媒体开源应用,支持 RTSP、RTMP、WebRTC、FFmpeg 等
go2rtc 是一款终极摄像头流媒体应用程序,支持 RTSP、RTMP、HTTP-FLV、WebRTC、MSE、HLS、MP4、MJPEG、HomeKit、FFmpeg 等。 项目…
-
使用服务器发送事件(SSE)进行实时通信:在 JavaScript 中使用 EventSource 指南
服务器和客户端之间的实时通信对于交互式动态 Web 应用程序至关重要。传统上,WebSockets 是双向通信的首选解决方案,但在某些情况下,只需要服务器到客户端的单向通信。这正是…
-
Cerebras Systems 改变 AI 推理:使用 Llama 3.1-70B 实现 3 倍速度提升,每秒处理 2,100 个 Token
AI 继续快速发展,但这种发展带来了一系列技术挑战,需要克服这些挑战才能真正蓬勃发展。当今最紧迫的挑战之一是推理性能。大型语言模型 (LLM)(例如基于 GPT 的应用程序中使用的…
-
怎么解决码流多slice场景下的马赛克、绿屏问题?
没有丢数据的情况,在解码器上进行解码,呈现出花屏或者绿屏的现象是什么原因导致的呢?该怎么解决?
-
视频比特率是指什么(视频比特率一般设置为多少)
你可能听说过“比特率”一词。但它是什么?为什么它在视频直播中很重要?它如何连接到其他视频规范?简单地说,视频比特率是构成数字视频文件的每秒比特数。它决定了视频的质量以及播放它需要多…
-
LLM-PCGC | 基于大模型的点云几何压缩
摘要:有效的点云压缩的关键在于获得与复杂的三维数据结构一致的鲁棒上下文模型。近年来,大语言模型(LLMs)的发展突显了它们不仅在上下文学习和生成方面表现出强大的预测能力,同时也是有…
-
IP 就像一把瑞士军刀:使用综合平台简化实时视频传输
在当今的广播和体育节目制作领域,IP 可以作为实时视频的瑞士军刀,实现几年前还无法想象的灵活性和可扩展性。然而,同样的灵活性也可能导致复杂性,尤其是在涉及多种协议和格式时。在充分利…
-
OpenPTT:开源的数字对讲系统,打造一个免费开源的通信平台
OpenPTT是一款基于WebRTC和WebSocket技术构建的实时数字对讲(PoC)系统,支持多人通话、群组调度等功能,并具备良好的可扩展性和互操作性。项目支持 iOS、And…
-
使用 Node.js + FFmpeg 生成缩略图、压缩视频、生成预览片段和 HLS 片段
本文分享如何使用 Node.js 和 FFmpeg 优化上传的视频。处理一些有趣的用例,例如生成缩略图、视频压缩、生成预览片段和生成 HLS 片段。 主要依赖项: 在介绍完依赖关系…
-
Action Cable:超越聊天应用程序、Ruby on Rails
Action Cable 是 Rails 功能强大的 WebSocket 框架,它不仅仅适用于简单的聊天应用程序。从即时通知和用户状态跟踪到协作文档编辑和动态分析仪表板,它是一款能…