大厂Animal认证作者
-
B站下行CDN架构的探索与应用
B站的下行CDN旧架构如下图所示,可以看到边缘CDN节点与中心调度服务有紧密协作,简单说是先由调度服务进行流量调度(负责均衡的调度到每个网关组件节点),再由回源组件进行集群内的回源…
-
基于LLM大模型Agent的适用范围和困境
本文提到大模型通常的工作方式,即通过提示词进行问答,并指出了两个主要问题:历史对话信息的管理和令牌数量的限制。文章讨论了知识库问答和个人助手两个应用场景,并分析了各自面临的困境,如…
-
Matroska解封装原理与实践
Matroska是一种开放标准、功能强大的多媒体封装格式,可容纳多种不同类型的视频、音频及字幕流,其常见的文件扩展名为.mkv、.mka等。与应用广泛的MP4相比,Matroska…
-
基于afx透明视频的视觉增强前端方案
本文介绍了百度增长前端团队自研的Webview框架下透明视频视觉增强方案,该方案在保证对视觉进行高度还原的同时可投入更少的开发成本,还能获得更优的前端性能表现。文章首先分析了市面上…
-
千万长连消息系统(基于golang实现的长连接服务)
长连接,顾名思义,是应用存活期间和服务端一直保持的网络数据通道,能够支持全双工上下行数据传输。其和请求响应模式的短连接服务最大的差异,在于它可以提供服务端主动给用户实时推送数据的能…
-
如何借助 Keras 3 轻松上手 Gemma 模型
Keras 团队非常高兴地宣布,KerasNLP 集合现已支持 Gemma!Gemma 是先进的轻量级开放模型系列,采用了与构建 Gemini 模型相同的研究和…
-
从零开始搭建云呼叫中心之FreeSwitch实战
一. 开篇 在当今快速发展的数字化时代,企业对于高效率、低成本、可扩展性强的通信解决方案的需求日益增长。云呼叫中心作为一种新兴的服务模式,正逐渐取代传统的硬件呼叫中心。FreeSw…
-
开放平台直播互动玩法演进之路
一、背景 随着直播业务和用户规模日益壮大,如何丰富直播间内容、增强直播间内用户互动效果,提升营收数据变得更加关键。为此,直播互动玩法应运而生。通过弹幕、礼物、点赞、大航海等方式,用…
-
Meta:通过 AV1 和 HD 为移动 RTC 提供更好的视频质量
过去几十年来,手机摄像头质量和流媒体视频服务的视频质量都有了极大的提高。但是,如果我们看一下实时通信(RTC)应用,虽然视频质量也随着时间的推移而提高,但始终落后于相机质量。 当我…
-
FunASR 升级第三代热词方案
在使用语音识别服务进行语音转文字的过程中,大多数情况下模型能正确地预测高频词汇,但是对诸如人名地名、命名实体等词频较低或与用户强相关的词汇,模型往往会识别为一个发音相近的其他结果,…
-
自研流媒体协议探索与实践
本文《自研流媒体协议探索与实践》来自B站流媒体技术部——B站内部端到端的直播流媒体技术研发团队,为B站直播量身打造了高性能、高性价比的流媒体服务体系。 背景 自从我站从2020年逐…
-
浅谈游戏地图中位置实时更新的技术方案
地图如今在游戏中发挥的作用越来越重要,随着电子竞技的兴起,地图逐渐成为了为玩家创造体验的直接舞台。希望本文能对有兴趣了解游戏地图背后实现原理的同学一些帮助。 01 什么是游戏地图 …
-
淘宝人生2的AIGC技术应用——虚拟人写真算法技术方案
近几个月,随着基于Stable Diffusion的相关技术发展,基于参考图的角色定制化技术[1,2, 3, 4, 7]受到相关行业以及学者的广泛关注。其中,人像定制化是指:给定任…
-
如何优化淘宝直播 PC 推流端性能
基于 Electron 的淘宝直播 PC 推流端已经上线一年多,期间迭代了很多功能,应用也越来越庞大。自上线以来也收到一些用户反馈应用启动慢、打开推流页面慢、运行过程页面交互操作卡…
-
Websocket实时音视频传输应用实战
背 景 随着互联网技术的发展,越来越多的企业和开发者开始寻求更高效、更稳定的通信解决方案。在这种背景下,WebSocket协议应运而生。WebSocket是一种在单个T…
-
AIGC图像技术在淘宝人生2的探索和应用
淘宝人生2(又名:第二人生)是淘宝的一个虚拟人装扮类应用,承担了用户在淘宝的第二个人生的作用。我们旨在通过AI为淘宝人生2的用户提供丰富有趣的可玩性内容,随着最近火热的AIGC技术…
-
从Language Model到Chat Application:对话接口的设计与实现
RTP-LLM 是阿里巴巴大模型预测团队开发的大模型推理加速引擎,作为一个高性能的大模型推理解决方案,它已被广泛应用于阿里内部。本文从对话接口的设计出发,介绍了业界常见方案,并分享…
-
B站自研色彩空间转换引擎
1. 背景 色彩空间(Color Space)是一种数学模型,用于描述和表示颜色的方式。不同的色彩空间有不同的用途和特点,可以用于不同的应用,如图像处理、计算机图形、印刷、摄影等领…
-
多模态说话人开源项目3D-Speaker
3D-Speaker是通义实验室语音团队贡献的一个结合了声学、语义、视觉三维模态信息来解决说话人任务的开源项目。本项目涵盖说话人日志,说话人识别和语种识别任务,开源了多个任务的工业…
-
FFmpeg前端视频合成实践
视频合成能力的开发背景 想要开发一个具有视频合成功能的应用,从原理层面和应用层面都有一定的复杂度。原理上,视频合成需要应用使用各种算法对音视频数据进行编解码,并处理各类不同音视频格…