超低延时重构AI推理体验!白山云发布“大模型API”产品

白山云科技正式发布“大模型API”产品,首发上线DeepSeek-R1-0528、DeepSeek-R1-0528-Qwen3-8B、Qwen3-32B-FP8等大语言模型。基于白山全球边缘云架构优势,打造超低延时、超稳定、简单易用的API接口服务,降低大模型应用成本和开发门槛,助力企业和个人用户快速开启AI创新之旅。

超低延时重构AI推理体验!白山云发布“大模型API”产品

专注边缘推理,构建“云边端”算力协同新范式

随着多模态交互、多轮会话、Agentic AI自主决策等复杂场景爆发,传统集中式数据中心的算力供给模式下,用户面临网络时延的线性增长、算力成本的指数上升,更低延时、更优成本的边缘算力推理成为必需。边缘推理通过分布式算力下沉与智能调度,能够为高实时、高隐私、高性价比场景提供关键支撑,驱动AI从集中式智能迈向“云-边-端”全域协同智能。

聚焦边缘推理场景,白山云基于全球1700+边缘节点构成的算力网络基座,于今年3月推出“边缘算力云平台”并持续完善升级,覆盖从GPU算力资源到MaaS模型服务的一站式AI算力基础设施,为用户提供高性能、低成本的AI Infra解决方案。

模型服务

提供预构建、开箱即用的LLM和多模态模型服务(陆续上线),只需一行代码用户即可完成模型切换与集成;基于边缘节点的就近推理,为用户带来<300ms的超低延时推理体验。

GPU算力服务

包含GPU容器、弹性容器、裸金属三大产品,灵活满足客户从专属算力到轻量级弹性算力的不同选择,为用户高并发场景下的推理请求提供动态扩缩容+按需付费的高性价比分布式异构算力服务。

重构“低延时、高稳定、强安全”性能上限

1 服务网关全网调度技术

根据实时网络状况、节点负载和模型需求,将推理任务动态分发至离用户最近、最优的边缘节点,用户就近计算,推理响应效率翻倍。

2 异构算力弹性调度技术

结合全球虚拟网络分层管理和区域自治能力,实现算力资源的多级弹性扩缩容,支持百万级并发,推理实例启动时间缩短到5秒内。

3 大文件加载优化技术

利用多区域管理的分布式缓存,通过对大模型文件进行数据集编排与亲和性调度,大幅提升服务调度效率,模型文件全链路加载冷启动时长从10分钟缩短到20秒。

4 算力服务单元推理优化技术

在单节点上对推理任务进行PD分离和并行计算,同时通过多卡多模型混跑,GPU利用率提升至56%,单节点模型推理效率提升2.04倍。

5 边缘云原生安全技术

融合白山全球边缘云平台安全防护能力,基于安全网关、云WAF、抗D、零信任安全等安全产品与服务,保障AI业务连续性与数据安全性。

白山云CEO霍涛表示:“大模型推理的实时性需求与成本压力,正推动边缘算力从‘流量节点’向‘智能计算单元’进化——这种深度融合正是下一代AI基础设施的核心范式。白山云依托覆盖全球60多个国家与地区、核心城市节点密度业界TOP 5的边缘网络,正构建‘日均万亿Token级推理处理’的边缘智能平台。我们正通过‘本地推理+云端协同’的混合架构,让边缘算力价值穿透工业质检、智能驾驶等20+垂直场景,切实破解企业智能化转型中的‘实时性鸿沟’与‘算力成本墙’。”

平台访问地址:

http://ai.baishan.com/website/model-api

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论