拉脱维亚语言科技公司 Tilde 发布了 TildeOpen LLM ,这是一款专为欧洲语言构建的开源基础大型语言模型 (LLM) ,重点关注代表性不足且规模较小的国家和地区语言。这是欧盟迈向语言平等和数字主权的战略性飞跃。

底层:架构、培训和治理
- 该模型于2025 年 9 月 3 日公开发布,当时 Tilde 通过Hugging Face向用户免费部署了该模型。
- 该模型是一个拥有300 亿个参数的密集解码器专用变压器,可在许可证 (CC-BY-4.0) 下使用,并支持广泛的语言——从拉脱维亚语和立陶宛语到乌克兰语、土耳其语等。
- 训练在欧盟的超级计算机上进行:LUMI(芬兰)和JUPITER,利用了欧盟委员会大型人工智能大挑战赛授予的200 万小时 GPU 小时。
- 技术细节:通过受 EleutherAI 启发的 GPT-NeoX 脚本进行训练,涵盖45 万次更新,消耗约 2 万亿个 token。训练包含三个阶段:统一跨语言采样、自然分布以提升高数据量语言的采样,以及最终的统一扫描以达到平衡。
- 超参数:60 层,嵌入大小 6144,48 个注意力头,8192 个标记上下文窗口,SwiGLU 激活,RoPE 位置编码,RMSNorm 层规范。
语言公平与数据主权
- 主流模型严重依赖英语和其他主要语言,导致在处理波罗的海语、斯拉夫语或其他较小的欧洲语言时,性能出现偏差。这种代表性不足会导致语法错误、措辞不当和出现幻觉。
- TildeOpen 通过嵌入“公平标记器”解决了这个问题,该标记器旨在以相似的方式表示文本,而不管语言如何,从而减少标记数量并提高代表性较低语言的推理效率。
- 至关重要的是,企业可以自行托管——在本地数据中心或符合欧盟标准的安全云平台——以确保遵守《通用数据保护条例》(GDPR) 和其他数据保护法规。这解决了与美国或亚洲托管模式相关的主权问题。
战略视野:从原型到欧洲人工智能基础设施
- TildeOpen 是一个基础的“基础”模型。预计其后续版本将在此核心之上构建更专业的模型(例如,指令调优的翻译模型)。
- 这也是一个地理标志植入的时刻:拉脱维亚通过 Tilde 将自己定位为技术出口国,希望扩大欧洲人工智能基础设施的规模,同时保持语言多样性。
- 在研究方面,此举反映了对多语言模型行为的更广泛研究——差距仍然存在。评估表明,即使是实力雄厚的开放式法学硕士(LLM)课程,在波罗的海语言的词汇准确性方面也会出现偏差或滞后,这进一步凸显了本地化开发的必要性。
概括
TildeOpen LLM 重新定义了欧盟人工智能,不仅将其视为监管合规,更将其视为技术管理。这是一个扎实、高容量的模型,具有透明的架构、可扩展的部署,以及对语言平等的坚定承诺。它不沉溺于炒作,而是提供实质性的内容。
常见问题
问题 1:什么是 TildeOpen LLM?
TildeOpen 是一个在欧盟超级计算机上训练的30B 参数多语言大型语言模型,针对欧洲语言(尤其是代表性不足的语言)进行了优化。
问题 2:它与主流的 LLM 有何不同?
与优先考虑英语的全球模型不同,TildeOpen 使用公平的标记器和均衡的训练,以确保在欧洲较小语言中公平地表示并保持准确性。
问题 3:组织可以自行托管该模型吗?
可以。TildeOpen 在 CC-BY-4.0下开源,可以部署在本地数据中心或符合欧盟标准的云中,以满足GDPR 和数据主权的要求。
问题4:TildeOpen 主要用例是什么?
政府服务、翻译、教育、人工智能助手、语音技术和多语言客户支持。任何需要准确的欧洲语言处理的领域。
参考资料:
https://tilde.ai/lv/tildeopen-llm/
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/61331.html