继推出Llama3 8B中文模型后,中国联通在大模型领域再放“大招”——推出第一个支持长文本输入的中文版Llama3模型,将模型原生支持的上下文长度提高至28K。之前能够鲁迅先生6100字的短篇小说《故乡》的模型,现在可以轻松理解两万余字的中篇小说《阿Q正传》了!
欢迎广大开发者体验!模型地址:
Github地址:
https://github.com/UnicomAI/Unichat-llama3-Chinese
huggingface地址:
https://huggingface.co/UnicomLLM/Unichat-llama3-Chinese-8B-28K
魔搭社区地址:
https://www.wisemodel.cn/models/UnicomLLM/Unichat-llama3-Chinese-8B-28K
4月19日,美国Meta公司发布新一代开源大模型Llama 3,提供了80亿参数和700亿参数两个版本供开发者下载。相较于上一代模型Llama 2,Llama 3在模型整体架构上变化不大,在对词表等模块进行更新的同时,使用了更多高质量的预训练数据,这使得它在代码、推理、写作、总结等各方面能力上有了大幅度提升,并在多项权威评测中超越了同参数规模的一众对手。然而,由于它的训练数据以英文为主,该模型的中文能力尚存较大欠缺。在使用时,经常会出现中文提问,英文回答的现象,无法在以中文为主的应用中直接使用。
中国联通利用前期积累的大模型相关技术和经验,使用覆盖多个领域和行业的、价值观对齐的高质量指令微调数据,在Llama 3模型发布后24小时内完成全球第一个中文微调版本的Unichat-llama3-Chinese-8B,后续又将模型原生支持的上下文长度提高至28K,并开源供开发者使用。
中国联通能够连续在第一时间发布Llama3-8B中文版基础模型和长文本版本模型,得益于在前期积累的大模型相关技术和经验,以及自研的覆盖多个领域和行业的、价值观对齐的高质量指令微调数据。这一系列模型的开源,将能够助力开发者快速打造高水平的、安全的、价值观对齐的模型和应用。中国联通在2024年2月推出了元景“1+1+M”大模型体系,包括1套基础大模型(含语言大模型和多模态大模型,支持声图文3种模态)、1个大模型平台和M种行业大模型(目前已具备10种行业大模型)。其中元景语言模型已具备10/70/130/340/700亿等参数规模版本,同参数级性能达到业界先进水平,并已赋能网络、客服、政务、服装等多个内外部行业应用。
未来将持续优化升级已发布模型,并继续推出支持更长长文本的中文Llama 3-8B模型、中文深度预训练模型版本及Llama 3-70B模型的中文版本,敬请期待!
请登录之后再进行评论