腾讯混元参战大模型：“幻觉率”可降低30%，多个指标超越GPT3.5

“百模大战”新增又一巨头：腾讯官宣参战。

9月7日，在2023腾讯全球数字生态大会上，腾讯正式发布混元大模型，并宣布通过腾讯云对外开放。

资料显示，腾讯混元大模型是腾讯自研的一款通用大模型，目前已经接入腾讯50多个业务测试，包括腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ浏览器等业务和产品。

【资料图】

值得注意的是，这并非是腾讯首次公开大模型相关进展。此前6月19日，腾讯曾发布依托腾讯云TI平台打造行业大模型精选商店，提供MaaS（Model-as-a-Service）一站式服务，构建专属大模型及智能应用。

“大模型竞争还在马拉松的第一公里，这个行业太新了，不存在清晰的市场份额或占比。”9月7日，在接受澎湃新闻等媒体采访时，腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生坦言，“大家动不动就喜欢发布通用大模型，在我看来这条路有点走偏了，不能解决产业实际问题和痛点。”

对于大模型落地前景，他也直言：“有些前沿投入和布局，可能要3到5年才能看到商业回报，现在谈大模型的商业前景还为时过早。”

腾讯的大模型“路线图”

今年上半年，多家大厂扎堆发布大模型，“百模大战”一度成为舆论焦点，而腾讯一直到9月份才发布通用大模型，似乎显得有些姗姗来迟。

“腾讯做大模型只看自己，不看别人。”9月7日，对于发布时间，腾讯副总裁蒋杰向澎湃新闻记者坦言，“混元大模型在腾讯内部已经内测很久，在推出时间上，没有考虑过和同行进行赛跑。”

从基本参数来看，目前腾讯混元的参数规模超千亿，预训练语料超2万亿tokens，具备中文创作能力，复杂语境下的逻辑推理能力，以及任务执行能力。

和其他模型相比，混元大模型的特点和优势是什么？澎湃新闻记者梳理发现，其最大特点是在解决“幻觉”能力上表现较为突出。所谓的“幻觉”，指的是大模型在回答提问时会出现答非所问、胡说八道的现象，腾讯混元大模型在预训练阶段通过“探真”算法进行事实修正，实测幻觉率可以降低30%-50%。

“其他厂商往往会通过知识图谱或是搜索外挂来让大模型的检索能力变得更加准确，但使用外挂会导致新的幻觉出现，因此腾讯决定在大模型预训练阶段就解决这个问题。”蒋杰表示。

此外，混元大模型还具备超长文本的处理能力，能够提供超过4000字的长文回答，而在同样的命题下只能提供超过1000字的问答。在数据源头方面，蒋杰介绍，腾讯做小模型、大模型甚至大语言模型，都不会使用个人隐私数据。此外，腾讯的内容产品，也为腾讯混元大模型提供了大规模、多样化的语料库，能够学习到各类应用场景中的语言知识和语境理解能力。

在具体指标上，混元大模型在多个指标上超越了，包括代码子项、STEM子项、高考题子项和数学子项上，但和GPT-4还有距离。蒋杰表示，国内的厂商在做大语言模型的时候，需要循序渐进，脚踏实地做好每一项技术突破，并且坦诚面对和国际厂商在技术上的一些差距。

外界好奇的是，为何腾讯在推出行业大模型后再次推出通用大模型？

此前汤道生曾提到，通用大模型可以在100个场景中，解决70%-80%的问题，但未必能100%满足企业某个场景的需求。相比盲目使用通用大模型，企业基于行业大模型构建自己的专属模型，也许是更优的选项。模型参数比通用大模型少，训练和推理的成本更低，优化也更容易。

对此，汤道生告诉澎湃新闻记者，推出时间较晚是因为腾讯一直在研发和应用的过程中。其实腾讯内部早已开始内测混元大模型，但在没有经历充分的应用融合和实践前不会对外公布其具体进展，最终公布的成品，是经过充分打磨后的，但依然会不断更新和迭代。

大模型商业化究竟路在何方？

在“百模大战”的热度略有减退后，大模型的实际落地效能成为外界考量的重点。

谈到混元大模型未来商业前景时，蒋杰坦言，在To B（企业）端产生商业收入还有待探索，因为目前混元大模型在面对成熟度和复杂任务的处理能力还不够全面，因此对于较多专业场景不能充分解锁，应用有待完善。

“混元大模型一开始就不是为了发布而发布，而是根据腾讯自身应用，例如微信、QQ等进行相关研发和匹配，提供互相深度融合的能力，才能抵消大模型背后的高昂设备、训练和人力成本。”蒋杰表示。

此前，百度智能云副总裁朱也在接受澎湃新闻记者在内的媒体采访时曾表示：“从衡量大模型本身的商业价值角度看，如果应用不起来，整个大模型很难持续下去，确实是需要投入，整个生态起来、应用繁荣很重要。我们判断，偏向于营销服务、办公提效这两个场景，可能会首先实现大规模落地，我认为接下来几个月能够看到应用逐渐落地，规模逐渐增大。”

对于大模型研发的高额成本，汤道生透露，腾讯内部对于资源分配有倾斜性，混元大模型是腾讯内部最重要的项目之一，因此会以第一优先级进行考虑，目前公司内部的人员配置和资源合作“跑得很顺利”，但大模型的竞争尚在马拉松的第一公里，可能要到3到5年后才能看到相应回报。

就在不久前，百度宣布“文心一言”向全社会全面开放，还将开放一批经过全新重构的AI原生应用，让广大用户充分体验生成式AI的理解、生成、逻辑、记忆四大核心能力。

混元大模型是否也将对外开放？对此，蒋杰表示，是否提供C端（消费者端）服务仅仅是时间和选择的问题，“目前我们还是侧重在内部应用场景中做尝试，TO C与否只是一种‘开关’，做好自身能力、提高准确性才是我们最为关注的。”