Skip to content

书生浦语大模型笔记 #1

@wade361

Description

@wade361

第一课
大模型---通用人工智能
开源历程
大模型系列:3个7B、20B、123B
应用方式
开放体系:训练集——书生万卷
预训练——InternLM-Train
微调——XTunter
部署——LMDeploy
评测——OpenCompass
应用——Lagent、AgentLego
欢迎参加书生浦语大模型训练营,希望大家能够从中掌握大模型开发和应用的技能,有所收获,今天我们第一讲的内容是书生浦语大模型,全面路开源体系,大模型,相信大家都不陌生,现在已经成为了一个热门的关键词,不管是学术界还是工业界,都有着非常广泛的研究和应用,近几年相关的论文数也是快速的增长,这里是一篇综述文章中的统计,结果我们看标题和摘要里面包含了关键词language model或者language language model的论文,可以看到指数级的一个增长,尤其是HTTP发布之后,迅速成为了最热门的一个方向。Opmi也在大力源模型上投入了持续的研究力量,从2018年的GPT1~20年的GPT3把这条基础路线给坚持了下来,赛季T发布之后两个月月活就迅速的可以打破了天道的记录,成为了当时最快会议的应用,从这里我们也能够看到全球对于大语言模型的一个关注程度,大模型之所以能够受到这么高的关注,一个重要原因就是大模型是,,发展人工通用人工智能的一个重要途径,我们可以看到整个的一个,AI的研究,方向是从专用模型到通用模型这样的一个过程之之前的过去的,比如说一二十年里面,,大家更多的研究的是专业的模型,也就是针对特定的任务来去解决特定的一个用一个模型来去解决一个特定的问题,从深度学习的理论或者突破以来,不管是像大规模的语音识别,还是像图像的识别,,比如说像internet这种,,图像分类的任务,它都是就一个就特定的任务然后一个模型来去解决,包括之后的人脸识别,还有阿尔法狗去下围棋,然后就包括去打的,有打德扑的模型,然后有iPhone后的,然后去做蛋白质结构预测这样的模型,他们其实都是这种专用模型,就是说在一个方向,或者说在一个特定的问题下面,然后去做这样的魔性的设计去解决,这个就专门的问题,从最近两年的一个发展,我们可以可以看到,大家更加倾向于用一个模型去应对多种任务和多种模态,其实这是一个非常典型的例子,谈一个模型其实就能够去解决传统的IP的可能有各种各样的任务,它主要是以文本作为思路和输出,你不管是,像情绪识别,命名,实体识别,,还是就一些任务,其实他都能够去解决,像GT4它更是把就模态从单纯的这样的语言的模块拓展到了视觉的模态,然后模型的通用性也是能够得得到大大提升,这样的话就通用的大模型,其实给大家展示了一个这种更面向更高阶的智能的,这样的一种,就潜在的途径,所以这也是大模型而得到大家广泛关注的一个重要的原因,上海人工程实验室在这样的一个背景下面也是投入了,非常大的研究力量,去进行大力的模型,以及说盘古大模型的这样的一些阿研究工作娜厄,我们今天主要是来讲这种大语言,模型实验室在,从今年初就已经开始了,大冶模型的一些研发工作,也在持续不断的去推进大大模型的一些开源,从6月7号,,就发布了英特尔这样的一个千亿的千亿参数的百亿模型,然后在7月6号在世界人工智能大会上,,对千亿参数模型进行了全面的升级,,同时推出了英特尔7B,这样的一个就全面开源,免费商用的,就大一点,模型同时也开源了全链条的工具体系,往后开展了,包括像书城万卷在内的,,就一些预训练的,就多模态的预训练的语料库,然后后续也对,,书生苦语进行了多次的升级,,包括推出了就SB的km模型,然后对整个的工具链也进行了全新的升级,到现在为止,书生葡语的大模型,其实已经就完成了覆盖轻量级中量级,重量级的这样的一套不同大小的系列,轻量级的就是以英特尔7B为代表的,就7系参数的模型,它其实就是非常小,然后可以去,很方便的进行部署,也是社区型这种去低成本可用的一个最佳的模型规模,重量级的模型是英特尔20亿,它其实200亿的参数量,是能够去在模型的能力和推理的代价里面。去取得比较好的一个平衡,它其实也给商用场景提供了这样的一个,,可开发定制高精度的一个较小的模型的规模,重量级其实是income123B有这样的一个千亿参数的模型,其实具备非常强大的性能,,不管是退役能力还是知识的能力,还有包括它的理解和对话,都是能够去比现在的各种各样的一些开模型,要去有更全面的一个优势,值得一提的是,,就不管是7B的模型还是20D的模型,其实现在都是ki可用的,就包括免费的商用这个的话也会给社区的开发者以及是一些企业,,来去提供这样的,比较优质的模型。,我们以20B的模型为例,来去简单的讲一讲书生苦语,,混元大模型的新,脑,我们可以看到,不管是在像综合的一些学科考试,像知识问答,,阅读理解,还有推理编程,,这边的话其实都是列出来了,嗯,目前社区比较主流的一些评测级上面的一些结果,我们可以看到英特尔M20B,,在这样的一些数据集里面,其实表现都是非常不错的,基本上都是能够全面的超过,就相似量级或者说相近量级的这样的一些模型,值得一提的是他以不足1/3的参数量是能够去达到拉马尔70粒的水平,我们可以看到跟么70B相比,在很多的一些这种,,数据上其实是能够接近,甚至有些数据集是能够超越,,右边其实我们也画

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions