本文作者:admin

范豪钧:数据为中心的大模型持续晋级之路

admin 今天 1
范豪钧:数据为中心的大模型持续晋级之路摘要: 专题:第25届中国国际高新技术成果交易会_中国高新技术论坛  中国国际高新技术成果交易会未来科技峰会于2023年11月15日在深圳举行。星环科技人工智能产品部研发负责人范豪钧出...

专题:第25届中国国际高新技术成果交易会_中国高新技术论坛

  中国国际高新技术成果交易会未来科技峰会于2023年11月15日在深圳举行。星环科技人工智能产品部研发负责人范豪钧出席并演讲。

  以下为演讲实录:

  范豪钧:我是来自星环科技的范豪钧,来自人工智能部门,我是一个研发工程师,今天的分享是从研发的角度给大家看一下大模型是怎么制造的。大家手机上有大模型类型APP上的请举手,小部分。后面我会把大模型基础概念同步跟大家说一下。

  今天介绍的话题是以数据为中心的大模型持续晋级之路,核心是以数据为中心和持续晋级,模型在不断迭代,养料源自于数据,特别是大亿级的数据量,我们的系统要持续根据新的数据、新的目标进行持续的变化和演进。

  今天的话题分成四部分,第一部分是大模型时代的挑战,第二部分是应对挑战我们用什么工具去应对,第三部分是我们会介绍一下以数据为中心,持续迭代模型的概念,以及我们在星环科技是如何把我们的产品和持续迭代的概念连接起来。

  首先看一下大模型时代的挑战。我们观察到现在生成式AI技术在大家日常生活中已经逐步体现了,各位或多或少都有使用过AI机器人问一些问题,很多原本的搜索场景已经变成了AI问答式的场景。我作为程序员,平时编码的过程中会用到Copilot帮我写一些测试用例。在企业工作链路中怎么把这个模型给应用好,和这其实是比较困难的,在企业内部落地还有很多障碍,我们大概总结了三点,安全、领域和碎片。OpenAI是行业的老大,我们大部分实验是基于OpenAI、ChatGPT做一些原型认证。现在的企业强依赖外部API,提问的时候会带着企业内部的数据提问,造成数据泄露,之前三星内部的一些沟通和原型会被OpenAI采集。上周也发生OpenAI服务器的宕机。从稳定性和安全性来说,企业内部私有化部署是趋势之一。每家企业有自己的数据,有专业领域知识,这些知识如何在原有的模型之上嵌入到大模型中,通用大模型只提供通用能力,专业知识如何放进去,这是第二个挑战。第三个挑战是大模型从火爆到现在,应该是2022年11月份OpenAI GPT出来引爆了这个话题,一直到现在,最多也就一年,在这一年的时间段里出现了很多工具,训练的工具、应用的工具、部署和模型优化的工具,这个工具链是非常长的,特别碎片化的。有没有一个平台能承接这么多种的碎片化的工具,能够让用户从模型的训练到模型的应用,到用户的反馈,形成一个完整的链路,当模型发现问题的时候可以找到问题出在哪里,这是需要解决碎片化的问题。

  应对这样的挑战或者应对这几个碰到的问题,我们做了三个大胆的建设,大部分企业未来都会有自己大模型的诉求,当您有大模型诉求的时候,您是以哪种方式把模型进行私有化,前面提到私有化包括把模型使用起来,并且能跟企业内部的知识结合,所以我们一般会用到的是大模型加微调的技术,让大模型适应企业内部的场景。我们有了模型,但模型需要持续演进,根据业务需要、数据积累,演进过程中需要端到端的工具链去辅助。后面会讲到成本的问题。

  前面说到的是宏观的挑战,大模型实际落地中会碰到哪些挑战?第一,用大模型制作一些原型很容易,但将他们嵌入到符合工业化、自身业务的生产环境却很难。这是金融行业的一个客户告诉我的,在使用ChatGPT时碰到一些问题,我们希望用一套工具辅助他解决以下问题,首先是模型本身的限制,虽然现在模型演进很快,模型生成幻觉,不是能准确生成你要的数据,每次生成有变化,根据参数不同会有变化,如何克服模型幻觉和胡编乱造,要用工程手段来克服;合规问题,虽然你是私有化的模型,但在使用过程中希望它尽量生成高质量的回答,有毒的或者有害的尽量少生成;再大的模型上下文限制有限,从起步的2K、2K到现在几十K的上下文,你输入模型文字的长度的限制,我们如何克服这些原有模型的限制,原生模型带来的困难点。基于原生模型之外的工程上的困难点,复杂工程需要多种不同的工程化人员的协作,包含研发工程师、运维工程师、业务人员等等都有可能在其中,如何帮助他们协调,快速定位问题,提升模型的性能,这是我们期望解决的。业务方企业内部有大量私域数据,一般来说是需要经过长时间的治理才能达到语料或者高质量语料,如何把内部已经形成的低质量的结构化或者半结构化的数据进行清洗,提升它的数据质量。第三,模型一旦私有化之后会衍生出不同的使用场景,用微调来适应当前所需的专业知识以及特殊指令,这么多的模型、应用场景,每个模型可能是用不同的版本,如何做一些版本的管理。第四,大模型是根据提示词或者你的问法不同,它表现出的效果也不同。如何用好提示词工程,把常用的或者比较经典的提示词沉淀在企业内部,并且把模型之间的系统提示词这道鸿沟,如不同的开源模型有不同的系统提示词等,这些工程上的复杂度如何为用户屏蔽掉,不要让用户感知到。应用框架方面,如何快速构建围绕模型去构建一个应用,跟企业的用户进行交互,并且能够用好企业内部的工具,能够通过工具赋能大模型做更多的事情。

  综上,这么多问题,我们就需要有一个相对全局的工具链来解决。MLOps是一组工具和最佳实践,用于管理ML驱动的应用程序的生命周期。LLMOps是一组大模型工具和最佳实践,用于管理LLM驱动的应用程序的生命周期,包括开发、部署和维护。企业内部和模型训练过程中无关的,我们叫运营数据。我们会把训练模型阶段和应用模型阶段这两个阶段分开,在训练模型阶段,最上面一排是训练模型阶段的第一阶段,要做预训练,大模型的参数假设是从零开始的话,需要大量的公开数据去做一些模型的预训练,完成基础模型的训练,成本千万级别或者亿级别,如何有效利用你的硬件,能够在错误的时候快速恢复,是需要工具链去协助的。在大部分的场景中或者企业级别的场景中,我们会用到第二条,叫微调场景,一般是用企业的特定的领域数据加上微调工具形成我们私有化的模型,企业内部私有模型,成本一般是百万级别,但还是带来很多固定资产的消耗,如何把这些固定资产使用起来,不论是做训练、还是推理,用到更大的服务,是我们这个平台要做的。应用阶段,用户会用提示词向模型提问,这个问题提的好坏决定模式生成内容质量高低。推理的意思就是对外提供一个模型服务,并且对用户的提问进行响应,它的响应会产生一个输出结果,需要有一个监控功能把返回的内容监控起来,后续作为模型提升的依据。OpenAI有点赞和点踩,对输入内容的评价也需要做结果监控的对象。全生命周期代表我们在大模型时代围绕着模型建设和应用阶段大概会看到的主流流程。资产和过程的管理是MLOps原生平台要持续做好的。训练和评估,要持续进行迭代,并且每次版本都需要进行评估,来验证它能不能满足上线的要求。满足上线要求的模型就会进入到统一部署和调度。不光是模型服务而已,模型训练任务也在平台里面能够完成统一的调度,这样更有效地利用所有的算力,提升集群或者算力的利用率。持续的监控和评估,模型是一个持续进化的东西,它需要持续人为进行介入,去做提升。

  在大模型领域,如果退回来看,不围绕它的训练和应用这两个阶段来看,我们从用户视角来看,或者从企业实际的使用视角来看,它一般会经历三个过程。我先会看一下已有的模型的效果,我会拿企业内部的问题或者我设想的一些场景上的需求,去验证我的设想能不能被大模型解决,一旦大模型能解决一部分,就会进入开发阶段,可能会用到微调和训练的手段来提升模型,将我在探索阶段碰到的bad case,原先大模型不能处理的问题,进行尝试,通过我微调以后的模型,是不是能够解决之前不能解决的问题,如果这部分能验证,就说明通过大模型的不断迭代可以解决之前原生大模型不能解决的问题,大模型在企业内部存在进行微调的必要性。我就会持续迭代这个大模型,满足我的业务要求,最终达到评估阶段,评估过之后就可以大规模部署,给用户使用,然后得到用户的反馈,再进行迭代。从用到开发到大规模测试,拿到反馈,再进行下一轮的开发,这是一个大体的“八”字的循环。

  何为数据为中心,持续迭代模型?我们可以看到前面的流程非常漫长,几个点中会用到数据,第一,在训练之前要准备数据,星环科技的平台集成了数据接入、数据探索、数据处理、数据标注全流程的能力,甚至里面包含数据生成的能力,能够帮助用户快速激起他需要的高质量的大模型语料。领域特有评估集和通用NLP评估结合,才能评估模型的效果。最后一个阶段是应用阶段,用户的输入会持续产生数据,这部分数据包括了模型运行中的性能数据,用户提问它的数据的分布,热点话题的提问的分布或者一些软话题的分布,最后是在用户反馈上,用户会对每个反馈进行点赞、点踩,对我们的模型后续的迭代会有帮助。综上,我们从训练阶段到评估阶段,到应用阶段,会产生大量的数据帮助我们提升这个模型,所以我们的平台会将这些数据进行很好的分门别类的保存,并且用于下一轮的迭代。

  抛开我们大模型的工具链,还提到LLM时代的多模态,两个多模态的方向,一个是模型本身能够支持图像、语音以及文字,这叫模型本身的多模态,还有一种是现在一个比较特殊的,叫检索增强生成RAG,它需要很多外部的知识去辅助它做一些模型的生成,你可以认为它除了模型本身以外,需要借助对知识图谱产生的数据,通过这些产生的数据再做一个摘要,再返回给用户。它会通过模型引用外部数据,对外部数据进行加工、摘要,再生成。RAG也会用到大量异构的数据库。星环提供了从事件存储、宽表存储、搜索引擎、关系型数据存储、地理空间存储、向量存储、图数存储、键值存储、文档存储、对象存储、时序数据存储。下层是统一的分布式存储管理系统、统一的资源管理框架。从底到上,给到多模态训练时的数据以及检索生成时用到的数据,都提供统一的数据接口,让用户更好地获取他所要的数据。

  星环科技站在工具链提供的角度来提供大模型制作所需要的对应的工具链。星环科技原身是一家企业级的大数据软件公司,提供交易型数据库、分析型数据库、搜索引擎、图数数据库等,而且是分布式的,基于数据本身,除了存储治理之外,我们还提供了分析挖掘等领域的能力。数据积累&模型训练,模型管理&应用开发,模型上线运营,通过项目制的策略,把统一部署、统一监控的过程串联起来,形成完整的闭环。这是星环科技应对大模型时代,每个企业都想建立自己的大模型的应对之道。

  新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。

阅读
分享