一天学一个新内容——0001天——公家摆设定制化智能助手
发觉照旧有相似的产物,本身已提供了各个版本的gpt功效外,还分外提供了一局部知识库的功效。假如是自练习模子,那必要的资源最小是16G以上的GPU,对一局部来说并不友好。
1.1 linkAI
这个是调研时找到的一个有点贴合需求的收钱平台,充了些钱,按要求加了些一局部知识库数据,搭建了对接平台,如下:
这个知识库在导入时,分两种模子举行搜刮和学习。
1.武艺栈只是把文档放进入,按全文搜刮做相信度的分列,和AI及智能不关。这里不是很准。
2.在与AI举行学习婚配后,显现了不错的后果,如下:
导入了一个有带教教师的课程表,体系认出了教师的信息。比想象中要好得多,就是说整一局部系是支持如此的料想的。
约莫原理:导入的文档是按长文本AI识别为基本,婚配了相信度,可设置0.7,假如低于,则调用原GPT办事举行呼应。也约莫不是如此,之后的调研时发觉,使用增长前置提示词的办法,把公家信息经过前置提示词预加载入模子,后举行推断的办法举行公家信息的切入推断,是盛行的办法。由于对资源要求较高,只是做了两三天的开头了解。
经过标准课程表的导入,完成了基本的任课教师信息查询
进一步也能经过交换的形式,发掘职员的更具体信息,后果寻常
相信度婚配展现图
文档笔墨婚配精度不太够,很多还必要进一步的确认及学习。
反复交换取得的结论,可信度不太高
对数据有一定要求,准确度与数据质量直接干系
同时,在自摆设了一套微信接入端后,可经过对接微信,让但是现“闲蛋”叫醒词后的智能问答。同时支持定制成绩(相信度可设为0.7)和标准GPT成绩,如下:
当成绩与一局部信息不关时,照旧会走GPT模子举行问答
这一局部系有一定的实用性,但对导入的自界说数据格式有要求,待进一步确认,体系生命周期不太明白,隐私成绩也没处理,只能作为一个案例了解。
1.2 ChatGLM体系
在调研中发觉,外洋的干系办事对国内是有一定的限定,从网络到使用,这个基本上,清华的GLM体系相对成熟,从ChatGLM-6B、ChatGLM2-6B、现已晋级到ChatGLM3,本次就以M3为基本举行GPU办事器摆设。可作为一局部智能定制的基本办事,https://zhipuai.cn/devday,但自界说数据导入及识别才能弱,这局部必要自开发处理。
如今的开源版本为6B,与标准GPT-3.5参数为137B,公有摆设基本用度4000W/年。
1.2.1 GPT一局部办事摆设
办事器资源(华为云):
存储:1.2T(0.2 1双盘)
GPU增速型 | p2s.2xlarge.8 | 8vCPUs | 64GiB
GPU显卡: 1 * NVIDIA V100-PCIe-32G / 1 * 32G
长程SSH毗连的资源摆设情况
实例反应如下:http://116.xxxxx:8501/
摆设后后果展现
这几个回复呼应时间是3-5分钟。
nvidia-smi结论
这个对资源要求高了些。
如今能完成的功效:
(1)天生带算法的少数代码块。
(2)扩展东西(可到场其他特别办事,如获取天气的接口,本人的公家办事接口。。)
(3)基本的对话式谈天,多轮对话形式还要设置多轮模子。
后续假如要以纯一局部办事集群为基本举行干系的项目开发,好比做到6.1的内容,最大的成绩是盘算资源的婚配。
1.2.2 GLM体系也支持一局部定制看法(LangChain模子库)
这个比起6.1的东西,应该是更准确的资源知识库,同时,也面临准确度及数据导入的洗濯及格式的成绩。时间成绩未做进一步摆设,有空会做进一步摆设和实行。
langchain模子表现
公家智能助手还面临的主要成绩是,要在当地或是公家摆设的办法,才干完成所谓的隐私,不然全上传到网络的各个公司,那即是把一切一局部材料都举行了共享,这条路取决于摆设的便宜性及资源的本钱下降。
