登录    注册      
    
  


News Message

Chinese-LLM开源中文大语言模型合集



Chinese-LLM开源中文大语言模型合集



ChatGPT为代表的大语言模型(Large Language Model, LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后,业界涌现了非常多基于LLM的二次微调或应用的案例。

截止到当前,已统计到77个相关项目,具体数量分布如下:

项目地址:https://github.com/HqWu-HITCS/Awesome-Chinese-LLM

1. Model

ChatGLM:

地址:https://github.com/THUDM/ChatGLM-6B

简介:中文领域效果最好的开源底座模型之一,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持

VisualGLM-6B

地址:https://github.com/THUDM/VisualGLM-6B

简介:一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。依靠来自于 CogView 数据集的30M高质量中文图文对,与300M经过筛选的英文图文对进行预训练。

Chinese-LLaMA-Alpaca:

地址:https://github.com/ymcui/Chinese-LLaMA-Alpaca

简介:中文LLaMA&Alpaca大语言模型+本地CPU/GPU部署,在原版LLaMA的基础上扩充了中文词表并使用了中文数据进行二次预训练

OpenChineseLLaMA:

地址:https://github.com/OpenLMLab/OpenChineseLLaMA

简介:基于 LLaMA-7B 经过中文数据集增量预训练产生的中文大语言模型基座,对比原版 LLaMA,该模型在中文理解能力和生成能力方面均获得较大提升,在众多下游任务中均取得了突出的成绩。

BELLE:

地址:https://github.com/LianjiaTech/BELLE

简介:开源了基于BLOOMZ和LLaMA优化后的一系列模型,同时包括训练数据、相关模型、训练代码、应用场景等,也会持续评估不同训练数据、训练算法等对模型表现的影响。

Panda:

地址:https://github.com/dandelionsllm/pandallm

简介:开源了基于LLaMA-7B,-13B, -33B, -65B 进行中文领域上的持续预训练的语言模型, 使用了接近 15M 条数据进行二次预训练。

Ziya-LLaMA-13B:

地址:https://huggingface.co/IDEA-CCNL/Ziya-LLaMA-13B-v1

简介:该项目开源了姜子牙通用大模型V1,是基于LLaMa的130亿参数的大规模预训练模型,具备翻译,编程,文本分类,信息抽取,摘要,文案生成,常识问答和数学计算等能力。该模型已完成大规模预训练、多任务有监督微调和人类反馈学习三阶段的训练过程。

BiLLa:

地址:https://github.com/Neutralzz/BiLLa

简介:该项目开源了推理能力增强的中英双语LLaMA模型。模型的主要特性有:较大提升LLaMA的中文理解能力,并尽可能减少对原始LLaMA英文能力的损伤;训练过程增加较多的任务型数据,利用ChatGPT生成解析,强化模型理解任务求解逻辑;全量参数更新,追求更好的生成效果。

Moss:

地址:https://github.com/OpenLMLab/MOSS

简介:支持中英双语和多种插件的开源对话语言模型,MOSS基座语言模型在约七千亿中英文以及代码单词上预训练得到,后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。

Luotuo-Chinese-LLM:

地址:https://github.com/LC1332/Luotuo-Chinese-LLM

简介:囊括了一系列中文大语言模型开源项目,包含了一系列基于已有开源模型(ChatGLM, MOSS, LLaMA)进行二次微调的语言模型,指令微调数据集等。

Linly:

地址:https://github.com/CVI-SZU/Linly

简介:提供中文对话模型Linly-ChatFlow 、中文基础模型 Linly-Chinese-LLaMA 及其训练数据。中文基础模型以 LLaMA 为底座,利用中文和中英平行增量预训练。项目汇总了目前公开的多语言指令数据,对中文模型进行了大规模指令跟随训练,实现了 Linly-ChatFlow 对话模型。

ChatYuan

地址:https://github.com/clue-ai/ChatYuan

简介:元语智能发布的一系列支持中英双语的功能型对话语言大模型,在微调数据、人类反馈强化学习、思维链等方面进行了优化。

ChatRWKV:

地址:https://huggingface.co/BlinkDL/rwkv-4-raven

简介:基于RWKV架构的Chat模型(包括英文和中文),发布了包括Raven,Novel-ChnEng,Novel-Ch与Novel-ChnEng-ChnPro等模型,可以直接闲聊及进行诗歌,小说等创作,包括7B和14B等规模的模型。

CPM-Bee

地址:https://github.com/OpenBMB/CPM-Bee

简介:一个完全开源、允许商用的百亿参数中英文基座模型。它采用Transformer自回归架构(auto-regressive),在超万亿(trillion)高质量语料上进行预训练,拥有强大的基础能力。开发者和研究者可以在CPM-Bee基座模型的基础上在各类场景进行适配来以创建特定领域的应用模型。

TigerBot

地址:https://github.com/TigerResearch/TigerBot

简介:一个多语言多任务的大规模语言模型(LLM),开源了包括模型:TigerBot-7B, TigerBot-7B-base,TigerBot-180B,基本训练和推理代码,100G预训练数据,涵盖金融、法律、百科的领域数据以及API等。

书生·浦语

地址:https://github.com/InternLM/InternLM-techreport

简介:商汤科技、上海AI实验室联合香港中文大学、复旦大学和上海交通大学发布千亿级参数大语言模型“书生·浦语”(InternLM)。据悉,“书生·浦语”具有1040亿参数,基于“包含1.6万亿token的多语种高质量数据集”训练而成。

Aquila

地址:https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila

简介:由智源研究院发布,Aquila语言大模型在技术上继承了GPT-3、LLaMA等的架构设计优点,替换了一批更高效的底层算子实现、重新设计实现了中英双语的tokenizer,升级了BMTrain并行训练方法,是在中英文高质量语料基础上从0开始训练的,通过数据质量控制、多种训练的优化方法,实现在更小的数据集、更短的训练时间,获得比其它开源模型更优的性能。也是首个支持中英双语知识、支持商用许可协议、符合国内数据合规需要的大规模开源语言模型。

baichuan-7B

地址:https://github.com/baichuan-inc/baichuan-7B

简介:由百川智能开发的一个开源可商用的大规模预训练语言模型。基于Transformer结构,在大约1.2万亿tokens上训练的70亿参数模型,支持中英双语,上下文窗口长度为4096。在标准的中文和英文权威benchmark(C-EVAL/MMLU)上均取得同尺寸最好的效果。

2. Application

2.1 垂直领域微调

医疗

DoctorGLM:

地址:https://github.com/xionghonglin/DoctorGLM

简介:基于 ChatGLM-6B的中文问诊模型,通过中文医疗对话数据集进行微调,实现了包括lora、p-tuningv2等微调及部署

BenTsao:

地址:https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese

简介:开源了经过中文医学指令精调/指令微调(Instruct-tuning) 的LLaMA-7B模型。通过医学知识图谱和GPT3.5 API构建了中文医学指令数据集,并在此基础上对LLaMA进行了指令微调,提高了LLaMA在医疗领域的问答效果。

BianQue:

地址:https://github.com/scutcyr/BianQue

简介:一个经过指令与多轮问询对话联合微调的医疗对话大模型,基于ClueAI/ChatYuan-large-v2作为底座,使用中文医疗问答指令与多轮问询对话混合数据集进行微调。

HuatuoGPT:

地址:https://github.com/FreedomIntelligence/HuatuoGPT

简介:开源了经过中文医学指令精调/指令微调(Instruct-tuning)的一个GPT-like模型

Med-ChatGLM:

地址:https://github.com/SCIR-HI/Med-ChatGLM

简介:基于中文医学知识的ChatGLM模型微调,微调数据与BenTsao相同。

QiZhenGPT:

地址:https://github.com/CMKRG/QiZhenGPT

简介:该项目利用启真医学知识库构建的中文医学指令数据集,并基于此在LLaMA-7B模型上进行指令精调,大幅提高了模型在中文医疗场景下效果,首先针对药品知识问答发布了评测数据集,后续计划优化疾病、手术、检验等方面的问答效果,并针对医患问答、病历自动生成等应用展开拓展。

ChatMed:

地址:https://github.com/michael-wzhu/ChatMed

简介:该项目推出ChatMed系列中文医疗大规模语言模型,模型主干为LlaMA-7b并采用LoRA微调,具体包括ChatMed-Consult : 基于中文医疗在线问诊数据集ChatMed_Consult_Dataset的50w+在线问诊+ChatGPT回复作为训练集;ChatMed-TCM : 基于中医药指令数据集ChatMed_TCM_Dataset,以开源的中医药知识图谱为基础,采用以实体为中心的自指令方法(entity-centric self-instruct),调用ChatGPT得到2.6w+的围绕中医药的指令数据训练得到。

XrayGLM,首个会看胸部X光片的中文多模态医学大模型:

地址:https://github.com/WangRongsheng/XrayGLM

简介:该项目为促进中文领域医学多模态大模型的研究发展,发布了XrayGLM数据集及模型,其在医学影像诊断和多轮交互对话上显示出了非凡的潜力。

法律

LaWGPT:基于中文法律知识的大语言模型

地址:https://github.com/pengxiao-song/LaWGPT

简介:该系列模型在通用中文基座模型(如Chinese-LLaMA、ChatGLM 等)的基础上扩充法律领域专有词表、大规模中文法律语料预训练,增强了大模型在法律领域的基础语义理解能力。在此基础上,构造法律领域对话问答数据集、中国司法考试数据集进行指令精调,提升了模型对法律内容的理解和执行能力。

LexiLaw:中文法律大模型

地址:https://github.com/CSHaitao/LexiLaw

简介:LexiLaw 是一个基于 ChatGLM-6B微调的中文法律大模型,通过在法律领域的数据集上进行微调。该模型旨在为法律从业者、学生和普通用户提供准确、可靠的法律咨询服务,包括具体法律问题的咨询,还是对法律条款、案例解析、法规解读等方面的查询。

Lawyer LLaMA:中文法律LLaMA

地址:https://github.com/AndrewZhe/lawyer-llama

简介:开源了一系列法律领域的指令微调数据和基于LLaMA训练的中文法律大模型的参数。Lawyer LLaMA 首先在大规模法律语料上进行了continual pretraining。在此基础上,借助ChatGPT收集了一批对中国国家统一法律职业资格考试客观题(以下简称法考)的分析和对法律咨询的回答,利用收集到的数据对模型进行指令微调,让模型习得将法律知识应用到具体场景中的能力。

金融

Cornucopia(聚宝盆):基于中文金融知识的LLaMA微调模型

地址:https://github.com/jerry1993-tech/Cornucopia-LLaMA-Fin-Chinese

简介:开源了经过中文金融知识指令精调/指令微调(Instruct-tuning) 的LLaMA-7B模型。通过中文金融公开数据+爬取的金融数据构建指令数据集,并在此基础上对LLaMA进行了指令微调,提高了 LLaMA 在金融领域的问答效果。基于相同的数据,后期还会利用GPT3.5 API构建高质量的数据集,另在中文知识图谱-金融上进一步扩充高质量的指令数据集。

BBT-FinCUGE-Applications

地址:https://github.com/ssymmetry/BBT-FinCUGE-Applications

简介:开源了中文金融领域开源语料库BBT-FinCorpus,中文金融领域知识增强型预训练语言模型BBT-FinT5及中文金融领域自然语言处理评测基准CFLEB。

XuanYuan(轩辕):首个千亿级中文金融对话模型

地址:https://huggingface.co/xyz-nlp/XuanYuan2.0

简介:轩辕是国内首个开源的千亿级中文对话大模型,同时也是首个针对中文金融领域优化的千亿级开源对话大模型。轩辕在BLOOM-176B的基础上针对中文通用领域和金融领域进行了针对性的预训练与微调,它不仅可以应对通用领域的问题,也可以解答与金融相关的各类问题,为用户提供准确、全面的金融信息和建议。

教育

桃李(Taoli):

地址:https://github.com/blcuicall/taoli

简介:一个在国际中文教育领域数据上进行了额外训练的模型。项目基于目前国际中文教育领域流通的500余册国际中文教育教材与教辅书、汉语水平考试试题以及汉语学习者词典等,构建了国际中文教育资源库,构造了共计 88000 条的高质量国际中文教育问答数据集,并利用收集到的数据对模型进行指令微调,让模型习得将知识应用到具体场景中的能力。

数学

chatglm-maths:

地址:https://github.com/yongzhuo/chatglm-maths

简介:基于chatglm-6b微调/LORA/PPO/推理的数学题解题大模型, 样本为自动生成的整数/小数加减乘除运算, 可gpu/cpu部署,开源了训练数据集等。

文化

Firefly:

地址:https://github.com/yangjianxin1/Firefly

简介:中文对话式大语言模型,构造了许多与中华文化相关的数据,以提升模型这方面的表现,如对联、作诗、文言文翻译、散文、金庸小说等。

2.2 LangChain应用

Chinese-LangChain:

地址:https://github.com/yanqiangmiffy/Chinese-LangChain

简介:基于ChatGLM-6b+langchain实现本地化知识库检索与智能答案生成(包括互联网检索结果接入)

langchain-ChatGLM:

地址:https://github.com/imClumsyPanda/langchain-ChatGLM

简介:基于本地知识库的 ChatGLM等大语言模型应用实现

2.3 外部挂件应用

wenda:

地址:https://github.com/wenda-LLM/wenda

简介:一个LLM调用平台。为小模型外挂知识库查找和设计自动执行动作,实现不亚于于大模型的生成能力。

JittorLLMs:

地址:https://github.com/Jittor/JittorLLMs

简介:计图大模型推理库:笔记本没有显卡也能跑大模型,具有成本低,支持广,可移植,速度快等优势。

WebCPM

地址:https://github.com/thunlp/WebCPM

简介:一个支持可交互网页搜索的中文大模型。

GPT Academic:

地址:https://github.com/binary-husky/gpt_academic

简介:为GPT/GLM提供图形交互界面,特别优化论文阅读润色体验,支持并行问询多种LLM模型,支持清华chatglm等本地模型。兼容复旦MOSS, llama, rwkv, 盘古等。

ChatALL:

地址:https://github.com/sunner/ChatALL

简介:ChatALL(中文名:齐叨)可以把一条指令同时发给多个 AI,可以帮助用户发现最好的回答。

3. Dataset

RefGPT:基于RefGPT生成大量真实和定制的对话数据集

地址:https://github.com/ziliwangnlp/RefGPT

数据集说明:包括RefGPT-Fact和RefGPT-Code两部分,其中RefGPT-Fact给出了5万中文的关于事实性知识的多轮对话,RefGPT-Code给出了3.9万中文编程相关的多轮对话数据。

COIG

地址:https://huggingface.co/datasets/BAAI/COIG

数据集说明:维护了一套无害、有用且多样化的中文指令语料库,包括一个人工验证翻译的通用指令语料库、一个人工标注的考试指令语料库、一个人类价值对齐指令语料库、一个多轮反事实修正聊天语料库和一个 leetcode 指令语料库。

generated_chat_0.4M:

地址:https://huggingface.co/datasets/BelleGroup/generated_chat_0.4M

数据集说明:包含约40万条由BELLE项目生成的个性化角色对话数据,包含角色介绍。但此数据集是由ChatGPT产生的,未经过严格校验,题目或解题过程可能包含错误。

alpaca_chinese_dataset:

地址:https://github.com/hikariming/alpaca_chinese_dataset

数据集说明:根据斯坦福开源的alpaca数据集进行中文翻译,并再制造一些对话数据

Alpaca-CoT:

地址:https://github.com/PhoebusSi/Alpaca-CoT

数据集说明:统一了丰富的IFT数据(如CoT数据,目前仍不断扩充)、多种训练效率方法(如lora,p-tuning)以及多种LLMs,三个层面上的接口,打造方便研究人员上手的LLM-IFT研究平台。

pCLUE:

地址:https://github.com/CLUEbenchmark/pCLUE

数据集说明:基于提示的大规模预训练数据集,用于多任务学习和零样本学习。包括120万训练数据,73个Prompt,9个任务。

firefly-train-1.1M:

地址:https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M

数据集说明:23个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万

BELLE-data-1.5M:

地址:https://github.com/LianjiaTech/BELLE/tree/main/data/1.5M

数据集说明:通过self-instruct生成,使用了中文种子任务,以及openai的text-davinci-003接口,涉及175个种子任务

Chinese Scientific Literature Dataset:

地址:https://github.com/ydli-ai/csl

数据集说明:中文科学文献数据集(CSL),包含 396,209 篇中文核心期刊论文元信息 (标题、摘要、关键词、学科、门类)以及简单的prompt

Chinese medical dialogue data:

地址:https://github.com/Toyhom/Chinese-medical-dialogue-data

数据集说明:中文医疗对话数据集,包括:<Andriatria_男科> 94596个问答对 <IM_内科> 220606个问答对 <OAGD_妇产科> 183751个问答对 <Oncology_肿瘤科> 75553个问答对 <Pediatric_儿科> 101602个问答对 <Surgical_外科> 115991个问答对 总计 792099个问答对。

Huatuo-26M:

地址:https://github.com/FreedomIntelligence/Huatuo-26M

数据集说明:Huatuo-26M 是一个中文医疗问答数据集,此数据集包含了超过2600万个高质量的医疗问答对,涵盖了各种疾病、症状、治疗方式、药品信息等多个方面。Huatuo-26M是研究人员、开发者和企业为了提高医疗领域的人工智能应用,如聊天机器人、智能诊断系统等需要的重要资源。

4. Evaluation

FlagEval (天秤)大模型评测体系及开放平台

地址:https://flageval.baai.ac.cn/#/home

简介:旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用AI方法实现对主观评测的辅助,大幅提升评测的效率和客观性。FlagEval (天秤)创新构建了“能力-任务-指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。

C-Eval: 构造中文大模型的知识评估基准:

地址:https://yaofu.notion.site/C-Eval-6b79edd91b454e3d8ea41c59ea2af873

简介:构造了一个覆盖人文,社科,理工,其他专业四个大方向,52 个学科(微积分,线代 …),从中学到大学研究生以及职业考试,一共 13948 道题目的中文知识和推理型测试集。此外还给出了当前主流中文LLM的评测结果。

SuperCLUElyb: SuperCLUE琅琊榜

地址:https://github.com/CLUEbenchmark/SuperCLUElyb

简介:中文通用大模型匿名对战评价基准,这是一个中文通用大模型对战评价基准,它以众包的方式提供匿名、随机的对战。他们发布了初步的结果和基于Elo评级系统的排行榜。

GAOKAO-Bench:

地址:https://github.com/OpenLMLab/GAOKAO-Bench

简介:GAOKAO-bench是一个以中国高考题目为数据集,测评大模型语言理解能力、逻辑推理能力的测评框架,收集了2010-2022年全国高考卷的题目,其中包括1781道客观题和1030道主观题,构建起GAOKAO-bench的数据部分。

AGIEval:

地址:https://github.com/microsoft/AGIEval

简介:由微软发布的一项新型基准测试,这项基准选取20种面向普通人类考生的官方、公开、高标准往常和资格考试,包括普通大学入学考试(中国高考和美国 SAT 考试)、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等等。

Xiezhi:

地址:https://github.com/mikegu721/xiezhibenchmark

简介:由复旦大学发布的一个综合的、多学科的、能够自动更新的领域知识评估Benchmark,包含了哲学、经济学、法学、教育学、文学、历史学、自然科学、工学、农学、医学、军事学、管理学、艺术学这13个学科门类,24万道学科题目,516个具体学科,249587道题目。

Open LLM Leaderboard:

地址:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

简介:由HuggingFace组织的一个LLM评测榜单,目前已评估了较多主流的开源LLM模型。评估主要包括AI2 Reasoning Challenge, HellaSwag, MMLU, TruthfulQA四个数据集上的表现,主要以英文为主。

chinese-llm-benchmark:

地址:https://github.com/jeinlee1991/chinese-llm-benchmark

简介:中文大模型能力评测榜单:覆盖百度文心一言、chatgpt、阿里通义千问、讯飞星火、belle / chatglm6b 等开源大模型,多维度能力评测。不仅提供能力评分排行榜,也提供所有模型的原始输出结果!

Safety-Prompts:

地址:https://github.com/thu-coai/Safety-Prompts

简介:由清华大学提出的一个关于LLM安全评测benchmark,包括安全评测平台等,用于评测和提升大模型的安全性,囊括了多种典型的安全场景和指令攻击的prompt。

PromptCBLUE: 中文医疗场景的LLM评测基准

地址:https://github.com/michael-wzhu/PromptCBLUE

简介:为推动LLM在医疗领域的发展和落地,由华东师范大学联合阿里巴巴天池平台,复旦大学附属华山医院,东北大学,哈尔滨工业大学(深圳),鹏城实验室与同济大学推出PromptCBLUE评测基准, 将16种不同的医疗场景NLP任务全部转化为基于提示的语言生成任务,形成首个中文医疗场景的LLM评测基准。

5. Tutorial

面向开发者的 LLM 入门课程:

地址:https://github.com/datawhalechina/prompt-engineering-for-developers

简介:一个中文版的大模型入门教程,围绕吴恩达老师的大模型系列课程展开,主要包括:吴恩达《ChatGPT Prompt Engineering for Developers》课程中文版,吴恩达《Building Systems with the ChatGPT API》课程中文版,吴恩达《LangChain for LLM Application Development》课程中文版等。

LangChain中文网,跟着LangChain一起学LLM/GPT开发:

地址:https://www.langchain.asia

简介:Langchain的中文文档,由是两个在LLM创业者维护,希望帮助到从刚进入AI应用开发的朋友们。

LLMs九层妖塔:

地址:https://github.com/km1994/LLMsNineStoryDemonTower

简介:ChatGLM、Chinese-LLaMA-Alpaca、MiniGPT-4、FastChat、LLaMA、gpt4all等实战与经验。

HuggingLLM:

地址:https://github.com/datawhalechina/hugging-llm

简介:介绍 ChatGPT 原理、使用和应用,降低使用门槛,让更多感兴趣的非NLP或算法专业人士能够无障碍使用LLM创造价值。

OpenAI Cookbook:

地址:https://github.com/openai/openai-cookbook

简介:该项目是OpenAI提供的使用OpenAI API的示例和指导,其中包括如何构建一个问答机器人等教程,能够为从业人员开发类似应用时带来指导。

6. Related Repository

FindTheChatGPTer:

地址:https://github.com/chenking2020/FindTheChatGPTer

简介:ChatGPT爆火,开启了通往AGI的关键一步,本项目旨在汇总那些ChatGPT的开源平替们,包括文本大模型、多模态大模型等,为大家提供一些便利。

LLM_reviewer:

地址:https://github.com/SpartanBin/LLM_reviewer

简介:总结归纳近期井喷式发展的大语言模型,以开源、规模较小、可私有化部署、训练成本较低的‘小羊驼类’模型为主。

Awesome-AITools:

地址:https://github.com/ikaijua/Awesome-AITools/blob/main/README-CN.md

简介:收藏整理了AI相关的实用工具、评测和相关文章。

open source ChatGPT and beyond:

地址:https://github.com/SunLemuria/open_source_chatgpt_list

简介:This repo aimsat recording open source ChatGPT, and providing an overview of how to getinvolved, including: base models, technologies, data, domain models, trainingpipelines, speed up techniques, multi-language, multi-modal, and more to go.

Awesome Totally Open Chatgpt:

地址:https://github.com/nichtdax/awesome-totally-open-chatgpt

简介:This repo recorda list of totally open alternatives to ChatGPT.

Awesome-LLM:

地址:https://github.com/Hannibal046/Awesome-LLM

简介:This repo is acurated list of papers about large language models, especially relating toChatGPT. It also contains frameworks for LLM training, tools to deploy LLM,courses and tutorials about LLM and all publicly available LLM checkpoints andAPIs.

DecryptPrompt:

地址:https://github.com/DSXiangLi/DecryptPrompt

简介:总结了Prompt&LLM论文,开源数据&模型,AIGC应用。

Awesome Pretrained Chinese NLP Models:

地址:https://github.com/lonePatient/awesome-pretrained-chinese-nlp-models

简介:收集了目前网上公开的一些高质量中文预训练模型。

ChatPiXiu:

地址:https://github.com/catqaq/ChatPiXiu

简介:该项目旨在打造全面且实用的ChatGPT模型库和文档库。当前V1版本梳理了包括:相关资料调研+通用最小实现+领域/任务适配等。



Alpaca (Stanford)

斯坦福Alpaca:一种指令遵从型 LLaMA 模型。

以下是基于 Stanford Alpaca 项目的衍生模型或类似模型:

  • Alpaca.cpp
  • Alpaca-LoRA
  • Baize
  • Cabrita
  • BELLE
  • Luotuo
  • Vicuna
  • Chinese-Vicuna
  • GPT4All
  • Koala
  • llama.cpp
  • Lit-LLaMA ️

Alpaca.cpp

一个可以在本地设备上快速运行的类ChatGPT模型。视频中演示的模型具有4G权重,运行在M2芯片的Macbook Air上。视频是原始速度,没有加速。

Alpaca-LoRA

该项目使用低秩适应 (LoRA) 重现Stanford Alpaca。

项目提供了一个与 text-davinci-003 质量相似的指令模型,可以在 Raspberry Pi 上运行(用于研究),代码可以很容易地扩展到 13B、30B 和 65B 模型。

Baize

Baize 是一个使用 LoRA 微调的开源聊天模型。 它使用与 ChatGPT 聊天生成的 100k 对话进行训练。 还使用 Alpaca 的数据来提高其性能。 目前已经发布了 7B、13B 和 30B 规模模型。

Cabrita

基于LLaMA的葡萄牙语微调模型

BELLE

BELLE 基于斯坦福的 Alpaca 完成,对中文做了优化,并对生成代码进行了一些修改,模型调优仅使用由 ChatGPT 生产的数据(不包含任何其他数据)。

Luotuo

来自商汤科技和华中科技大学开源中文语言模型骆驼 Luotuo,该项目基于 LLaMA、Stanford Alpaca、Alpaca LoRA、Japanese-Alpaca-LoRA 等完成,单卡就能完成训练部署。

Vicuna (FastChat)

一个达到ChatGPT 90%效果的开源聊天机器人。

Chinese-Vicuna

一个中文低资源的LLaMA + LoRA方案,结构参考Alpaca

GPT4All

基于 LLaMA,用大约 800k GPT-3.5-Turbo 生成数据训练的助手式大语言模型。

Koala

Koala 是一个在 LLaMA 上微调的语言模型。

llama.cpp

用纯C/C++实现的LLaMA模型推理。支持3个模型:LLaMAAlpacaGPT4All

Lit-LLaMA ️

LLaMA 的独立实现,支持量化、LoRA微调和预训练。在 Apache 2.0 许可下完全开源。 此实现基于 nanoGPT

BLOOM (BigScience)

BigScience 大型开放科学开放存取多语言模型。

以下是基于 BigScience BLOOM 项目的衍生模型或类似模型:

  • BLOOM-LoRA
  • Petals

BLOOM-LoRA

各种指令调优数据集的低秩适应模型。

Petals

使用分布式 176B 参数 BLOOM 或 BLOOMZ 生成文本,并根据您自己的任务对其进行微调。

Flamingo (Google/Deepmind)

使用单一视觉语言模型处理多项任务

以下是基于 Flamingo 项目的衍生模型或类似模型:

  • Flamingo — Pytorch
  • OpenFlamingo

Flamingo — Pytorch

在 Pytorch 中实现 Flamingo。包括感知器重采样器(包括学习查询贡献要注意的键/值的方案,以及媒体嵌入)、专门的掩码交叉注意力块,以及交叉注意力末端的 tanh 门控 + 相应的前馈块。

OpenFlamingo

DeepMind Flamingo 模型的开源版本。提供了用于训练和评估 OpenFlamingo 模型的 PyTorch 实现。还提供了在新的多模态 C4 数据集(即将推出)上训练的初始 OpenFlamingo 9B 模型。

FLAN (Google)

包含用于生成指令调优数据集集合的代码。 第一个是原始的 Flan 2021,记录在 Finetuned Language Models are Zero-Shot Learners 中;第二个是扩展版本,被称为 Flan Collection,记录在 The Flan Collection: Designing Data and Methods for Effective Instruction Tuning 中,用于生成 Flan-T5 和 Flan-PaLM

以下是基于 FLAN 项目的衍生模型或类似模型:

  • Flan-Alpaca
  • Flan-UL2

Flan-Alpaca

来自人类和机器的指令调优。 包含用于将 Stanford Alpaca 合成指令调优扩展到现有指令调优模型(例如 Flan-T5)的代码。 HuggingFace 上提供了预训练模型和演示。

Flan-UL2

Flan-UL2是基于T5架构的编解码器模型。 它使用与去年早些时候发布的 UL2 模型相同的配置。 使用“Flan”提示调整和数据集收集对其进行了微调。

GLM (General Language Model)

GLM 是一种使用自回归填空目标进行预训练的通用语言模型,可以针对各种自然语言理解和生成任务进行微调。

以下是基于 GLM 项目的衍生模型或类似模型:

  • GLM-130B
  • ChatGLM-6B

GLM-130B

GLM-130B是一个开放的双语(英汉)双向密集模型,拥有1300亿个参数,使用通用语言模型(GLM)的算法进行预训练。 它旨在在单台A100(40G 8)或V100(32G 8)服务器上用具有130B参数模型进行推理任务。 通过 INT4 量化,硬件要求可以进一步降低到具有 4 * RTX 3090(24G)的单个服务器,而性能几乎没有下降。 截至 2022 年 7 月 3 日,GLM-130B 已经接受了超过 4000 亿个文本标记的训练(中文和英文各 200B)。

ChatGLM-6B

ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。 ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。

GPT-J (EleutherAI)

GPT-J 是 EleutherAI 开发的开源人工智能语言模型。GPT-J 在各种零样本下游任务上的表现与 OpenAI 的 GPT-3 非常相似,甚至在代码生成任务上的表现优于它。

最新版本 GPT-J-6B 是一种基于名为 The Pile) 的数据集的语言模型。The Pile 是一个开源的 825 GB 语言建模数据集,分为 22 个较小的数据集。GPT-J 在能力上与 ChatGPT 类似,虽然它不具有聊天机器人的功能,仅作为文本预测器。

以下是基于 GPT-J 项目的衍生模型或类似模型:

  • Dolly

Dolly (Databricks)

Databricks 的 Dolly 是一个在 Databricks 机器学习平台上训练的大型语言模型,它基于开源模型 (GPT-J) 在对 50k的重点语料库(Stanford Alpaca)进行仅 30 分钟的微调 ,就表现出令人惊讶的高质量指令遵循行为。 我们认为这一发现很重要,因为它表明创造强大的人工智能技术的能力比以前意识到的要容易得多。

Cerebras-GPT (Cerebras)

一系列开源、高效的大型语言模型。 Cerebras 开源了七个 GPT-3 模型,参数从 1.11 亿到 130 亿。 这些模型使用 Chinchilla 公式进行训练,为准确性和计算效率设定了新的基准。

GPT-NeoX

该项目记录了 EleutherAI 用于在 GPU 上训练大规模语言模型的库。 当前的框架基于 NVIDIA 的 Megatron 语言模型,并通过 DeepSpeed 技术以及一些新颖的优化得到了增强。 目标是使这个项目成为一个可访问的集散地,以收集训练大规模自回归语言模型的技术,并加速对大规模训练的研究。

HuggingGPT

HuggingGPT 是一个协作系统,由作为控制器的 LLM 和作为协作执行者的众多专家模型组成(来自 HuggingFace Hub)。

Polyglot

多语言均衡能力的大型语言模型。 由于对当前多语言模型的非英语性能不满意,Polyglot团队制作了非英语语言性能更高的多语言模型,并将其命名为“Polyglot”。

Pythia

跨时间和尺度解释自回归Transformer

Segment Anything

Segment Anything Model (SAM) 根据输入提示(例如点或框)生成高质量的对象掩码,它可用于为图像中的所有对象生成掩码。 它已经在 1100 万张图像和 11 亿个掩码的数据集上进行了训练,并且在各种分割任务上具有很强的零样本性能。

The RWKV Language Model

RWKV:具有 Transformer 级 LLM 性能的可并行化 RNN(RWKV来自Transformer的4 个主要参数:R W K V)

XGLM

XGLM 模型是 Few-shot Learning with Multilingual Language Models 中提出的模型。




Share Http URL:  http://www.wittx.cn/get_news_message.do?new_id=1216



请输入评论





























Best Last Month