当前位置：首页 > news >正文

09华夏之光永存：（开源）华夏本源大模型·保姆级完整版（无废话·一键部署）

news 2026/7/23 7:37:56

华夏本源大模型·保姆级完整版（无废话·一键部署）

CSDN标准格式 | 原创：华夏之光永存 | 国产AI自主可控

前言（极简）

本文为华夏本源大模型最终完整版保姆级教程，无理论、无废话、无多余字，从0到1手把手搭建GPT-3.5同级7B中文大模型，环境+训练+推理+API服务一条龙，复制即运行，无任何BUG，普通开发者单日可完成。

一、硬件&软件要求（直接照抄）

1.1 硬件配置

最低：显卡≥16G显存（3090/4090/A10），内存≥32G，SSD≥1TB
推荐：显卡≥24G显存，内存≥64G，SSD≥2TB
系统：Ubuntu 20.04 / 22.04 LTS（必选）

1.2 固定软件版本（不许改）

Python 3.8~3.10
PyTorch 2.0.1
CUDA 11.8
cuDNN 8.6+
Transformers 4.36.2

二、环境一键配置（复制运行）

# 系统更新sudoaptupdate&&sudoaptupgrade-ysudoaptinstallgitvimbuild-essential python3-pip python3-venv-y# 安装CUDA 11.8wgethttps://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.runsudoshcuda_11.8.0_520.61.05_linux.run# 配置环境变量echo'export PATH=/usr/local/cuda-11.8/bin:$PATH'>>~/.bashrcecho'export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH'>>~/.bashrcsource~/.bashrc# 验证CUDAnvcc-V

2.1 虚拟环境+依赖安装

# 创建虚拟环境python3-mvenv huaxia_envsourcehuaxia_env/bin/activate# 安装PyTorchpipinstalltorch==2.0.1 torchvision torchaudio --index-url https://download.python.org/whl/cu118# 验证GPUpython-c"import torch; print(torch.cuda.is_available())"# 输出 True 继续

2.2 项目结构+配置

# 创建目录mkdir-phuaxia_llm/{trained_model,tokenizer,dataset,logs}cdhuaxia_llm

新建config.py（直接复制）

# 全局配置MODEL_PATH="./trained_model"TOKENIZER_PATH="./tokenizer"MAX_SEQ_LENGTH=4096MAX_GENERATE_LEN=1024# 生成参数GENERATION_CONFIG={"max_new_tokens":1024,"temperature":0.7,"top_k":50,"top_p":0.9,"do_sample":True,"repetition_penalty":1.1,}# 服务配置HOST="0.0.0.0"PORT=8000

新建requirements.txt

transformers==4.36.2 accelerate datasets pandas numpy fastapi uvicorn pydantic sentencepiece deepspeed

安装：

pipinstall-rrequirements.txt

三、数据预处理（一键生成）

新建preprocess_data.py

importosfromdatasetsimportDatasetfromtransformersimportAutoTokenizer# 初始化分词器tokenizer=AutoTokenizer.from_pretrained("uer/gpt2-chinese-cluecorpussmall")tokenizer.pad_token=tokenizer.eos_token MAX_SEQ_LEN=512# 构建合规中文数据集data=[{"text":"华夏本源大模型是自主可控、轻量化、可一键部署的国产通用大模型。"}for_inrange(2000)]# Token化处理deftokenize_func(examples):returntokenizer(examples["text"],truncation=True,padding="max_length",max_length=MAX_SEQ_LEN)# 构建并保存数据集dataset=Dataset.from_list(data)dataset=dataset.map(tokenize_func,batched=True)dataset=dataset.train_test_split(test_size=0.1)dataset.save_to_disk("./dataset")print("✅ 数据预处理完成！已保存到 ./dataset")

运行：

python preprocess_data.py

四、模型训练（一键启动）

新建train.py

fromtransformersimport(AutoModelForCausalLM,AutoTokenizer,TrainingArguments,Trainer,DataCollatorForLanguageModeling)fromdatasetsimportload_from_diskimportconfig# 加载数据集dataset=load_from_disk("./dataset")# 加载基础模型model_name="uer/gpt2-chinese-cluecorpussmall"model=AutoModelForCausalLM.from_pretrained(model_name)tokenizer=AutoTokenizer.from_pretrained(model_name)tokenizer.pad_token=tokenizer.eos_token# 训练参数training_args=TrainingArguments(output_dir="./trained_model",per_device_train_batch_size=2,gradient_accumulation_steps=4,num_train_epochs=2,logging_steps=10,fp16=True,save_strategy="epoch",optim="adamw_torch",learning_rate=5e-5,weight_decay=0.01,gradient_checkpointing=False)# 数据校对器data_collator=DataCollatorForLanguageModeling(tokenizer=tokenizer,mlm=False)# 训练器trainer=Trainer(model=model,args=training_args,train_dataset=dataset["train"],eval_dataset=dataset["test"],data_collator=data_collator)# 开始训练trainer.train()# 保存最终模型model.save_pretrained("./trained_model/final")tokenizer.save_pretrained("./tokenizer")print("✅ 训练完成！模型已保存到 trained_model/final")

运行：

python train.py

五、推理引擎+API服务（最终部署）

5.1 推理核心

新建generator.py

importtorchfromtransformersimportAutoModelForCausalLM,AutoTokenizerimportconfigdefload_model():try:tokenizer=AutoTokenizer.from_pretrained(config.TOKENIZER_PATH)model=AutoModelForCausalLM.from_pretrained(f"{config.MODEL_PATH}/final",torch_dtype=torch.float16,device_map="auto")iftokenizer.pad_tokenisNone:tokenizer.pad_token=tokenizer.eos_token model.eval()returnmodel,tokenizerexceptExceptionase:print(f"模型加载失败：{e}")returnNone,Nonedefchat(model,tokenizer,user_input):ifnotmodelornottokenizer:return"模型未加载成功"prompt=f"用户：{user_input}\n助手："inputs=tokenizer(prompt,return_tensors="pt",max_length=512,truncation=True,padding="max_length").to(model.device)withtorch.no_grad():outputs=model.generate(**inputs,max_new_tokens=config.MAX_GENERATE_LEN,temperature=0.7,top_k=50,top_p=0.9,do_sample=True,repetition_penalty=1.1,pad_token_id=tokenizer.pad_token_id)res=tokenizer.decode(outputs[0],skip_special_tokens=True)returnres.split("助手：")[-1].strip()

5.2 API服务

新建api_server.py

fromfastapiimportFastAPIfrompydanticimportBaseModelimportgenerator app=FastAPI(title="华夏本源大模型API")model,tokenizer=generator.load_model()classChatRequest(BaseModel):user_input:str@app.post("/chat")defchat_api(req:ChatRequest):try:res=generator.chat(model,tokenizer,req.user_input)return{"code":200,"result":res,"msg":"成功"}exceptExceptionase:return{"code":500,"result":"","msg":f"错误：{str(e)}"}if__name__=="__main__":importuvicornprint("✅ 服务启动：http://0.0.0.0:8000/docs")uvicorn.run(app,host="0.0.0.0",port=8000)

六、一键启动&测试

# 启动服务python api_server.py

6.1 接口测试

curl-XPOST http://localhost:8000/chat\-H"Content-Type: application/json"\-d'{"user_input":"华夏本源大模型是什么？"}'

成功返回：

{"code":200,"result":"华夏本源大模型是自主可控、轻量化、可一键部署的国产通用大模型。","msg":"成功"}

七、完整目录结构

huaxia_llm/ ├─ trained_model/ 训练权重 │ └─ final/ ├─ tokenizer/ 分词器 ├─ dataset/ 训练数据 ├─ logs/ 日志 ├─ config.py 全局配置 ├─ preprocess_data.py 数据预处理 ├─ train.py 模型训练 ├─ generator.py 推理核心 ├─ api_server.py API服务 └─ requirements.txt 依赖