当前位置：首页 > news >正文

蛋白质二级结构数据集分析与应用：近40万条高质量标注数据，支持结构预测、药物设计与生物信息学研究，包含X射线晶体学实验参数与高分辨率结构信息

news 2026/7/23 0:48:22

蛋白质二级结构数据集分析

引言与背景

蛋白质二级结构是理解蛋白质功能和结构的重要基础，对于蛋白质结构预测、药物设计和生物工程等领域具有关键意义。本数据集提供了大规模的蛋白质二级结构标注信息，包含从PDB数据库中提取的高质量蛋白质序列及其对应的二级结构标签。

数据集由两个主要文件组成：2018-06-06-ss.cleaned.csv和2018-06-06-pdb-intersect-pisces.csv。前者包含了蛋白质的基本信息和二级结构标注，后者则额外提供了实验方法、分辨率等详细的结构测定信息。这些数据对于科研人员进行蛋白质结构分析、机器学习模型训练以及药物研发等工作具有重要价值。

数据基本信息

数据字段说明

字段名称	字段类型	字段含义	数据示例	完整性
pdb_id	字符串	PDB数据库中的蛋白质ID	1A30	100%
chain_code	字符串	蛋白质链标识符	C	100%
seq	字符串	氨基酸序列	EDL	100%
sst8	字符串	8类二级结构标注	CBC	100%
sst3	字符串	3类二级结构标注	CEC	100%
len	整数	序列长度	3	100%
has_nonstd_aa	布尔值	是否包含非标准氨基酸	False	100%
Exptl.	字符串	实验方法	XRAY	100% (仅pdb-intersect-pisces.csv)
resolution	浮点数	结构分辨率(Å)	1.9	100% (仅pdb-intersect-pisces.csv)
R-factor	浮点数	结构精修R因子	0.23	100% (仅pdb-intersect-pisces.csv)
FreeRvalue	浮点数	自由R因子	0.27	100% (仅pdb-intersect-pisces.csv)

数据分布情况

序列长度分布

长度范围	记录数量	占比	累计占比
3-100	124,568	31.64%	31.64%
101-300	187,245	47.56%	79.20%
301-500	54,876	13.94%	93.14%
501-1000	22,345	5.68%	98.82%
>1000	4,698	1.18%	100.00%

二级结构类型分布 (sst3)

结构类型	数量	占比
C (无规则卷曲)	45,997,420	44.90%
H (α螺旋)	35,074,876	34.23%
E (β折叠)	21,381,745	20.87%

非标准氨基酸分布

状态	记录数量	占比
包含非标准氨基酸	7,399	1.88%
不包含非标准氨基酸	386,333	98.12%

实验方法分布

实验方法	记录数量	占比
XRAY (X射线晶体学)	9,078	100.00%

分辨率分布

分辨率范围	记录数量	占比
≤1.0Å	1,245	13.72%
1.0-1.5Å	3,876	42.70%
1.5-2.0Å	3,957	43.58%

数据规模与覆盖领域

总记录数：393,732 条（ss.cleaned.csv）
额外详细信息：9,078 条（pdb-intersect-pisces.csv）
序列长度范围：3-5037 个氨基酸
平均序列长度：259.44 个氨基酸
覆盖领域：涵盖各种蛋白质家族和功能类型

数据优势

优势特征	具体表现	应用价值
数据规模大	包含近40万条蛋白质二级结构记录	为机器学习模型提供充足的训练数据
标注质量高	基于PDB数据库的权威标注	确保模型训练的准确性和可靠性
结构信息丰富	同时提供3类和8类二级结构标注	满足不同精度需求的研究和应用
实验数据完整	包含X射线晶体学实验参数	支持基于实验条件的分析和验证
分辨率高	平均分辨率1.61Å，最高达0.48Å	保证结构信息的准确性和可靠性
序列多样性	涵盖不同长度和类型的蛋白质	提高模型的泛化能力和适用性
数据来源	典枢

数据样例

元数据样例

pdb_id	chain_code	seq	sst8	sst3	len	has_nonstd_aa
1A30	C	EDL	CBC	CEC	3	False
1B05	B	KCK	CBC	CEC	3	False
1B0H	B	KAK	CBC	CEC	3	False
1B1H	B	KFK	CBC	CEC	3	False
1B2H	B	KAK	CBC	CEC	3	False
1B32	B	KMK	CBC	CEC	3	False
1B3F	B	KHK	CBC	CEC	3	False
1B3G	B	KIK	CBC	CEC	3	False
1B3H	B	KAK	CBC	CEC	3	False
1B3L	B	KGK	CBC	CEC	3	False

详细信息样例

pdb_id	chain_code	seq	resolution	R-factor	FreeRvalue
1FV1	F	NPVVHFFKNIVTPRTPPPSQ	1.9	0.23	0.27
1LM8	H	DLDLEMLAPYIPMDDDFQLR	1.85	0.2	0.24
1O06	A	EEDPDLKAAIQESLREAEEA	1.45	0.19	0.22
1QOW	D	CTFTLPGGGGVCTLTSECI*	1.06	0.14	1.0
1RDQ	I	TTYADFIASGRTGRRNAIHD	1.26	0.13	0.16
1T6O	B	QDSRRSADALLRLQAMAGIS	2.0	0.23	0.28
1T7F	B	SSRGLLWDLLTKDSRSGSGK	1.6	0.2	0.22
1U7B	B	SRQGSTQGRLDDFFKVTGSL	1.88	0.22	0.27
1UGX	B	DEQSGISQTVIVGPWGAKVS	1.6	0.19	0.2
1VPP	Y	RGWVEICAADDYGRCLTEAQ	1.9	0.19	0.27

应用场景

蛋白质结构预测模型训练

蛋白质二级结构预测是蛋白质结构研究的基础，对于理解蛋白质功能和设计新蛋白质具有重要意义。本数据集提供了大规模的标注数据，可用于训练和评估各种机器学习模型，如深度学习模型、支持向量机等。通过学习氨基酸序列与二级结构之间的映射关系，模型可以预测未知蛋白质的二级结构，为后续的三级结构预测和功能分析奠定基础。