NHANES数据库论文解读 | 聚类分析揭示活动与抑郁衰老的关系

2023/5/17 17:06:57　阅读：134　发布者：

以下文章来源于公共数据库与孟德尔随机化，作者yin

随着人口老龄化的进程，越来越多的研究关注如何在老年人中维持身心健康。其中，抑郁症是一种常见的情感障碍，与心理健康以及生理健康都有紧密的联系。虽然线性回归等传统的统计模型可以用于探究活动与抑郁症之间的关系，但并不能完全反映数据中可能存在的复杂结构。针对这个问题，聚类分析作为无监督式学习的重要工具，能够从数据层面上挖掘出样本之间的相似度和差异性，并将其分类为不同的群组。在本文中，我们将应用聚类分析方法，利用NHANES数据库中的数据，探究活动与抑郁症状以及衰老认知的关系，希望为后续老年精神保健实践提供一些启示性的结论。

2022年10月1日，一篇题为：Association of 24-Hour Activity Pattern PhenotypesWith Depression Symptoms and Cognitive Performance in Aging 的研究论文发表于《JAMA Psychiatry》（JAMA子刊）（IF=25.91）。

这项研究利用美国营养健康（NHANES）的数据，研究了在美国24小时活动模式表型与衰老抑郁症状和认知表现的关联。结果表明，美国大约五分之一的老年人可能被归类为活动模式较弱且安定较晚的亚组，大约十分之一的老年人可能被归类为活动模式较弱且活动持续时间较短的亚组。

摘要与主要结果

一、摘要

背景：为了指导有针对性的机制研究和行为干预的开发，需要有关老年人24小时活动模式表型性质和普遍程度的证据，特别是其中与抑郁症状和认知有关的表型。本研究旨在确定具有相似24小时活动节律特征的老年人亚组，并描述相关的抑郁症状和认知表现。

方法：本次研究为横断面分析，使用了2011-2014年全国健康和营养调查(NHANES)中的加速度计研究数据。统计分析从2022年1月至3月。NHANES采用了多阶段随机抽样方式，旨在代表美国非机构化成年人口。主要分析对象为65岁及以上、具有加速度计和抑郁症状测量值的参与者，加权后代表约3200万老年人。主要的暴露变量是分组依据是运用潜在类别分析确定了子群体，这些子群体具有相似的24小时活动模式特征，这些特征是使用扩展余弦和非参数方法测量得出的。通过使用协变量调整样本加权回归，评估了子群体成员与以下两方面的相关性：（1）抑郁症状，定义为9项患者健康问卷(PHQ-9)得分大于等于10分；（2）至少存在心理测量上轻度认知障碍(p-MCI)，即综合认知表现得分低于平均值1个标准差。

结果：实际的聚类样本大小为1800(加权：平均[标准差]年龄72.9 [7.3]岁；57%女性参与者)。聚类确定了4个子群体：(1)677个早期起床/健壮型（37.6%）；(2)587个短期活动期/不易建模（32.6%）；(3)177个短期活动期/非常虚弱（9.8%）；(4)359个较晚结束活动/非常虚弱（20.0%）。PHQ-9得分达到或超过10分的患者比例在各组之间存在显著差异（聚类1：3.5%；聚类2：4.7%；聚类3：7.5%；聚类4：9.0%; χ2 P = .004）。至少存在p-MCI的患者比例在各组之间存在显著差异（聚类1：7.2%；聚类2：12.0%；聚类3：21.0%；聚类4：18.0%；χ2 P < .001）。其中有五个抑郁症状在子群组间存在显著差异。

结论：这项横断面研究的发现表明，在美国约5分之1的老年人可能被归为活动模式较弱且结束活动较晚的子群体，约10%的老年人可能被归为活动时间短且模式较弱的子群体。未来的研究需要探索与这些行为表型相关的生物学过程，包括为什么早期和强健的活动模式似乎是有保护作用的，以及改善异常的模式是否会改善结果。

二、研究结果

1. 活动模式的聚类识别（基线资料）

实际的聚类样本大小为1800(加权：平均[标准差]年龄72.9 [7.3]岁；57%女性参与者，43%男性参与者)。包括以下种族和族裔类别的参与者(按加权百分比计算)：亚洲人(聚类1：4.1%；聚类2：2.1%；聚类3：3.4%；聚类4：3.4%)，黑人(聚类1：5.3%；聚类2：6.6%；聚类3：12.4%；聚类4：13.5%)，西班牙裔 (聚类1：5.9%；聚类2：6.2%；聚类3：9.6%；聚类4：5.9%)，以及白人、其他人种或混合种族和民族 (聚类1：84.8%；聚类2：85.1%; 聚类3：74.6%；聚类4:77.3%)。参与者佩戴加速度计的平均(标准差)记录长度为6.9(0.2) 天 (范围4-7天)。

BIC指出,最优模型具有4个子群体和相等形状之椭球协方差结构(见补充资料eTable 1和2)。我们将最大的子群体(677 [37.6%])标记为聚类1：早期起床/健壮型，因为他们平均上有：(1) 活动启动时间在早上7点之前（约早于平均值的三分之一SD） (2) 共15小时的活动时长；(3) 在所有指标中都体现出最强的活动模式。

第二大子群体(587 [32.6%])被标记为聚类2：短活动时期/不易建模，因为平均而言，他们与聚类1早期起床/健壮型群体有所区别，即开始日常活动时间较晚且结束时间较早(平均活跃周期持续时间=13.4个小时)，除虚F统计量外，他们的稳健性指标高于平均水平（其表明对24小时扩展余弦模型更劣）。

最后的两个群体都表现出不规律的活动模式，多种指标均有所反映（伪F统计量、日际稳定性、日内变异性和相对幅度）。其中较小的那组占样本的9.8%（即1800人中的177人），被标记为聚类3：短活动时期/虚弱型，因为他们具有最短的平均活跃周期长度（11.8小时）。

最后一组(359 [20.0%])被标记为聚类4：较晚结束活动/虚弱型，因为他们平均上具有最晚的估计活动偏移时间。表格1展示了各子群体的样本社会人口因素。

2.活动模式亚组中的抑郁症状分析

PHQ-9得分为10分或以上的患病率在不同组之间存在差异（聚类1，3.5％; 聚类2，4.7％; 聚类3，7.5％; 聚类4，9.0％；χ2 P = .004）（图2A）。总体而言，有5.4％的参与者PHQ-9得分为10分或更高。根据年龄、性别和种族调整后的数据，与聚类1早期起床/强壮型组相比，在聚类2活动时间较短/建模能力较差的组中出现PHQ-9得分为10分及以上的比例大致相同（比值比[OR]，1.43；95％ CI，0.76-2.67），而在聚类3活动时间较短/非常虚弱的组（OR，2.34；95％ CI，1.12-4.91）以及聚类4较晚结束活动/非常虚弱组（OR，2.91；95％ CI，1.51-5.60）中，此方面的比例均显著提高。

此外，在9种个体抑郁症状中，各组之间也存在统计学上显著的差异（抑郁、睡眠障碍、疲劳/精力不足、内疚、自杀倾向）。与聚类1早期起床/强壮型组相比，有序回归和CI（图3）所指出的OR值表明（1）两个活动时间较短的组报告了更高的抑郁情绪水平（尽管这些组中最小的那个组的95％ CI包括1），（2）聚类4较晚结束活动/非常虚弱的组报告了更高的睡眠障碍水平，（3）所有三个群体都报告了更高的疲劳水平，（4）仅聚类3活动时间较短/非常虚弱的组报告较高的内疚水平，（5）两个活动模式较弱的群体（聚类3和4）报告了更高的自杀倾向水平。

3.活动模式亚组中的认知测试表现

需要注意，实际的未加权原始认知测试分数范围很广，表明样本涵盖了各种认知状态的参与者（见补充资料中的eTable 3）。至少有p-MCI的患病率在不同组之间存在显著差异（聚类1，7.2％; 聚类2，12.0％；聚类3，21.0％；聚类4，18.0％；χ2 P < .001）（图2B见上）。与聚类1早期起床/强壮型组相比，在所有3个组中（年龄，性别，种族，认知测验语言和教育已经调整），至少有p-MCI的患病率均较高（聚类2活动时间较短/建模能力较差的组：OR，1.84；95％ CI，1.06-3.20；聚类3活动时间较短/非常虚弱的组：OR，3.36；95％ CI，1.81-3.26；聚类4较晚结束活动/非常虚弱的组：OR，2.76；95％ CI，1.63-4.67）。

就连续认知表现结果而言，两组活动模式较弱的群体在所有三个测试上表现都不如其他群组（β系数> -0.25并且95％ CI不与0重叠）（图4）。相对于参照组，聚类2活动时间较短/建模能力较差的组仅在延迟记忆测试上表现较差。

4.比较个体活动模式特征和亚组成员身份与结果相关性的效应大小

额外的分析证实，个体24小时活动模式变量与结果相关，独立于总体活动水平（见补充材料中的eTable 4）。活动时间开始和水平与抑郁症状严重程度相关，几个节律紊乱指标则与认知表现独立相关。当将亚组成员身份与任何个体变量进行比较时，作用效应更大。

设计与统计学方法

一、研究设计

P：使用了2011-2014年全国健康和营养调查(NHANES)中的加速度计研究数据。实际的聚类样本大小为1800。

I：分为四组，：(1)677个早期起床/健壮型（37.6%）；(2)587个短期活动期/不易建模（32.6%）；(3)177个短期活动期/非常虚弱（9.8%）；(4)359个较晚结束活动/非常虚弱（20.0%）。

O：结局：抑郁症状与认知情况。

S：横断面分析

二、统计方法

1.建立模型，我们使用有限正态混合模型在R软件包mclust（R Foundation）中实现，从经验上确定了具有类似活动模式特征的亚组。我们输入先前指定的活动模式测量，并根据贝叶斯信息准则（BIC）选择最佳的模型拟合，考虑使用不同数量的子组和协方差结构的模型。

2.选择最优模型，在使用BIC选择最佳模型的同时，我们事先规定不选择包含小群组的模型（考虑样本大小），其定义为分析样本少于5％。我们报告了最佳模型每个亚组的加权患病率以及它们的协变量和活动模式特征。出于描述目的，活动模式特征表达为其原始刻度和重缩放至均值为0和标准偏差为1的样本均值以便于效应大小比较。

3.回归分析，随后，我们使用样本加权回归模型评估亚组成员身份与以下结果的关联。二元回归用于临床显著的抑郁症状和至少p-MCI（是或否）的结果。序数回归用于单项PHQ-9抑郁症状（完全没有、有些天、一半以上的日子、几乎每天）的结果。在这些单项抑郁症状模型中，我们考虑有可能由于比较9个抑郁症状项目上的多个子组而出现假阳性结果（例如，将3个组与参考组在9个项目上进行比较将进行27次比较）。鉴于样本量较大并且存在假阳性的可能性，我们仅在整体Wald χ2小于0.05时认为结果具有统计学意义。所有P值均为双侧。对于3个连续结果（认知测试表现），使用线性回归。在分析之前，这些连续结果均被标准化以便于效应大小比较。

小加餐

给出上述文章中运用R包mclust实现的聚类分析代码（需要先下载该包，可用代码“install.mclust”进行下载）

# 导入数据

data <- read.csv("数据文件.csv")

# 选择需要进行聚类的变量列

var_cols <- c("变量1", "变量2", "变量3")

# 提取所需列作为新的数据框

data_clust <- data[, var_cols]

# 对数据进行标准化处理，以使得每个变量在相同的尺度上被计算

data_clust_norm <- scale(data_clust)

# 使用mclust函数来执行混合聚类分析，并指定要拟合的最大聚类数量

max_klibrary(mclust)max_k <- 6

# 最大聚类数

model <- Mclust(data_clust_norm, G = 1:max_k)

# 打印模型拟合的BIC值和选择的最优聚类数

print(model$BIC)best_k <- which.min(model$BIC)print(paste("最佳聚类数：", best_k))

# 将聚类结果添加到原始数据框中

data$cluster <- model$classification[, best_k]

# 输出聚类结果的汇总信息

summary(model)

# 可视化聚类结果

library(ggplot2)

ggplot(data, aes(x = 变量1, y = 变量2, color = factor(cluster))) + geom_point(size = 2) + labs(title = "聚类分析结果")

该代码使用mclust函数执行混合聚类分析，对于聚类数量从1到6，它计算每个模型的BIC值，并标识最佳聚类数量。然后，该代码将聚类结果添加到原始数据框中，并输出汇总信息和可视化结果。

转自：“医学论文与统计分析”微信公众号

如有侵权，请联系本站删除！

上一篇： Nature发文：新冠疫情进入小规模波浪式反复流行新常态
下一篇： 中位生存时间和中位随访时间有什么区别? 怎么算？

投稿问答最小化 关闭

NHANES数据库论文解读 | 聚类分析揭示活动与抑郁衰老的关系

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

NHANES数据库论文解读 | 聚类分析揭示活动与抑郁衰老的关系

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭