第一周工作
孟德尔随机化分析“是否吃早餐”和心血管疾病的关联性
- 找到与“是否吃早餐”强相关的SNP(单核苷酸多态性)相关系数>0.8(关联性假设)
- 排除与混杂因素之有相关性的SNP(独立性假设)
- 排除与心血管疾病直接相关的SNP(排他性假设)
具体步骤:
- 读取GWAS数据
- 选取工具变量,通常设置P<5*10-8,必要时进行clumping
- 读取结局变量的GWAS数据,提取上述工具变量的SNP
- 数据预处理,统计暴露因素和结局的GWAS数据格式一致
- MR 分析 SNP 与结局的关系
- 分析结果可视化
第二三周工作
- 安装R语言,配置开发环境
- 读论文:“Causal associations of short and long sleep durations with 12 cardiovascular diseases: linear and nonlinear Mendelian randomization analyses in UK Biobank”
- 尝试查找与早餐相关的GWAS数据(未果),尝试查找与早餐相关的GEO数据(未果),
ischaemic stroke(ukb-d-I9_STR_EXH),haemorrhagic stroke,transient ischaemic attack(ukb-b-15749),pulmonary embolism(ukb-b-18366),atrial fibrillation(ukb-b-964),chronic ischaemic heart disease(ukb-b-3983),coronary artery disease(EBI-A-GCST005195),myocardial infarction(ukb-b-453),cardiomyopathy(ukb-a-114),peripheral artery disease(ukb-d-I9_PAD)
论文记录
- 人员个体进行了质量控制(QC):排除过多/过少杂合性、性别不匹配、性染色体异常、过高的亲缘关系、非欧洲血统和缺失QC指标的个体
- GWAS数据选取和连续睡眠时间相关的78个SNPs(P<5*10-8)的GRS作为工具变量、短睡眠和长睡眠相关的SNPs作为工具变量进行补充分析,
- 计算The unweighted genetic risk score (GRS):将每个参与者拥有的睡眠时长增加等位基因数量相加来计算的。所谓睡眠时长增加等位基因,是指已知与增加睡眠时长相关的基因变异。用于衡量个体在睡眠时长方面的遗传风险
- 研究GRS与12CVDs之间的关系:根据GRS四分位数分成三组,使用线性回归和逻辑回归,计算GRS特征与12CVD之间的关系,测试高的GRS是否与低心血管疾病的患病率有关
- 线性MR分析,两阶段最小二乘法评估基因预测睡眠时间和CVDs之间的关系,进一步证明有效性,重复多次进行混杂因素和GRS关系的MR分析测试,使用其他的MR分析方法(inverse-variance weighted, weighted median and MR-Egger),并用 RadialMR analyses来识别异常值,做敏感性分析,使用linkage disequilibrium clumping保证SNP之间的独立性
- 非线性MR分析,确定基因预测睡眠时间和CVDs之间的关系形状,分段线性方法, 根据GRS与连续睡眠时长回归后的残差变异将样本分为三个层次,在每个层次中计算分段线性MR估计值,称之为该层次中的局部平均因果效应 (LACE),再使用二次测试和Cochran's Q 测试对非线性进行评估
- 补充分析,长短睡眠时间对CVDs的影响
心血管疾病包括12种分类CVDs:
cerebrovascular diseases(脑血管):
ischaemic stroke(缺血性中风); haemorrhagic stroke(出血性卒中); transient ischaemic attack(短暂性缺血发作)
thromboembolic diseases(血栓):
pulmonary embolism(肺栓塞); deep vein thrombosis(深静脉血栓)
Other:
arterial hypertension(动脉高血压); atrial fibrillation(房颤); chronic ischaemic heart disease(慢性缺血性心脏病);
coronary artery disease(冠状动脉疾病); myocardial infarction(心肌梗死); cardiomyopathy(心肌病);peripheral artery disease(周围动脉疾病)
valvular heart disease(心脏瓣膜病)
第四周工作
- 查询UK biobank数据库,分别使用breakfast、Meal timing、Eating time、Feeding time、Food intake timing、Circadian rhythm and food、Time-restricted feeding、Diurnal eating pattern作为关键词进行搜索,均没有结果。与早餐相关的只能获取到早餐是否摄取谷物的数据
- 查询全球疾病负担数据库(GBD),不健康饮食(高钠、低全谷、低水果、低蔬菜等等)位于心血管疾病风险因素第二位
- 查询GEO数据库
- 查找其他论文中关于早餐的定义以及有没有数据集
第五周工作
- 查询GBD数据库中不健康饮食包括:
- Diet high in sodium
- Diet low in whole grains
- Diet low in legumes
- Diet low in fruits
- Diet high in red meat
- Diet high in trans fatty acids
- Diet low in fiber
- Diet low in nuts and seeds
- Diet low in vegetables
- Diet low in polyunsaturated fatty acids
- Diet low in seafood omega-3 fatty acids
- Diet high in processed meat
- Diet high in sugar-sweetened beverages
- 编写代码获取GWAS数据,分别提取各种营养摄取量的SNP和各种心血管疾病的SNP数据,并用两样本孟德尔分析它们之间是否存在阳性关系
- 检索pubmed查找是否存在相关论
- Impact of urinary sodium on cardiovascular disease and risk factors: A 2 sample Mendelian randomization study DOI: 10.1016/j.clnu.2020.09.018
- GWAS for urinary sodium and potassium excretion highlights pathways shared with cardiovascular traits DOI: 10.1038/s41467-019-11451-y
- Genetically, Dietary Sodium Intake Is Causally Associated with Salt-Sensitive Hypertension Risk in a Community-Based Cohort Study: a Mendelian Randomization Approach. doi: 10.1007/s11906-020-01050-4.
- pubmed中检索到一篇文章,Genome-wide association study of breakfast skipping links clock regulation with food timing DOI :10.1093/ajcn/nqz076 该文章提到由于通常不会对早餐时间和是否吃早餐进行常规测量,所以该文章使用早餐是否吃谷物来代替,用这方面的GWAS数据和心血管疾病之间做了两样本孟德尔分析
- 看The support of genetic evidence for cardiovascular risk induced by antineoplastic drugs论文,学习它的数据获取方法与处理方法:GWAS数据库(Gene Atlas、 NHGRI-EBI GWAS Catalog、GRASP、GWAS Atlas、PhenoScanner)下载整理
第六周工作
- 从Gene Atlas、 NHGRI-EBI GWAS Catalog、GRASP、GWAS Atlas、PhenoScanner数据库下载心血管疾病的GWAS数据
- 读抗肿瘤药物诱发心血管风险的遗传证据支持论文
- 心血管疾病相关数据:
- 数据:心血管疾病使用30种GWAS数据,分成13类,(难点:数据格式不同,需要代码将不同格式的数据合并)
- 处理:(难点:不清楚该操作的具体步骤,需要看后继论文操作或找相关论文)
- fine-mapping -> Credible risk variants (CRVs)
- VEP annotation (难点:需要学习VEP工具的使用) -> Protein-truncating variants/Missense variants/Regulatory variants -> Direction of risk allele effect for CVD genes
- 药物靶点数据:该部分需要对比药物靶点基因数据和营养摄入基因数据的不同,是否可以使用该论文的思路进行下一步的处理
- 查看创新性,查找相关论文
- Dietary fruits and vegetables and cardiovascular diseases risk.(水果、蔬菜和心血管的关系,应该没有运用孟德尔)
- Causal relationship between tea intake and cardiovascular diseases: A Mendelian randomization study. 影响因子5(2区Q1)(茶叶的摄取,思路简单)
- Causal associations between dietary habits and CVD: a Mendelian randomisation study. 影响因子3.6(3区Q3)(家禽摄入量<>高血压、食用奶酪<>心肌梗死、干果摄入<>高血压 相关性很大,基本是上周的工作)
- Habitual coffee intake and plasma lipid profile: Evidence from UK Biobank 影响因子: 6.3 (1区Q1)(咖啡和血浆血脂谱的相关性再和心血管相关联)
- Milk intake and incident stroke and CHD in populations of European descent: a Mendelian randomisation study (该论文证明牛奶摄入和中风、冠心病无关)
- Genetic variation in FADS1 has little effect on the association between dietary PUFA intake and cardiovascular disease.(不饱和脂肪酸和CVD无关)
第七周工作
- 肠道菌群的分析思路:
- 关联性分析:(p<5*e-8)
- 边锁不平衡:(设置clump_kb=10000, clump_r2 =0.001)
- 孟德尔随机化分析,筛选疾病相关的暴露
- 结果可视化:散点图、森林图、留一法敏感性分析、漏斗图
- 异质性检测
- 敏感性分析
- 多效性分析
- 暴露基因要与工具变量相关,结局基因要与工具变量不相关
- 数据选择:同地区的不同样本集的数据(利用遗传变异与暴露之间的联系来推断遗传变异与结果之间的因果关系,因此暴露数据和结果数据必须来自不同的样本,以避免遗传相关性干扰因果推断。如果使用相同的样本用于暴露和结果数据,那么暴露和结果之间的相关性可能是由遗传相关性导致的,而不是真正的因果关系。)
- 心血管疾病的相关数据来自英国生物样本库:
- Acute myocardial infarction
- 摄入量的数据来自
第八周工作
- 药物靶点的概念
- 经典的孟德尔随机化方法通常只能回答暴露与结局之间的因果相关性,以整个基因组的SNP
- 限定在某个基因区域的孟德尔随机化分析方法被称为cis-MR
- 蛋白质数量性状位点(pQTL,针对蛋白) 和 表达数量性状位点(eQTL,针对mRNA)
- cis-QTL,较近的eQTL,100k以内和trans-QTL,较远的eQTL
- 药靶的工具变量:在特定基因范围内找到SNPs,p<5e-8, r2=0.3(<0.5), kb=+-100k(250k),MAF>0.01
- 药物靶点的分析思路
- 确定药物靶点及下游生物标志物
- 识别靶点对应的基因
- 确定cis区域,根据cis-eqtl数据筛选出独立的SNP
- cis-eqtl与biomarker做wald radio MR和coloc分析
- 最终确定工具变量
- 与结局数据做MR分析
- 敏感性分析
- 验证分析
- 学习一篇失眠和胃溃疡孟德尔随机分析思路Effects of Insomnia on Peptic Ulcer Disease Using Mendelian Randomization
最新工作
- 读论文 Effects of dietary patterns on the all‐cause mortality and cardiovascular disease mortality in patients with hypertension: A cohort study based on the NHANES database
- 饮食模式:Healthy Eating Index (HEI)‐2015, Alternate Healthy Eating Index (AHEI)‐2010, Dietary Approaches to Stop Hypertension (DASH), and Mediterranean (MED)
- 数据处理:27618名 1) 过滤<20岁的;2) 过滤掉<500千卡和>8000千卡;3) 没有饮食信息的 21757名
- DASH饮食模式评估:元素,蛋白质(protein)、纤维(fiber)、镁(Mg)、钙(Ca)、钾(K)、总脂肪(total fat)、饱和脂肪(saturated fat)、胆固醇(cholesterol)、钠(Na);方法,1. 当满足每个组成部分的目标时,给予1分;2.当达到DASH饮食模式的中间目标时,给予0.5分;3.当营养成分与DASH控制饮食相比既不满足目标也不满足中间目标时,得分为零。
- AHEI‐2010饮食模式评估:元素(蔬菜、水果、全谷、坚果/豆类、long‐chain ω‐3脂肪酸、多不饱和脂肪酸、酒、含糖饮料、红肉/加工肉、反式脂肪酸、钠),每项分数0~10,总分0~110
- HEI‐2015饮食模式评估:元素(水果、蔬菜(绿叶蔬菜/豆类)、全谷、乳制品、蛋白质食品(海鲜、植物蛋白质)、脂肪酸、精制谷物、钠、饱和脂肪、糖),分数0~100
- MED饮食模式评估:元素(水果、蔬菜(除土豆)、全谷、豆类、坚果、鱼、红肉/加工肉、单不饱和脂肪与饱和脂肪的比例、酒),除红肉/加工肉、酒以外,其他多于中位数得1分,酒(10–25 g/day for men and 5–15 g/day for women)或红肉/加工肉少于中位数得1分,其他情况得0分,最高18分.
- 协变量:年龄、性别、民族、教育程度、婚姻状况、贫困收入比(PIR)、吸烟状况、饮酒状况、身高、体重、体重指数(体重指数)、腰围、身体活动、体力活动、总能量摄入、估计肾小球滤过率(eGFR)、血小板、血红蛋白(HB)、肌酐(Cr)、c反应蛋白(CRP)、CVD、糖尿病(DM)、血脂异常、癌症、哮喘、贫血治疗、痛风、慢性阻塞性肺疾病(COPD)、透析、甲状腺功能减退、人类免疫缺陷病毒(HIV)感染和NHANES的药物滥用。
An Epigenetic Diet model epigenome 表观基因组学
读论文"2023_2_5.6_Deep Learning for Genomics From Early Neural Nets to Modern Large Language Models":1、基因组学中,对新冠、肺癌的预测、蛋白质功能预测、蛋白亚细胞位置预测、植物抗性蛋白检测、与蛋白质结合的RNA序列、非编码DNA;2、CNN获取基因数据特征、RNN对标DNA序列
看这篇“A hybrid deep learning approach for COVID-19 detection based on genomic image processing techniques”论文使用的技术
使用transform模型
The Nucleotide Transformer: Building and Evaluating Robust Foundation Models for Human Genomics
DNA language models are powerful zero-shot predictors of non-coding variant effects
大模型
HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution
挑战:类不平衡、数据类型不统一、异质性和混杂相关性、特征提取BioVec
- 2019_1_8.4_Age and Sex Estimation Using Artificial Intelligence From Standard 12-Lead ECGs 模型:CNN,数据:心电图,目标:年龄、性别
- 数据:找了Medmnist(十类任务,)用来做一些验证实验,
学习视频:卷积神经网络:VGG、resNet,搭建分类模型,可以对上述数据进行分类操作
读了一篇2023年5.6影响因子的综述,Deep Learning for Genomics From Early Neural Nets to Modern Large Language Models,该篇论文是关于深度学习在基因组学中的应用,
- 目前应用到基因组学中的深度学习算法有:CNN、RNN、VAE、Hybrid、Transformer(最新算法)、Multiple
- 基因的应用:基因表达描述、基因表达预测、基因表达调控、RNA剪接、转录因子和RNA结合蛋白、预测蛋白质的亚细胞定位、蛋白质结构的系统分类和聚类、联系图预测、蛋白质结构预测、蛋白质结构质量评估
- 挑战:类不平衡、数据类型不统一、异质性和混杂相关性
找到一个Medmnist数据集,用于做图像分类任务,它包括十项任务(PathMNIST(结直肠癌)、ChestMNIST(患者正面X射线)、DermaMNIST(皮肤镜图像)、OCTMNIST(视网膜OCT)、PneumoniaMNIST(小儿胸部X光图像)、RetinaMNIST(视网膜眼底图像)、BreastMNIST(乳腺超声图像)、OrganMNIST(不同视角下的人体器官CT图)),可以用来做一些练手实验
学习视频:
- 卷积神经网络(CNN):VGG、resNet,已练手搭建模型,并在PathMNIST(结直肠癌)数据集完成训练,测试集准确率为0.883
最新工作
- 读一篇"2019_1_8.4_Age and Sex Estimation Using Artificial Intelligence From Standard 12-Lead ECGs"论文,
- 该论文使用模型:CNN,
- 数据:心电图,499727病人的训练集, 275056病人的测试集
- 预测目标:年龄、性别
- 学习视频:
- 语义分割,练手搭建Unet模型
- 找到Effects of a diet high in monounsaturated fat and a full Mediterranean diet on PBMC whole genome gene expression and plasma proteins的GEO数据
本周工作
- 2017_1_11.5_Deep Learning-Based Multi-Omics Integration Robustly Predicts Survival in Liver Cancer
- 利用DL-based model将RNA-Seq、miRNA-Seq、TCGA、DNA甲基化、临床数据进行encoder操作,对肝癌的生存亚型进行预测(是否可以将这个思想应用到心血管疾病方向,预测生存亚型是否有意义),对亚型进行功能分析,得到三个基因表达特征、Wnt的信号通路和低生存率相关
- 它分别在五个数据库上进行了测试
- 初步的想法:
- 参考上篇论文,利用基因数据进行心血疾病病人的生存亚型预测
- 结合基因数据、饮食习惯、心血管疾病的临床信息建立模型,利用该模型制定个性化的饮食计划,从而改善心血管疾病的状况
本周工作 3.29~4.4
- 下载肝癌相关TCGA数据(RNA-Seq、miRNA-Seq、DNA methylation data、clinical information)
- 分子亚型很多,但基于生存敏感因素和多组学数据(基因组数据、转录组数据、蛋白质组数据、代谢组数据)的分子水平上的疾病亚型分类较少研究
本周工作 8.26
- 蛋白与冠心病相关性的分析思路:
- 去除弱工具变量,F>=10
- 关联性分析:(p<5*e-8)
- 边锁不平衡:(设置clump_kb=10000, clump_r2 =0.001)
- 孟德尔随机化分析,筛选疾病相关的暴露
- 结果可视化:散点图、森林图、留一法敏感性分析、漏斗图
- 异质性检测
- 敏感性分析
- 多效性分析
- 暴露基因要与工具变量相关,结局基因要与工具变量不相关
- 数据选择:同地区的不同样本集的数据(利用遗传变异与暴露之间的联系来推断遗传变异与结果之间的因果关系,因此暴露数据和结果数据必须来自不同的样本,以避免遗传相关性干扰因果推断。如果使用相同的样本用于暴露和结果数据,那么暴露和结果之间的相关性可能是由遗传相关性导致的,而不是真正的因果关系。)
- 心血管疾病的相关数据来自PhenoScanner
- 蛋白相关数据来自www.decode.com/summarydata/