第一周工作

孟德尔随机化分析“是否吃早餐”和心血管疾病的关联性

找到与“是否吃早餐”强相关的SNP（单核苷酸多态性）相关系数>0.8（关联性假设）
排除与混杂因素之有相关性的SNP（独立性假设）
排除与心血管疾病直接相关的SNP（排他性假设）

具体步骤：

读取GWAS数据
选取工具变量，通常设置P<5*10-8，必要时进行clumping
读取结局变量的GWAS数据，提取上述工具变量的SNP
数据预处理，统计暴露因素和结局的GWAS数据格式一致
MR 分析 SNP 与结局的关系
分析结果可视化

第二三周工作

安装R语言，配置开发环境
读论文：“Causal associations of short and long sleep durations with 12 cardiovascular diseases: linear and nonlinear Mendelian randomization analyses in UK Biobank”
尝试查找与早餐相关的GWAS数据(未果),尝试查找与早餐相关的GEO数据(未果)， ischaemic stroke（ukb-d-I9_STR_EXH），haemorrhagic stroke，transient ischaemic attack（ukb-b-15749），pulmonary embolism（ukb-b-18366），atrial fibrillation（ukb-b-964），chronic ischaemic heart disease（ukb-b-3983），coronary artery disease（EBI-A-GCST005195），myocardial infarction（ukb-b-453），cardiomyopathy（ukb-a-114）,peripheral artery disease(ukb-d-I9_PAD)

论文记录

人员个体进行了质量控制（QC）：排除过多/过少杂合性、性别不匹配、性染色体异常、过高的亲缘关系、非欧洲血统和缺失QC指标的个体
GWAS数据选取和连续睡眠时间相关的78个SNPs（P<5*10-8）的GRS作为工具变量、短睡眠和长睡眠相关的SNPs作为工具变量进行补充分析，
计算The unweighted genetic risk score (GRS):将每个参与者拥有的睡眠时长增加等位基因数量相加来计算的。所谓睡眠时长增加等位基因，是指已知与增加睡眠时长相关的基因变异。用于衡量个体在睡眠时长方面的遗传风险
研究GRS与12CVDs之间的关系：根据GRS四分位数分成三组，使用线性回归和逻辑回归，计算GRS特征与12CVD之间的关系，测试高的GRS是否与低心血管疾病的患病率有关
线性MR分析，两阶段最小二乘法评估基因预测睡眠时间和CVDs之间的关系，进一步证明有效性，重复多次进行混杂因素和GRS关系的MR分析测试，使用其他的MR分析方法（inverse-variance weighted, weighted median and MR-Egger），并用 RadialMR analyses来识别异常值，做敏感性分析，使用linkage disequilibrium clumping保证SNP之间的独立性
非线性MR分析，确定基因预测睡眠时间和CVDs之间的关系形状，分段线性方法，根据GRS与连续睡眠时长回归后的残差变异将样本分为三个层次，在每个层次中计算分段线性MR估计值，称之为该层次中的局部平均因果效应 (LACE)，再使用二次测试和Cochran's Q 测试对非线性进行评估
补充分析，长短睡眠时间对CVDs的影响

心血管疾病包括12种分类CVDs：

cerebrovascular diseases（脑血管）：

ischaemic stroke(缺血性中风); haemorrhagic stroke(出血性卒中); transient ischaemic attack(短暂性缺血发作)

thromboembolic diseases（血栓）：

pulmonary embolism（肺栓塞）; deep vein thrombosis（深静脉血栓）

Other：

arterial hypertension（动脉高血压）； atrial fibrillation（房颤）； chronic ischaemic heart disease（慢性缺血性心脏病）； coronary artery disease（冠状动脉疾病）； myocardial infarction（心肌梗死）； cardiomyopathy（心肌病）；peripheral artery disease（周围动脉疾病） valvular heart disease(心脏瓣膜病)

第四周工作

查询UK biobank数据库，分别使用breakfast、Meal timing、Eating time、Feeding time、Food intake timing、Circadian rhythm and food、Time-restricted feeding、Diurnal eating pattern作为关键词进行搜索，均没有结果。与早餐相关的只能获取到早餐是否摄取谷物的数据
查询全球疾病负担数据库（GBD）,不健康饮食（高钠、低全谷、低水果、低蔬菜等等）位于心血管疾病风险因素第二位
查询GEO数据库
查找其他论文中关于早餐的定义以及有没有数据集

第五周工作

查询GBD数据库中不健康饮食包括：
Diet high in sodium
Diet low in whole grains
Diet low in legumes
Diet low in fruits
Diet high in red meat
Diet high in trans fatty acids
Diet low in fiber
Diet low in nuts and seeds
Diet low in vegetables
Diet low in polyunsaturated fatty acids
Diet low in seafood omega-3 fatty acids
Diet high in processed meat
Diet high in sugar-sweetened beverages
编写代码获取GWAS数据，分别提取各种营养摄取量的SNP和各种心血管疾病的SNP数据，并用两样本孟德尔分析它们之间是否存在阳性关系
检索pubmed查找是否存在相关论
- Impact of urinary sodium on cardiovascular disease and risk factors: A 2 sample Mendelian randomization study DOI: 10.1016/j.clnu.2020.09.018
- GWAS for urinary sodium and potassium excretion highlights pathways shared with cardiovascular traits DOI: 10.1038/s41467-019-11451-y
- Genetically, Dietary Sodium Intake Is Causally Associated with Salt-Sensitive Hypertension Risk in a Community-Based Cohort Study: a Mendelian Randomization Approach. doi: 10.1007/s11906-020-01050-4.
pubmed中检索到一篇文章，Genome-wide association study of breakfast skipping links clock regulation with food timing DOI ：10.1093/ajcn/nqz076 该文章提到由于通常不会对早餐时间和是否吃早餐进行常规测量，所以该文章使用早餐是否吃谷物来代替，用这方面的GWAS数据和心血管疾病之间做了两样本孟德尔分析
看The support of genetic evidence for cardiovascular risk induced by antineoplastic drugs论文，学习它的数据获取方法与处理方法：GWAS数据库（Gene Atlas、 NHGRI-EBI GWAS Catalog、GRASP、GWAS Atlas、PhenoScanner）下载整理

第六周工作

从Gene Atlas、 NHGRI-EBI GWAS Catalog、GRASP、GWAS Atlas、PhenoScanner数据库下载心血管疾病的GWAS数据
读抗肿瘤药物诱发心血管风险的遗传证据支持论文
- 心血管疾病相关数据：
  - 数据：心血管疾病使用30种GWAS数据，分成13类，（难点：数据格式不同，需要代码将不同格式的数据合并）
  - 处理：（难点：不清楚该操作的具体步骤，需要看后继论文操作或找相关论文）
  - fine-mapping -> Credible risk variants (CRVs)
  - VEP annotation （难点：需要学习VEP工具的使用） -> Protein-truncating variants/Missense variants/Regulatory variants -> Direction of risk allele effect for CVD genes
- 药物靶点数据：该部分需要对比药物靶点基因数据和营养摄入基因数据的不同，是否可以使用该论文的思路进行下一步的处理
查看创新性，查找相关论文
- Dietary fruits and vegetables and cardiovascular diseases risk.（水果、蔬菜和心血管的关系，应该没有运用孟德尔）
- Causal relationship between tea intake and cardiovascular diseases: A Mendelian randomization study. 影响因子5（2区Q1）（茶叶的摄取,思路简单）
- Causal associations between dietary habits and CVD: a Mendelian randomisation study. 影响因子3.6（3区Q3）(家禽摄入量<>高血压、食用奶酪<>心肌梗死、干果摄入<>高血压相关性很大，基本是上周的工作)
- Habitual coffee intake and plasma lipid profile: Evidence from UK Biobank 影响因子: 6.3 (1区Q1)（咖啡和血浆血脂谱的相关性再和心血管相关联）
- Milk intake and incident stroke and CHD in populations of European descent: a Mendelian randomisation study （该论文证明牛奶摄入和中风、冠心病无关）
- Genetic variation in FADS1 has little effect on the association between dietary PUFA intake and cardiovascular disease.（不饱和脂肪酸和CVD无关）

第七周工作

肠道菌群的分析思路：
- 关联性分析：（p<5*e-8）
- 边锁不平衡：（设置clump_kb=10000, clump_r2 =0.001）
- 孟德尔随机化分析，筛选疾病相关的暴露
- 结果可视化：散点图、森林图、留一法敏感性分析、漏斗图
- 异质性检测
- 敏感性分析
- 多效性分析
暴露基因要与工具变量相关，结局基因要与工具变量不相关
数据选择：同地区的不同样本集的数据（利用遗传变异与暴露之间的联系来推断遗传变异与结果之间的因果关系，因此暴露数据和结果数据必须来自不同的样本，以避免遗传相关性干扰因果推断。如果使用相同的样本用于暴露和结果数据，那么暴露和结果之间的相关性可能是由遗传相关性导致的，而不是真正的因果关系。）
心血管疾病的相关数据来自英国生物样本库：
- Acute myocardial infarction
摄入量的数据来自

第八周工作

药物靶点的概念
- 经典的孟德尔随机化方法通常只能回答暴露与结局之间的因果相关性，以整个基因组的SNP
- 限定在某个基因区域的孟德尔随机化分析方法被称为cis-MR
- 蛋白质数量性状位点(pQTL，针对蛋白) 和表达数量性状位点(eQTL，针对mRNA)
- cis-QTL，较近的eQTL，100k以内和trans-QTL，较远的eQTL
- 药靶的工具变量：在特定基因范围内找到SNPs，p<5e-8, r2=0.3(<0.5), kb=+-100k(250k),MAF>0.01
药物靶点的分析思路
- 确定药物靶点及下游生物标志物
- 识别靶点对应的基因
- 确定cis区域，根据cis-eqtl数据筛选出独立的SNP
- cis-eqtl与biomarker做wald radio MR和coloc分析
- 最终确定工具变量
- 与结局数据做MR分析
- 敏感性分析
- 验证分析
学习一篇失眠和胃溃疡孟德尔随机分析思路Effects of Insomnia on Peptic Ulcer Disease Using Mendelian Randomization

本周工作

2017_1_11.5_Deep Learning-Based Multi-Omics Integration Robustly Predicts Survival in Liver Cancer
- 利用DL-based model将RNA-Seq、miRNA-Seq、TCGA、DNA甲基化、临床数据进行encoder操作，对肝癌的生存亚型进行预测（是否可以将这个思想应用到心血管疾病方向，预测生存亚型是否有意义），对亚型进行功能分析，得到三个基因表达特征、Wnt的信号通路和低生存率相关
- 它分别在五个数据库上进行了测试
初步的想法：
- 参考上篇论文，利用基因数据进行心血疾病病人的生存亚型预测
- 结合基因数据、饮食习惯、心血管疾病的临床信息建立模型，利用该模型制定个性化的饮食计划，从而改善心血管疾病的状况

本周工作 3.29~4.4

下载肝癌相关TCGA数据（RNA-Seq、miRNA-Seq、DNA methylation data、clinical information）
分子亚型很多，但基于生存敏感因素和多组学数据（基因组数据、转录组数据、蛋白质组数据、代谢组数据）的分子水平上的疾病亚型分类较少研究

本周工作 8.26

蛋白与冠心病相关性的分析思路：
- 关联性分析：（p<5*e-8）
- 边锁不平衡：（设置clump_kb=10000, clump_r2 =0.001）
- 孟德尔随机化分析，筛选疾病相关的暴露
- 结果可视化：散点图（看斜率，斜率越大结果最好）、森林图（意义不大）、留一法敏感性分析、漏斗图（对称）
- 异质性检测(不存在 p>0.05)有异质性不可怕，只是可信度相对低点
- 多效性分析(是否违背三条假设，不违背p>0.05)
- ivw p<0.05 MR egger
暴露基因要与工具变量相关，结局基因要与工具变量不相关
数据选择：同地区的不同样本集的数据（利用遗传变异与暴露之间的联系来推断遗传变异与结果之间的因果关系，因此暴露数据和结果数据必须来自不同的样本，以避免遗传相关性干扰因果推断。如果使用相同的样本用于暴露和结果数据，那么暴露和结果之间的相关性可能是由遗传相关性导致的，而不是真正的因果关系。）
心血管疾病的相关数据来自芬兰
- I9CHD Major coronary heart disease event IX Diseases of the circulatory system (I9) 51098 cases 402635 controls
- I9CORATHER Coronary atherosclerosis IX Diseases of the circulatory system (I9) 56685 cases 378019 controls
蛋白相关数据来自冰岛的35,559 Icelanders，地址：www.decode.com/summarydata/，相关论文"Large-scale integration of the plasma proteome with genetics and disease"

MR相关工作.md 18 KB

History Raw

第一周工作

第二三周工作

第四周工作

第五周工作

第六周工作

第七周工作

第八周工作

最新工作

最新工作

本周工作

本周工作 3.29~4.4

本周工作 8.26

MR相关工作.md 18 KB History Raw

第一周工作

第二三周工作

第四周工作

第五周工作

第六周工作

第七周工作

第八周工作

最新工作

最新工作

本周工作

本周工作 3.29~4.4

本周工作 8.26

MR相关工作.md 18 KB

History Raw