Gao Lab测试-2024 发表于2024年5月13日2024年6月26日 由yangdc 本测试的目的是帮助你检查在实验室进行生物信息学研究与学习所需的基础知识与基本技能,你应该在自己开始答题后24小时之内独立完成测试,超过24小时的提交将无效,最晚提交时间不晚于6月25日晚18点。 其间,你可以: 自行通过网络查找资料,独立完成; 由于本测试为题库随机抽题,答题期间请勿关闭网页,再次进入题目由于设备原因有概率会重新抽取。 多次尝试,最终分数以最后一次提交为准。 你不能: 抄袭; 剽窃。 本试题共计20道题,包含选择、填空、问答题,选择题均为不定项选择题。为了保证题目的有效性和公平性,请勿转发和分享。 姓名 Email 手机 Access Code 1. 阐明人类遗传疾病的发病机制对实施“精准医疗”至关重要。假设你是一名从事研究某人类遗传病治病机制的研究人员,通过全基因组关联分析你找到了一个显著与该疾病相关的SNP,并且进一步研究表明这个SNP位于人类基因组非蛋白编码基因区域,那么该SNP的致病机制可能是 A. 通过影响miRNA B. 通过影响转录因子结合位点 C. 通过影响lncRNA D. 通过影响enhancer 2. 以下哪些空间转录组方法可以检测单细胞边界(Cell Segmentation): A. Slide-seq B. MERFISH C. FISSEQ D. seqFISH 3. 以下脚本是使用python2编写,那么请问脚本最终的输出为?请将结果填入下面方框: 4. 以下说法正确的有: A. 长非编码RNA虽然是非编码RNA,但也能编码蛋白质或者短肽 B. lncRNA的顺式作用是指同一染色体上的lncRNA直接调控其邻近基因的表达 C. 人类基因组有三十亿碱基,超过90%的区域都能够转录并翻译 D. 以上说法全部错误 5. 存在样本:samplenames = [“1”,”2”,”3”…”100”], 各样本的权重为weights = [1,2,3,..100], 请自己设计算法,并给出代码或伪代码,对这100个样本按权重无放回抽样,随机抽取50个样本(请勿直接调用带权抽样函数)。 6. 在人类基因组,chr5:40490609-40490609(hg19)的位置上有C>T的突变, 在dbSNP build 150的版本中,该突变的ID为:%BLANK% 7. A B C D 8. 以下哪几种方法可以消除scRNA-seq表达量定量的扩增偏差(amplification bias): A. Unique molecular identifier B. Cell barcode C. In vitro transcription D. 高效PCR扩增酶 9. (可以在word中编辑完成后复制过来,亦可拍照发送到我们的邮箱) 10. 以下关于两个随机变量观测值的哪些说法是错误的: A. 如果Pearson相关性为零,代表它们相互独立 B. 如果Spearman相关性为零,代表它们相互独立 C. 如果互信息为零,代表它们相互独立 D. 如果KL散度为零,代表它们相互独立 11. 哪些命令本身(不使用管道)可以用于清空一个文件夹下所有内容? A. rsync B. rm C. ls D. pwd 12. 现有如下p值:0.001, 0.003, 0.006, 0.01, 0.02, 0.15, 0.25, 0.46, 0.68, 0.79。第1个p值使用Bonferroni correction 后的数值是: A. 0.0001 B. 0.01 C. 0.05 D. 以上均不对 13. 以下对于基因敲除/敲低技术描述错误的是: A. CRISPR比RNAi的主要优势在于脱靶率低。 B. CRISPRi的基因敲低效率在不同基因上差异较大,这主要来自于不同基因的启动子性质差异。 C. 在对持家基因的研究上,敲低比敲除更具有优势,因为这些基因的完全敲除会导致细胞死亡。 D. 用Cas9对基因片段进行删除可以达到单核苷酸精度。 14. 相较于一代(Sanger)和三代(SMRT)而言,二代测序(Illumina)的局限性有哪些? A. 价格最贵 B. 通量最低 C. 读长最短 D. 错误率最高 E. 样本制备及建库步骤最复杂 15. 下列关于scRNA-Seq的说法错误的有: A. mtx或mtx.gz格式的表达矩阵只能用Seurat包里的函数读进来变成稀疏矩阵,不能用其他包的函数读成稀疏矩阵 B. 在read比对到基因的过程中,如发现单个碱基错配,且不是测序错误导致的,则该错配一定来自于基因组变异 C. scRNA-Seq 的batch effect有可能一部分源自真实的生物学差异,而不全是源自非生物的技术偏差 16. 考虑如下的花童卖花问题: 一位花童每天早上去花店买花,买入价1元/支;白天在街上卖花,卖出价3元/支;晚上将没卖出的花扔进垃圾桶;即对于早上买的花,若卖出了则净赚2元/支,若没卖出则赔1元/支。经过长期观察,花童发现每天买花的需求支数近似服从均值为128、标准差为28的正态分布,则花童每天分别应当买入多少支花使收益期望最大? A. 100 B. 110 C. 120 D. 128 E. 130 F. 140 G. 150 H. 156 I. 184 17. 以下关于Transformer里 Attention的叙述,错误的有: A. Transformer的Attention指的是Single-Head attention 里Q和K的矩阵乘法得到的矩阵 B. Transformer的Multi-Head Attention 可以学习到输入序列中不同位置的关系 C. Transformer的每一层Single-Head attention在计算时是相互独立的 D. Transformer的attention机制没有使用到残差计算 18. 假设a 和b 是两个形状相同的PyTorch张量,以下哪些操作产⽣的结果⽀持⾃动回传梯度到 a ? A. a.half() B. a.long() C. a.exp() D. a.cuda() E. b.scatter_add_(0, torch.arange(1), a) F. b[0] = a[0] G. D.Uniform(a, b).sample() 19. 请自行在NCBI上搜索相关信息,然后判断以下哪些说法是错误的: A. Linc2GO算法的主要目的是根据竞争性内源RNA的机制推测microRNA和lincRNA的功能 B. lncRNA-MFDL是基于深度学习预测lncRNA具体行使的生物学功能的 C. 目前基于 CRISPRi 方法测定lncRNA功能的研究里,暂时还没有涉及到lncRNA在干细胞中的功能 D. 目前用在lncRNA领域的深度学习模型里,没有模型同时整合了CNN(卷积神经网络)和RNN(循环神经网络) 20. 特征选择是对于冗余特征较多的数据集的一种重要方法。下面有关描述正确的有: A. 基于Lasso的特征选择方法的原理是使用了L2范数对数据进行稀疏化 B. 封装式(Wrapper)特征选择方法会基于分类器的分类性能进行特征选择 C. 基于信息增益准则进行特征选择主要原理是判断加入该特征后信息熵变化大小 D. SVM可以用作特征选择,比如可以使用支持向量数目与训练样本数目的比值作为评价函数进行特征选择 可将你的想法/意见与建议写在下面 谢谢填写! 请确认后,按下方按钮提交答案。 Time's up