生物信息学，一文读懂生物信息学生物信息分析全景介绍-观点-玄机派

生物信息学，一文读懂生物信息学生物信息分析全景介绍

抖帅宫 831 2023-11-06

生物信息学，一文读懂生物信息学生物信息分析全景介绍-第1张-观点-玄机派

来源头条作者:合木千行技术团队概述

基因测序可以分为“湿”实验和“干”实验两个阶段。其中“湿”实验指的是将待测样本利用实验室方法进行核酸提取、文库构建（包括片段化、富集、扩增等一系列过程）到完成上机测序的实验过程，而“干”实验则是从得到下机数据开始，到完成生信分析和报告解读的整个过程。可以认为“湿“实验是对样本的处理，”干“实验是对数据的处理。上机测序是介于“湿”和“干”实验中间的重要环节，其中“机”指的是测序仪，它通过测序技术将荧光信号转化成特定的ACGT四种碱基序列，完成从样本中读取遗传信息的任务。自20世纪70年代以来，测序技术不断发展升级，经历了多次技术革命，从第一代发展到了第三代测序技术，其通量和准确性不断提高，成本也在不断降低。

生物信息分析是一个利用计算机科学和生物信息学工具、方法和技术，来对生命科学数据进行分析和研究的领域。广义来讲，根据其分析的侧重和所处的阶段可以被划分为一级、二级、三级分析。其中，一级分析指的是将荧光信号转化成碱基序列，完成碱基识别的过程；二级分析则是针对测序下机的碱基序列数据进行生物信息学计算的过程；最后，三级分析涉及到对二级生物信息分析的结果进行进一步解读的过程。

一级分析

一级分析是利用测序技术将荧光信号转换成四种碱基信号的过程，主要是basecall软件通过碱基判读技术和算法，从原始图像中识别出碱基类型，将结果写入cal文件，最终生成测序报告和FastQ数据。目前MPS技术的主流测序厂商illumina和MGI华大智造的测序系统，根据测序所使用的荧光种类数量的不同，可划分为Four-Color、Two-Color和One-Color技术，三者的测序成本、准确性和错误偏向都有其特点。以Two-Color为例，指用2种类型的荧光代表4种碱基，为了避免光谱crosstalk，选用的是红、绿两种荧光，不发光代表G碱基，红光代表A碱基，绿光代表C碱基，同时发出红绿光的代表T碱基。目前常见的basecall算法，利用对光学系统捕获的光信号或直接从拍照的图像出发，有利用先验数值校正后基于半监督的分类进行碱基判读，也有基于机器学习方法进行碱基判读等。

二级分析

什么是二级分析

生物信息学涉及领域广泛、研究的侧重点也不同，是一门交叉学科。通俗地讲，生物信息分析指的是利用计算机对生物大数据进行操作，包括但不仅限于读取、整理、分析和传播等。所谓二级分析，是在一级分析下机数据的基础上，对数据进行更深入的处理，以获得有意义的结果，包括进行序列质量控制（去除低质量序列和去除接头序列等）、序列比对、基因表达分析和变异检测等。二级分析的数据有三种常见类型：DNA数据、RNA数据和蛋白数据。

1、DNA数据

DNA数据的获得一般是通过将DNA片段化后进行扩增测序得到，包括：全基因组测序（WGS）、全外显子测序（WES）和靶向PCR扩增测序等。DNA分析通常关注motif、基因、点突变、InDel、拷贝数和结构变异等。

2、RNA数据

RNA 数据的获得需要先将RNA逆转录为cDNA后再对cDNA进行扩增测序，测序内容是RNA上的遗传信息。依据不同的种类RNA、建库方式等包括：小RNA测序（smallRNA）、转录组测序（mRNA）、长链非编码RNA测序（lncRNA）、单细胞RNA测序（scRNA）等。RNA 分析通常关注基因表达、共表达、差异基因、互作方式、时序分析等。

3、蛋白数据

随着质谱技术的进步，对样品中的多个蛋白质进行高通量鉴定已经成为可能。蛋白质组学是一门研究蛋白质组的学科，不仅涉及蛋白的定性和定量，还包括定位、修饰、相互作用、结构、活性和功能分析。与基因组不同，蛋白质组的组成会随着时间和整个生物体的变化而不断发生变化。

如何进行二级分析根据不同的分析目的，分析方法也不尽相同，需要具体情况具体分析。以DNA数据进行WGS分析为例，主干分析流程包含数据质控、比对、突变检测(snp、InDel)、拷贝数变异、结构变异等。而主干流程，每一步步骤用到的方法有许多选择，如数据质控依据测序数据来源特征、序列分布均匀性、插入片段长度分布、数据碱基分布特征、不同的碱基质控方法等因素可选用不同的质控软件、程序对比进行。二级分析往往还需要整合、注释公开的标准数据库内容，因此二级分析也需要熟悉使用各类常见数据库。以下是一些常见的大名鼎鼎数据库：

Refseq：NCBI Reference Sequence Database，意图是为所有常见生物提供非冗余，人工选择过的参考序列。

GenBank: Genetic sequence database from NCBI ，常用于下载参考基因序列或者上传新测序的数据。GenBank上序列比较全面，与RefSeq 的主要区别在于RefSeq经过了去冗余与检验，可信度比GenBank高。

UniProt: Protein sequence database，常用于获取蛋白序列，蛋白质组学分析需要用到。

GEO Database: Gene expression profiles from NCBI，含有已分析数据集的基因表达结果，常用于数据挖掘。随着数据库的流行，逐渐扩展业务到许多其它的高通量数据，比如：甲基化，染色质结构，基因组-蛋白交互作用等。

Expression Atlas: 提供了不同物种、不同生理条件的基因表达数据。

三级分析

什么是三级分析所谓的三级分析，通常也叫“遗传分析”，是指结合患者临床信息，对二级分析后的检测结果进行临床意义的解读，并出具检测报告。在临床诊疗领域，目前应用比较多的主要还是DNA数据，所以接下来我们重点介绍DNA数据结果的解读分析。

如何进行三级分析1、数据筛选

经过二级分析后，我们会得到样本的变异检测结果。以遗传病领域目前比较流行的全外显子组测序 (WES)为例，平均每个样本会产生几千甚至上万个变异，这些变异首先需要按照一定的规则进行过滤筛选（比如去掉高人群频率的变异；同义突变因为并不改变蛋白质序列，普遍认为不会产生突变效应，一般也不予解读），剩下的罕见变异再进行进一步的分析解读。肿瘤精准治疗基因检测项目的变异数量一般要少的多，但也需要进行过滤。

2、制定解读规则

检测结果经过上述初步的筛选后，需要按照规则对剩下的变异进行详细的解读，虽然各家检测机构在解读细则上会略有不同，但都需要遵循一些普遍的通用规则。针对遗传病领域检出的胚系突变，应按照ACMG的胚系突变解读流程进行注释及解读。基于当前证据将胚系变异的致病性分为五个等级：致病、可能致病、意义不明确、可能良性和良性。针对肿瘤精准治疗领域常见的体细胞变异，目前比较受认可的是2017年美国分子病理学协会（AMP）/美国临床肿瘤学会（ASCO）/美国病理学家协会（CAP）联合制定的体细胞变异解读指南，将体细胞变异分为Ⅰ类具有重要临床意义的变异、Ⅱ类具有潜在临床意义的变异、Ⅲ类临床意义不明的变异和Ⅳ类无害或可能无害的变异。

3、结合解读知识库对结果进行临床意义的解读

人类大约有2万多个基因，其中目前已知的跟遗传病和肿瘤相关的基因就有数千种，这些基因分别是什么功能，与什么疾病相关。每一个基因的位点多则成千上万个，变异可能发生在任何一个位点，某个位点发生变异后功能是受到激活还是抑制，与什么药物相关，是导致敏感还是耐药等等。上述这种临床意义的解读需要一个庞大的解读知识库的支持。临床解读知识库的构建需要整合当前公共数据库、指南共识及已发表文献的海量信息。

4、解读结果如何展示（报告模板）

变异结果有了，也知道它的临床意义了，怎么展示给受检者和医生，需要一份对普通大众阅读友好的报告对结果进行展示，帮助受检者简单、快速的理解检测结果。同时，也需要明确说明检测范围和以及检测存在的局限性，并告知该检测在临床中发挥的角色（不可直接用于诊疗，而是辅助临床医生进行诊疗决策）。基于全面的解读知识库和严格的循证分级系统，遗传分析人员对检测出的变异进行筛选和评估，确定其可能的致病性和临床意义，并据此出具通俗易懂的检测报告。临床医生再结合受检者的家庭史、临床表现、生化指标、影像学等综合信息，进行最终的解读和诊疗建议。

#生信入门##生物信息##生物信息学##基因检测#

关于我们深圳市合木千行科技有限公司成立于2020年11月，专注于利用IT + AT + BT技术对实验室自动化、数字化场景需求进行深入挖掘，赋能生命科学及医疗行业，致力于打造面向未来的实验室自动化和智能化解决方案及产品。公司业务覆盖生物医疗与高端制造交叉的科研、制造和诊断三大场景，已经发展出【生物工艺制造】和【诊断及实验智能】两条产品线，聚焦于诊断机构及Biotech企业两大主流客户群体。

在生物信息分析领域，合木千行将数字云平台和边缘云技术相结合，利用ABC（AI+Bio Bigdata+Cloud）技术协助进行数据分析、报告解读等工作，为客户提供及时、准确的检测结果。我们拥有专业的IT和生物信息分析人员、报告解读遗传咨询师和人工智能专家，后续将定期围绕产品、技术、科普等主题进行讨论与分享，欢迎与我们进行沟通和交流。