真菌分子系统学与多基因系统发育树构建
真菌分子系统学与多基因系统发育树构建
以羊肚菌属(Morchella)和硫磺菌属(Laetiporus)的现代分类学研究为实例,覆盖从隐存种概念、GCPSR物种识别框架、引物设计、遗传距离、到多基因联合建树全流程的完整知识体系。
第一部分:真菌分类学基础概念
1.1 隐存种复合体(Cryptic Species Complex)
许多传统上被认为是"一个世界广布种"的真菌,经分子系统学研究后被发现实际是一群形态几乎无法区分但遗传上显著分化的独立物种。
| 实例 | 传统认知 | 分子证据揭示 |
|---|---|---|
| 羊肚菌属 | 少数几个形态变种 | 80+ 系统发育种,大陆特有性强 |
| 硫磺菌属 | L. sulphureus 一个世界种 | 17–21 个种,具寄主和地理分化 |
| 木耳属 | A. auricula-judae 单种 | 多个隐存种,各大陆独立演化 |
关键启示:仅靠形态学已不足以区分现代真菌物种,分子系统发育证据是不可或缺的核心标准。
1.2 羊肚菌的 Mel/Mes 编号系统
2012 年,Taşkın 等人建立了羊肚菌属的系统发育种编号体系,通过多基因谱系一致性系统发育物种识别法(GCPSR)分析土耳其羊肚菌时正式提出。
| 编号前缀 | 所属支系 | 含义 | 物种数 |
|---|---|---|---|
| Mes- | Esculenta clade(黄色羊肚菌) | Morchella esculenta clade | Mes-1 至 Mes-27(27种) |
| Mel- | Elata clade(黑色羊肚菌) | Morchella elata clade | Mel-1 至 Mel-34(34种) |
| (无编号) | Rufobrunnea clade(变红支系) | 基部分支,最早分化 | 仅 3 种 |
[!note] 编号系统的意义
大多数系统发育种在发现时尚未获得正式拉丁学名,编号提供了稳定的交叉引用标识。即使后来获得正式命名(如 Mel-6 = M. sextelata),编号仍广泛使用。
1.3 硫磺菌属的分类学修订历程
| 阶段 | 时间 | 标志性进展 |
|---|---|---|
| 形态分类时代 | 1904–1990s | L. sulphureus 被视为单一世界广布种 |
| 单基因(ITS)时代 | 2000s | 发现北美、东亚存在多个 ITS 隐存支系 |
| 多基因 + 交配实验 | 2008–2014 | 多个隐存种被正式描述命名 |
| 多基因 + 生物地理 | 2017–2024 | 全属系统发育重建,非洲和亚洲新种发表 |
| 属界修正 | 2023 | L. persicinus 移出该属 → Kusaghiporia persicinus |
第二部分:物种识别与判定框架
2.1 GCPSR —— 谱系一致性物种识别法
GCPSR(Genealogical Concordance Phylogenetic Species Recognition)由 Taylor et al. (2000) 提出,是当前真菌新种判定的核心理论框架。
基本原理
物种边界应由多个独立基因系谱之间的系统发育不一致性转折点来确定。
- 同一物种内存在基因重组(有性生殖 → 基因流动)→ 不同基因树的拓扑不一致
- 两个物种之间存在生殖隔离 → 多个独立基因位点的系统发育信号将一致地将其分为独立支系
- 由一致性到不一致性的过渡,即为物种界限
操作化定义
| 标准 | 含义 | 操作指标 |
|---|---|---|
| 谱系一致性(Genealogical Concordance) | 多个独立基因树都支持同一分支 | ≥2 个基因的单基因树中该分支获显著支持 |
| 谱系非冲突(Genealogical Non-Discordance) | 无任何基因显著反对该分支 | 所有基因中均无显著冲突的拓扑 |
| 遗传分化 | 与最近缘种积累足够固定差异 | 遗传距离超过种内变异上限 |
| 可区分性 | 至少在一个维度上可区分 | 形态/生态/寄主/地理任一 |
2.2 新种判定的多相分类学框架
现代真菌新种描述采用多相分类学(Polyphasic Taxonomy)方法,将三类证据结合:
|
2.3 新种判定的四道关卡
第一关:谱系独立性与一致性
| 标准 | 操作化指标 |
|---|---|
| 谱系一致性 | ≥2 个基因的单基因树中该分支获显著支持(MP/ML bootstrap ≥75%,BI PP ≥0.95) |
| 谱系非冲突 | 所有基因位点均无显著冲突的拓扑结构 |
第二关:遗传分化程度
与最近缘已知种的遗传距离需达到种间水平(见第四部分遗传距离详解)。
第三关:形态/生态/地理的区分性
对于硫磺菌属,寄主类型(针叶树 vs 阔叶树)是区分近缘种的关键特征。对于羊肚菌属,地理分布和出菇季节是重要辅助证据。
第四关:物种注册与发表
- 在 MycoBank 或 Index Fungorum 注册
- 指定模式标本(Holotype)并保藏于公认标本馆
- 提供完整的拉丁描述或英文描述
- 在同行评审期刊发表
第三部分:分子标记与引物设计
3.1 为什么需要多基因?
| 维度 | 单基因(仅 ITS) | 多基因联合 |
|---|---|---|
| 分辨率 | 有限,近缘种可能无法区分 | 多个独立位点叠加,分辨率高 |
| 物种树准确性 | 基因树 ≠ 物种树 | 多基因一致 → GCPSR确认 |
| 冲突检测 | 无法检验 | 可对比各基因树 |
| 信息来源 | 仅核糖体 DNA | 核DNA + 线粒体DNA + 蛋白编码基因 |
| 进化速率 | 单一速率 | 覆盖快(ITS)、中(EF-1α)、慢(LSU/SSU)三种速率 |
在硫磺菌论文中,6 个基因合并后 3,963 bp,含 525 个简约信息位点;ITS 单独仅约 80 个信息位点,信息量差距约 6.5 倍。
3.2 硫磺菌研究中六基因详细信息
基因位点总览
| 基因 | 类型 | 进化速率 | 主要贡献 |
|---|---|---|---|
| ITS | 核糖体 DNA | 快 | 通用条形码,种间分辨 |
| nrLSU (28S) | 核糖体 DNA | 慢 | 属级以上深层信号 |
| nrSSU (18S) | 核糖体 DNA | 最慢 | 科/目级深层信号 |
| mtSSU | 线粒体 DNA | 中 | 独立于核基因组的验证信号 |
| EF-1α | 蛋白编码核基因 | 较快 | 种间分辨率(含内含子) |
| RPB2 | 蛋白编码核基因 | 中 | 单拷贝,GCPSR 核心标记 |
引物序列表
| 基因 | 引物 | 方向 | 序列 (5′→3′) | PCR片段 | 建树用 | 引物来源 |
|---|---|---|---|---|---|---|
| ITS | ITS5 | F | GGA AGT AAA AGT CGT AAC AAG G | ~600–700 bp | ~450–550 bp | White et al. 1990 |
| ITS4 | R | TCC TCC GCT TAT TGA TAT GC | ||||
| nrLSU | LR0R | F | ACC CGC TGA ACT TAA GC | ~1,400 bp | ~1,200–1,300 bp | Vilgalys & Hester 1990 |
| LR7 | R | TAC TAC CAC CAA GAT CT | ||||
| nrSSU | PNS1 | F | GTA GTC ATA TGC TTG TCT C | ~1,100 bp | ~1,000 bp | Hibbett 1996 |
| NS41 | R | CCC GTG TTG AGT CAA ATT A | ||||
| mtSSU | MS1 | F | CAG CAG TCA AGA ATA TTA GTC AAT G | ~700–800 bp | ~600–700 bp | White et al. 1990 |
| MS2 | R | GCG GAT TAT CGA ATT AAA TAA C | ||||
| EF-1α | EF1-983F | F | GCY CCY GGH CAY CGT GAY TTY AT | ~550–650 bp | ~500–550 bp | Rehner & Buckley 2005 |
| EF1-1567R | R | ACH GTR CCR ATA CCA CCR ATC TT | ||||
| RPB2 | 6F-1 | F | CCT CGT CAA CTG CAC AAC A | ~700–800 bp | ~650–750 bp | Song et al. 2018 自主设计 |
| 7R-1 | R | TCT TCC TCG GCA TCC AA |
[!important] RPB2 引物为自主设计
通用真菌 RPB2 引物 fRPB2-5F / fRPB2-7cR 在硫磺菌属中扩增效果不佳(弱带或非特异性扩增)。Song & Cui(2017, 2018)针对硫磺菌属专门设计新引物 6F-1 / 7R-1,覆盖 RPB2 基因保守结构域 6 至结构域 7 之间约 700–800 bp 区域。
PCR 扩增条件
| 步骤 | 温度 | 时间 | 循环数 | 备注 |
|---|---|---|---|---|
| 预变性 | 95°C | 4 min | 1 | |
| 变性 | 94°C | 40 s | ||
| 退火 | 50–54°C | 45 s(一般)/ 60 s(nrLSU, nrSSU) | 35 | 退火温度依基因调整 |
| 延伸 | 72°C | 60 s(一般)/ 90 s(nrLSU, nrSSU) | 延伸时间与产物长度正相关 | |
| 终延伸 | 72°C | 10 min | 1 |
各基因退火温度优化:50°C(ITS, mtSSU, nrLSU)、52°C(RPB2)、54°C(EF-1α, nrSSU)。
PCR 扩增片段 vs 建树用序列
[!warning] 关键区别
PCR 扩增的原始片段 不等于 用于建树的序列。经 MAFFT 比对和手动修剪后,去除引物结合区、两端保守区、非明确同源区后,长度会显著缩短。
| 基因 | PCR扩增片段 | 建树用比对序列 |
|---|---|---|
| ITS | ~600–700 bp | ~450–550 bp(去除18S/28S保守区) |
| nrLSU | ~1,400 bp | ~1,200–1,300 bp(去除引物区) |
| nrSSU | ~1,100 bp | ~1,000 bp |
| mtSSU | ~700–800 bp | ~600–700 bp |
| EF-1α | ~550–650 bp | ~500–550 bp |
| RPB2 | ~700–800 bp | ~650–750 bp |
| 合计 | ~5,400 bp | 3,963 bp |
论文中 3,963 bp 是经 MAFFT G-INS-I 比对和手动修剪后的合并矩阵总长度,去除了所有非明确同源位点。
各基因详细说明
ITS(内转录间隔区)
ITS5 结合在 18S rDNA 3' 端,ITS4 结合在 28S rDNA 5' 端,扩增完整 ITS1–5.8S–ITS2 区域。是真菌通用条形码,初步鉴定时最先测序的位点。论文建树时去除了两端保守区。
nrLSU(核糖体大亚基 28S rDNA)
LR0R 对应酿酒酵母 LSU 第 26–42 位,LR7 对应第 1449–1433 位,覆盖 D1–D3 结构域。因扩增片段最长(~1.4 kb),需 60 s 退火 + 90 s 延伸。进化速率慢,贡献属级及以上信号。
nrSSU(核糖体小亚基 18S rDNA)
PNS1/NS41 扩增约 60% 的 18S rDNA 编码区。进化速率最慢,主要贡献科/目级深层系统发育信号,稳定树的基本拓扑。
mtSSU(线粒体小亚基 rDNA)
MS1/MS2 扩增线粒体小亚基 rRNA 基因中间区域。线粒体基因进化速率与核基因不同,提供独立于核基因组的系统发育信号。
EF-1α(翻译延伸因子 1-α)
EF1-983F/EF1-1567R 的编号(983/1567)为氨基酸位置。扩增区域在硫磺菌中含少量小内含子。蛋白编码基因第 3 位密码子进化快,贡献种间分辨率。
RPB2(RNA聚合酶II第二大亚基)
6F-1/7R-1 覆盖保守结构域 6 至 7。作为单拷贝核基因,是 GCPSR 框架中最重要的蛋白编码标记之一。该研究中 88% 的 RPB2 序列为新测。
第四部分:遗传距离与物种界限
4.1 遗传距离是什么?
遗传距离(genetic distance)是衡量两条 DNA 序列差异程度的数值指标。
| 类型 | 计算方式 | 特点 |
|---|---|---|
| p-distance | 差异位点数 / 总位点数 × 100% | 最简单,未考虑多重替换 |
| K2P 距离(Kimura 2-parameter) | 校正转换(transition)与颠换(transversion)速率差异 | 更准确,最常用 |
| GTR 距离(General Time Reversible) | 校正 6 种碱基替换类型 | 最复杂,模型选择后确定 |
|
4.2 种内变异 vs 种间分化 —— Barcode Gap
核心逻辑:同一物种内个体间变异通常远小于不同物种之间的差异。
|
当 barcode gap 清晰存在时 → 可用单基因(ITS)区分物种
当 barcode gap 缺失或模糊时 → 必须依赖多基因 + GCPSR
4.3 真菌中不存在万能阈值
[!warning] 核心结论
传统上常用 ITS 相似度 97–99%(即 1–3% 遗传距离)作为物种界限的经验阈值,但这一阈值在不同真菌类群中差异极大,不存在普适标准。
| 真菌类群 | 种内 ITS 变异 | 种间 ITS 差异 | Barcode Gap |
|---|---|---|---|
| Hydnum(齿菌属) | <0.5% | >3% | 清晰 |
| Russula(红菇属) | <1% | >4% | 清晰 |
| Suillus(乳牛肝菌属) | <0.5% | >2.5% | 清晰 |
| Laetiporus(硫磺菌属) | <1% | 2–8% | 存在但不均匀 |
| Morchella Elata clade | 可高达 2% | 与种内重叠 | 模糊 |
| Marasmius(小皮伞属) | 可高达 5% | 与种内重叠 | 不存在 |
Barcode gap 的关键影响因素:
- 类群差异:不同属的分子进化速率截然不同
- 分类策略:"细分派"(splitting)产生更窄的种内变异和更大的 gap;"合并派"(lumping)则相反
- ITS 区域选择:ITS1 变异速率约为 ITS2 的 2 倍;ITS2 的 barcode gap 比 ITS1 更稳定
- 杂交和不完全谱系分选:可显著模糊物种边界
4.4 硫磺菌属中的具体应用
在 Song et al. (2018) 中,"遗传距离达到种间水平"体现在三个层次:
层次一:ITS 序列固定差异
候选新种与最近缘种的 ITS 序列存在多个固定差异位点(非个体内多态性),其 p-distance 超过硫磺菌属已知种内变异的上限(通常 <1%)。
层次二:6 个基因一致独立分支
|
层次三:分支长度反映分化时间
在 ML/BI 树上,候选新种形成长分支(long branch),表明自与姐妹群分化以来积累了足够多的固定替换。
4.5 判别流程
|
[!note] 优先级
遗传距离是辅助参考,GCPSR 谱系一致性才是首要标准。"多棵树说同一句话"比"一个数字超过阈值"更可靠。
第五部分:多基因联合系统发育树构建
5.1 测序策略与并行工作流
|
该研究共提交了 226 条新序列至 GenBank。其中 nrSSU 100% 新测,EF-1α 和 RPB2 分别有 85% 和 88% 新测。
5.2 完整十步流程
|
5.3 各步详细操作
步骤1:序列整理
|
序列命名:>属名_种名_菌株号,如 >Laetiporus_medogensis_Cui12240
步骤2:MAFFT 比对
|
| MAFFT 策略 | 参数 | 适用 |
|---|---|---|
| G-INS-I | --globalpair |
全长同源序列(论文使用) |
| L-INS-I | --localpair |
含侧翼可变区 |
| Q-INS-I | — | 需考虑 RNA 二级结构 |
比对后用 BioEdit 或 AliView 手动检查,排除大片段插入和无法明确对齐的区域。
步骤3:trimAl 修剪
|
手动修剪要点:蛋白编码基因的内含子区必须切除;ITS 两端 18S/28S 保守区去除。
步骤4:FASconCAT-G 串联
|
输出:concatenated.fas + concatenated.phy + concatenated_partition.txt
分区文件格式:
|
步骤5:PHT 检验 —— 最关键的质控
原理:检验各基因分区之间是否存在显著拓扑冲突。P > 0.05 表示可以合并。
PAUP* 脚本:
|
论文结果:P = 0.19(> 0.05),确认六基因合并。
如果 P < 0.05:排查冲突来源 → 除去冲突基因后重测 → 严重时改用 ASTRAL 溯祖法。
步骤6:模型选择
论文方法:MrModeltest v2.3 + AIC,结果所有分区均为 GTR + I + G。
现代方法(推荐):
|
步骤7:三种方法建树
最大似然法(ML)—— RAxML(论文在 CIPRES 超算平台运行):
|
现代替代 IQ-TREE(推荐):
|
贝叶斯推断(BI)—— MrBayes:
| 参数 | 论文设置 |
|---|---|
| 独立运行 | 2 次 |
| 每条链数 | 4(1冷 + 3热) |
| 总代数 | 500 万代 |
| 采样频率 | 每 1,000 代取 1 棵树 |
| Burn-in | 前 25% 丢弃 |
| 收敛评估 | Tracer v1.5(ESS > 200) |
|
最大简约法(MP)—— PAUP*:
论文结果:68 棵同等简约树(TL=1173, CI=0.812, RI=0.865)。
支持值阈值:
| 方法 | 指标 | 显著阈值 |
|---|---|---|
| ML bootstrap | BT | ≥ 75% |
| MP bootstrap | BT | ≥ 75% |
| Bayesian | BPP | ≥ 0.95 |
步骤8:单基因树冲突检查
|
| 情形 | 判断 | 处理 |
|---|---|---|
| 所有高支持分支无矛盾 | 无冲突 | 正常 |
| 某基因支持率低但不反对 | 轻微 | 可接受 |
| 某基因显著支持相反拓扑(BS ≥ 70%) | 严重冲突 | 需讨论或移除 |
步骤9-10:可视化与数据提交
- FigTree / iTOL / ggtree 可视化
- GenBank 提交序列
- TreeBase 提交比对矩阵
5.4 完整命令行流水线
|
5.5 软件版本速查
| 工具 | 版本 | 用途 |
|---|---|---|
| MAFFT | v7.526+ | 多序列比对 |
| trimAl | v1.4.rev15 | 比对修剪 |
| FASconCAT-G | v1.06 | 序列串联 |
| PartitionFinder2 | v2.1.1 | 分区与模型选择 |
| IQ-TREE | v2.3.0+ | ML 建树 + 模型选择 |
| MrBayes | v3.2.7a | 贝叶斯推断 |
| RAxML-NG | v1.2+ | ML 建树 |
| PAUP* | v4.0b10 | MP 建树 + PHT 检验 |
| Tracer | v1.7.2 | 贝叶斯收敛诊断 |
| FigTree | v1.4.4 | 树可视化 |
5.6 最容易出错的环节
[!danger] 六大常见错误
- PHT 检验被忽略 —— 不检验或 P<0.05 仍强行串联
- 内含子未切除 —— 蛋白编码基因比对中混入非同源内含子
- 外类群选择不当 —— 与本类群亲缘过远(比对困难)或过近(无法正确定根)
- 贝叶斯未收敛 —— ESS < 200 不应采用结果
- 单基因树冲突被忽视 —— 任何基因显著反对合并树都应处理
- PCR片段与建树序列混淆 —— PCR 扩增的原始长度 ≠ 建树用的比对长度
第六部分:中国代表性研究实例
6.1 羊肚菌属
- 全球:80+ 系统发育种,三大支系
- 中国:约半数系统发育种有分布
- 主要栽培种:六妹羊肚菌(M. sextelata, Mel-6)、梯棱羊肚菌(M. importuna, Mel-10)
- 详见 [[羊肚菌(Morchella)分类学与系统发育]]
6.2 硫磺菌属
- 全球:17–21 个系统发育种
- 中国已发表:4 个新种(哀牢山、环纹、墨脱、新疆硫磺菌)
- 研究团队:北京林业大学戴玉成/崔宝凯团队
- 发表时间线:2014 → L. ailaoshanensis, L. zonatus(Mycologia);2017 → 全属系统发育与生物地理(BMC Evol. Biol.);2018 → L. medogensis, L. xinjiangensis(MycoKeys)
- 详见 [[硫磺菌(Laetiporus)分类学与新种鉴定]]
6.3 研究基因数演进
| 论文 | 年份 | 使用基因数 | 基因列表 |
|---|---|---|---|
| Song et al. (Mycologia) | 2014 | 2 | ITS, nrLSU |
| Song & Cui (BMC Evol. Biol.) | 2017 | 6 | ITS, nrLSU, nrSSU, mtSSU, EF-1α, RPB2 |
| Song et al. (MycoKeys) | 2018 | 6 | 同上,RPB2 使用自主设计引物 6F-1/7R-1 |
相关笔记
- [[羊肚菌(Morchella)分类学与系统发育]]
- [[硫磺菌(Laetiporus)分类学与新种鉴定]]
- [[硫磺菌新种发表完整工作流程]]
- [[木耳(Auricularia)分子鉴定方法]]
参考文献
1. Song J, Sun Y, Ji X, Dai Y, Cui B. (2018) Phylogeny and taxonomy of Laetiporus with descriptions of two new species from western China. MycoKeys, 37: 57–71. PMID: 30116139
2. Song J, Cui B. (2017) Phylogeny, divergence time and historical biogeography of Laetiporus. BMC Evolutionary Biology, 17: 102. PMID: 28424048
3. Song J, Chen Y, Cui B, et al. (2014) Morphological and molecular evidence for two new species of Laetiporus from southwestern China. Mycologia, 106(5): 1039–1050. PMID: 24987130
4. Taşkın H, et al. (2012) A multigene molecular phylogenetic assessment of true morels (Morchella) in Turkey. Fungal Genetics and Biology, 47(8): 672–682.
5. Taylor JW, et al. (2000) Phylogenetic species recognition and species concepts in fungi. Fungal Genetics and Biology, 31: 21–32.
6. Katoh K, Standley DM. (2013) MAFFT multiple sequence alignment software version 7. Molecular Biology and Evolution, 30: 772–780.
7. Minh BQ, et al. (2020) IQ-TREE 2: New models and efficient methods for phylogenetic inference. Molecular Biology and Evolution, 37: 1530–1534.
8. Ronquist F, et al. (2012) MrBayes 3.2: Efficient Bayesian phylogenetic inference. Systematic Biology, 61: 539–542.
9. Wilson AW, et al. (2023) Does One Size Fit All? Variations in the DNA Barcode Gaps of Macrofungal Genera. Journal of Fungi, 9(8): 788.