找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 104|回复: 0

标记数量与GS预测准确性

[复制链接]

23

主题

0

回帖

75

积分

积分
75
发表于 2025-12-20 11:11:39 | 显示全部楼层 |阅读模式
无论是育种家还是想把全基因组选择付诸实践的企业,都很想在统计学家那里获得一个答案,那便是需要使用多少个分子标记才能准确预测。

统计学家通常认为在理想状态下,不低于500个标记是足够完成全基因组预测任务的。相反的,实践派在不断的摸索过程中发现,200左右的高质量分子标记可以得到中到高水平的预测精度。

理论上,或者感官上,貌似分子标记应该越多预测效果越好,也就是预测准确性随着分子标记的增加而增加。这不难理解,更多的分子标记可以增加捕获数量性状位点(QTL)机会,积累更多的效应值。然而,在实践中,结果并非如此。过多的分子标记反而不如随机抽取一部分标记的预测准确性高。为什么会出现这种情况?目前比较通行的解释是大田试验有很大的误差,并非理想状态,标记的增加不仅增加了目标性状的效应,误差也跟着增大了。遗传结构越复杂,需要的标记越多;反过来,需要的标记越多,误差越大。好像陷入了一个怪圈,没有足量的标记,就缺乏估计复杂结构的统计学效能;有了过多的标记,统计学效能依然难以保持。我个人的理解是,在同一个连锁不平衡(LD)区段中,应该只有唯一一个SNP体现此区段内QTL的效应,当一个LD中出现了多个SNP时,本不该代表该LD区段的多余SNP便会引起误差。大体来讲,确定的群体结构应该使用的标记数量应该与LD的数量相等。

另一方面,不确定的群体结构在很大程度上影响了预测,比如轮回选系,每一轮LD都会发生变化。这还没考虑目标性状复杂性需要的标记数量。

因此,简单的增加标记数量妄图获得更准确的预测并不是一个高明的选择。这里提供两个参考,中国农科院倾向于使用3K基因芯片,也就是使用3000个统一标准的分子标记。国际玉米小麦改良中心(CIMMYT)主张使用简化测序方案,如GBS、DArT和rAmpSeq。GBS在筛选后可留下约2万个左右的标记,DArT有11000多个,而rAmpSeq可以从1000到10万。

标记数量的选择需要综合考虑实验设计、性状的复杂性、群体的亲缘关系、标记平台等等各种因素。最佳应用数量仍存在争议。从我自身的经验来看,单次选系需要的标记数量少于杂交种预测少于二环选系。连续多年选择子代,每一代都需要更大的分辨率,也就是更多的标记。在误差无法消除的情况下,标记密度应该呈现类似正态分布的曲线,峰值的位置需要更多的实验和研究来确定。我的研究结果表明,不考虑计算效率的情况下,DArT的7000个Silico标记能够在干旱条件下实现较好的预测。若采用多组学预测,标记数量呈几何级增加。前提是植物材料是玉米。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|全基因组选择育种文献分享 ( 辽ICP备20010899号-3 )

GMT+8, 2026-2-20 11:00 , Processed in 0.056652 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表