我试图使用正则表达式来查找DNA串子串。 此子串具有不确定碱基,即像ATCGR
,其中R
可以是A
或G
。 此外,该脚本必须允许x
错配的数量。 所以这是我的代码
import regex
s = 'ACTGCTGAGTCGT'
regex.findall(r"T[AG]T"+'{e<=1}', s, overlapped=True)
所以,用一个不匹配我希望3子AC**TGC**TGAGTCGT
和ACTGC**TGA**GTCGT
和ACTGCTGAGT**CGT**
。 预期的结果应该是这样的:
['TGC', 'TGA', 'AGT', 'CGT']
但输出
['TGC', 'TGA']
即使使用re.findall,代码不承认最后一个子。 在另一方面,如果该代码被设置为允许2个错配{ë<= 2}时,输出为
['TGC', 'TGA']
是否有另一种方式来获得所有的子?