我怎么会去分析数以千计的DNA碱基的文本文件？(How would I go about parsi

2019-10-30 02:46发布

这是我会的，我会一堆DNA碱基的大量文本文件（A，T，C，G）和我想要做的是采取每60个字符（任意），并把它放在一个新行所以这样的基地得到大块分离出来。但是，我也愿意为有由一定数量的基地，以每个块的重叠。例如，如果被赋予此10信块ATGGCTGCTA，并且初始4块片是ATGG，如果有参数被指定为2重叠，然后在接下来的4块片。将GGCT，然后CTGC等。我知道我可能会寻找到阅读，打开和写作与Python的文本文件。如果任何有资源，他们可以torwards点我对实现这一目标，这将是伟大的任何提示和说明。

我将与合作文本的格式示例：

https://www.ncbi.nlm.nih.gov/nuccore/NC_000017.11?report=fasta&from=7661779&to=7687550

Answer 1:

data = 'GAGACAGAGTCTCACTCTGTTGCACAGGCTGGAGTGCAGTGGCACAATCTCTGCTCACTGCAACCTCCTC'
chunk_size = 5
overlap = 2

for pos in range(0, len(data), chunk_size - overlap):
    print(data[pos:pos+chunk_size])

结果：