我怎么会去分析数以千计的DNA碱基的文本文件?(How would I go about parsi

2019-10-30 02:46发布

这是我会的,我会一堆DNA碱基的大量文本文件(A,T,C,G)和我想要做的是采取每60个字符(任意),并把它放在一个新行所以这样的基地得到大块分离出来。 但是,我也愿意为有由一定数量的基地,以每个块的重叠。 例如,如果被赋予此10信块ATGGCTGCTA,并且初始4块片是ATGG,如果有参数被指定为2重叠,然后在接下来的4块片。将GGCT,然后CTGC等。 我知道我可能会寻找到阅读,打开和写作与Python的文本文件。 如果任何有资源,他们可以torwards点我对实现这一目标,这将是伟大的任何提示和说明。

我将与合作文本的格式示例:

https://www.ncbi.nlm.nih.gov/nuccore/NC_000017.11?report=fasta&from=7661779&to=7687550

Answer 1:

data = 'GAGACAGAGTCTCACTCTGTTGCACAGGCTGGAGTGCAGTGGCACAATCTCTGCTCACTGCAACCTCCTC'
chunk_size = 5
overlap = 2

for pos in range(0, len(data), chunk_size - overlap):
    print(data[pos:pos+chunk_size])

结果:

GAGAC
ACAGA
GAGTC
TCTCA
CACTC
TCTGT
...


文章来源: How would I go about parsing a text file of thousands of DNA bases?