与在python顺序号字符串替换图案(replace pattern with a sequenti

2019-07-04 06:33发布

我试图实现的Python以下替换。 替换{N}所有的HTML标签和创建的哈希[标签,{N}]
原来的字符串- > “ <h>这是一个字符串。 </H><P>这是另一部分。 </P>
替换文本 - > “{0}这是一个字符串{1} {2}这是另一个部分{3}。。”

这里是我的代码。 我已经开始与更换,但我被困在更换逻辑,因为我想不出来代替以连续方式各种情况下,最好的办法就是用{0},{1}等:

import re
text = "<h> This is a string. </H><p> This is another part. </P>"

num_mat = re.findall(r"(?:<(\/*)[a-zA-Z0-9]+>)",text)
print(str(len(num_mat)))

reg = re.compile(r"(?:<(\/*)[a-zA-Z0-9]+>)",re.VERBOSE)

phctr = 0
#for phctr in num_mat:
#    phtxt = "{" + str(phctr) + "}"
phtxt = "{" + str(phctr) + "}"
newtext = re.sub(reg,phtxt,text)

print(newtext)

有人能实现这一目标的一个更好的办法帮助吗? 谢谢!

Answer 1:

import re
import itertools as it

text = "<h> This is a string. </H><p> This is another part. </P>"

cnt = it.count()
print re.sub(r"</?\w+>", lambda x: '{{{}}}'.format(next(cnt)), text)

版画

{0} This is a string. {1}{2} This is another part. {3}

适用于简单的标签只(无属性/代码中有空格)。 对于扩展标签,你必须适应正则表达式。

此外,不重新初始化cnt = it.count()将保持编号回事。

UPDATE得到映射字典:

import re
import itertools as it

text = "<h> This is a string. </H><p> This is another part. </P>"

cnt = it.count()
d = {}
def replace(tag, d, cnt):
    if tag not in d:
        d[tag] = '{{{}}}'.format(next(cnt))
    return d[tag]
print re.sub(r"(</?\w+>)", lambda x: replace(x.group(1), d, cnt), text)
print d

打印:

{0} This is a string. {1}{2} This is another part. {3}
{'</P>': '{3}', '<h>': '{0}', '<p>': '{2}', '</H>': '{1}'}


文章来源: replace pattern with a sequential number string in python