PyParsing non-greedy match

2019-06-22 06:09发布

I am trying to parse a partially standardized street address into it's components using pyparsing. I want to non-greedy match a street name that may be N tokens long.

For example:

444 PARK GARDEN LN

Should be parsed into:

number: 444
street: PARK GARDEN
suffix: LN

How would I do this with PyParsing? Here's my initial code:

from pyparsing import *

def main():
    street_number = Word(nums).setResultsName('street_number')
    street_suffix = oneOf("ST RD DR LN AVE WAY").setResultsName('street_suffix')
    street_name = OneOrMore(Word(alphas)).setResultsName('street_name')

    address = street_number + street_name + street_suffix
    result = address.parseString("444 PARK GARDEN LN")
    print result.dump()

if __name__ == '__main__':
    main()

but when I try parsing it, the street suffix gets gobbled up by the default greedy parsing behavior.

标签： python pyparsing

1条回答

神经病院院长

2楼-- · 2019-06-22 07:06

Use the negation, ~, to check to see if the upcoming street_name is actually a street_suffix.

from pyparsing import *

street_number = Word(nums)('street_number')
street_suffix = oneOf("ST RD DR LN AVE WAY")('street_suffix')
street_name = OneOrMore(~street_suffix + Word(alphas))('street_name')

address = street_number + street_name + street_suffix
result = address.parseString("444 PARK GARDEN LN")
print result.dump()

In addition, you don't have to use setResultsName, you can simply use the syntax above. IMHO it leads to a much cleaner grammar definition.

0人赞添加讨论(0) 举报

PyParsing non-greedy match

采纳回答

编辑标签

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

付费偷看金额在0.1-10元之间