解析XML与海苔和引入nokogiri与令人失望的结果哈希(Parsing XML to hash

2019-10-17 21:20发布

我试图将XML文档转换为用紫菜Ruby的哈希值。 但是,而不是接收的根元素的集合,则返回包含该集合的新节点。 这是我在做什么:

@xml  = content_for(:layout)
@hash = Nori.new(:parser => :nokogiri, :advanced_typecasting => false).parse(@xml)

要么

@hash = Hash.from_xml(@xml)

其中的内容@xml是:

<bundles>
  <bundle>
    <id>6073</id>
    <name>Bundle-1</name>
    <status>1</status>
    <bundle_type>
      <id>6713</id>
      <name>BundleType-1</name>
    </bundle_type>
    <begin_at nil=\"true\"></begin_at>
    <end_at nil=\"true\"></end_at>
    <updated_at>2013-03-21T23:02:32Z</updated_at>
    <created_at>2013-03-21T23:02:32Z</created_at>
  </bundle>
  <bundle>
    <id>6074</id>
    <name>Bundle-2</name>
    <status>1</status>
    <bundle_type>
      <id>6714</id>
      <name>BundleType-2</name>
    </bundle_type>
    <begin_at nil=\"true\"></begin_at>
    <end_at nil=\"true\"></end_at>
    <updated_at>2013-03-21T23:02:32Z</updated_at>
    <created_at>2013-03-21T23:02:32Z</created_at>
  </bundle>
</bundles>

解析器返回@hash格式:

{"bundles"=>{"bundle"=>[{"id"=>"6073", "name"=>"Bundle-1", "status"=>"1", "bundle_type"=>{"id"=>"6713", "name"=>"BundleType-1"}, "begin_at"=>nil, "end_at"=>nil, "updated_at"=>"2013-03-21T23:02:32Z", "created_at"=>"2013-03-21T23:02:32Z"}, {"id"=>"6074", "name"=>"Bundle-2", "status"=>"1", "bundle_type"=>{"id"=>"6714", "name"=>"BundleType-2"}, "begin_at"=>nil, "end_at"=>nil, "updated_at"=>"2013-03-21T23:02:32Z", "created_at"=>"2013-03-21T23:02:32Z"}]}} 

相反,我想获得:

{"bundles"=>[{"id"=>"6073", "name"=>"Bundle-1", "status"=>"1", "bundle_type"=>{"id"=>"6713", "name"=>"BundleType-1"}, "begin_at"=>nil, "end_at"=>nil, "updated_at"=>"2013-03-21T23:02:32Z", "created_at"=>"2013-03-21T23:02:32Z"}, {"id"=>"6074", "name"=>"Bundle-2", "status"=>"1", "bundle_type"=>{"id"=>"6714", "name"=>"BundleType-2"}, "begin_at"=>nil, "end_at"=>nil, "updated_at"=>"2013-03-21T23:02:32Z", "created_at"=>"2013-03-21T23:02:32Z"}]}

的一点是,我控制XML,其中,如果形成类似于上述的方式。

我的问题也涉及到不Rabl的的JSON输出不符合标准? 它可以?

Answer 1:

试想一下,仅由同一标签的列表,如一个XML

<shoppinglist>
    <item>apple</item>
    <item>banana</item>
    <item>cherry</item>
    <item>pear</item>
<shoppinglist>

当您转换成一个哈希这一点,这是很简单的跟如来访问项目hash['shoppinglist']['item'][0] 但是你会在这种情况下,期望? 只是一个数组? 按照你的逻辑,该项目现在应该有访问hash['shoppinglist'][0]但如果你有容器如内部的不同元素

<shoppinglist>
    <date>2013-01-01</date>
    <item>apple</item>
    <item>banana</item>
    <item>cherry</item>
    <item>pear</item>
<shoppinglist>

你会如何现在访问的项目? 如何日期? 问题是,转换为一个哈希在一般情况下工作。

虽然我不知道海苔,我敢肯定,你问什么,从它不是在出炉的,只是因为它没有任何意义,当你考虑的一般情况。 作为替代方案,你仍然可以得到捆起来阵自己一个级别:

@hash['bundles'] = @hash['bundles']['bundle']


Answer 2:

一般解决您的问题,是不是很漂亮。

我创建了我一个名为ArrayHash的特殊对象。 它具有特殊的性质,如果在仅具有一个密钥和数据的值所指向的该密钥是它增加了整数键那些数组元素的数组。

所以,如果正常的红宝石Hash字典会是什么样子

{bundle"=>["0", "1", "A", "B"]}

然后在ArrayHash dictionaary是这样的

{"bundle"=>["0", "1", "A", "B"], 0=>"0", 1=>"1", 2=>"A", 3=>"B"}

由于额外的键类型Fixnum这个哈希看起来就像Array

[ "0", "1", "A", "B" ]

但它也有一个“包”条目,其大小为5

下面是代码,迫使Nori使用这个特殊的字典。

require 'nori'

class Nori
  class ArrayHash < Hash
    def [](a)
      if a.is_a? Fixnum and self.size == 1
        key = self.keys[0]
        self[key][a]
      else
        super
      end
    end
    def inspect
      if self.size == 1 and self.to_a[0][1].class == Array
        p = Hash[self.to_a]
        self.values[0].each.with_index do |v, i|
          p[i] = v
        end
        p.inspect
      else
        super
      end
    end
  end
end

class Nori
  class XMLUtilityNode
    alias :old_to_hash :to_hash
    def to_hash
      ret = old_to_hash
      raise if ret.size != 1
      raise unless ret.class == Hash
      a = ret.to_a[0]
      k, v = a.first, a.last
      if v.class == Hash
        v = ArrayHash[ v.to_a ]
      end
      ret = ArrayHash[ k, v ]
      ret
    end
  end
end


h = Nori.new(:parser => :nokogiri, :advanced_typecasting => false).parse(<<EOF)
<top>
<aundles>
  <bundle>0</bundle>
  <bundle>1</bundle>
  <bundle>A</bundle>
  <bundle>B</bundle>
</aundles>
<bundles>
  <nundle>A</nundle>
  <bundle>A</bundle>
  <bundle>B</bundle>
</bundles>
</top>
EOF

puts "#{h['top']['aundles'][0]} == #{ h['top']['aundles']['bundle'][0]}"
puts "#{h['top']['aundles'][1]} == #{ h['top']['aundles']['bundle'][1]}"
puts "#{h['top']['aundles'][2]} == #{ h['top']['aundles']['bundle'][2]}"
puts "#{h['top']['aundles'][3]} == #{ h['top']['aundles']['bundle'][3]}"

puts h.inspect

输出然后

0 == 0
1 == 1
A == A
B == B
{"top"=>{"aundles"=>{"bundle"=>["0", "1", "A", "B"], 0=>"0", 1=>"1", 2=>"A", 3=>"B"}, "bundles"=>{"nundle"=>"A", "bundle"=>["A", "B"]}}}


文章来源: Parsing XML to hash with Nori and Nokogiri with undesired result