6.5 將字典轉(zhuǎn)換為XML

2018-02-24 15:26 更新

問(wèn)題

你想使用一個(gè)Python字典存儲(chǔ)數(shù)據(jù),并將它轉(zhuǎn)換成XML格式。

解決方案

盡管 xml.etree.ElementTree 庫(kù)通常用來(lái)做解析工作,其實(shí)它也可以創(chuàng)建XML文檔。例如,考慮如下這個(gè)函數(shù):

from xml.etree.ElementTree import Element

def dict_to_xml(tag, d):
'''
Turn a simple dict of key/value pairs into XML
'''
elem = Element(tag)
for key, val in d.items():
    child = Element(key)
    child.text = str(val)
    elem.append(child)
return elem

下面是一個(gè)使用例子:

>>> s = { 'name': 'GOOG', 'shares': 100, 'price':490.1 }
>>> e = dict_to_xml('stock', s)
>>> e
<Element 'stock' at 0x1004b64c8>
>>>

轉(zhuǎn)換結(jié)果是一個(gè) Element 實(shí)例。對(duì)于I/O操作,使用 xml.etree.ElementTree 中的 tostring()函數(shù)很容易就能將它轉(zhuǎn)換成一個(gè)字節(jié)字符串。例如:

>>> from xml.etree.ElementTree import tostring
>>> tostring(e)
b'<stock><price>490.1</price><shares>100</shares><name>GOOG</name></stock>'
>>>

如果你想給某個(gè)元素添加屬性值,可以使用 set() 方法:

>>> e.set('_id','1234')
>>> tostring(e)
b'<stock _id="1234"><price>490.1</price><shares>100</shares><name>GOOG</name>
</stock>'
>>>

如果你還想保持元素的順序,可以考慮構(gòu)造一個(gè) OrderedDict 來(lái)代替一個(gè)普通的字典。請(qǐng)參考1.7小節(jié)。

討論

當(dāng)創(chuàng)建XML的時(shí)候,你被限制只能構(gòu)造字符串類型的值。例如:

def dict_to_xml_str(tag, d):
    '''
    Turn a simple dict of key/value pairs into XML
    '''
    parts = ['<{}>'.format(tag)]
    for key, val in d.items():
        parts.append('<{0}>{1}</{0}>'.format(key,val))
    parts.append('</{}>'.format(tag))
    return ''.join(parts)

問(wèn)題是如果你手動(dòng)的去構(gòu)造的時(shí)候可能會(huì)碰到一些麻煩。例如,當(dāng)字典的值中包含一些特殊字符的時(shí)候會(huì)怎樣呢?

>>> d = { 'name' : '<spam>' }

>>> # String creation
>>> dict_to_xml_str('item',d)
'<item><name><spam></name></item>'

>>> # Proper XML creation
>>> e = dict_to_xml('item',d)
>>> tostring(e)
b'<item><name>&lt;spam&gt;</name></item>'
>>>

注意到程序的后面那個(gè)例子中,字符 ‘<' 和 ‘>' 被替換成了 &lt;&gt;

下面僅供參考,如果你需要手動(dòng)去轉(zhuǎn)換這些字符,可以使用 xml.sax.saxutils 中的 escape()unescape() 函數(shù)。例如:

>>> from xml.sax.saxutils import escape, unescape
>>> escape('<spam>')
'&lt;spam&gt;'
>>> unescape(_)
'<spam>'
>>>

除了能創(chuàng)建正確的輸出外,還有另外一個(gè)原因推薦你創(chuàng)建 Element 實(shí)例而不是字符串,那就是使用字符串組合構(gòu)造一個(gè)更大的文檔并不是那么容易。而 Element 實(shí)例可以不用考慮解析XML文本的情況下通過(guò)多種方式被處理。也就是說(shuō),你可以在一個(gè)高級(jí)數(shù)據(jù)結(jié)構(gòu)上完成你所有的操作,并在最后以字符串的形式將其輸出。

以上內(nèi)容是否對(duì)您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號(hào)
微信公眾號(hào)

編程獅公眾號(hào)