当当页面数据抓取备案

作者：木道寻08 | 2024-08-02 19:37:49

踩

当当网单个页面数据抓取

1.使用MetaStudio和DataScraper工具抓取当当图书畅销版内数据（书名，作者，出版社等）

工具下载地址 http://www.gooseeker.com/cn/node/download/front 按说明文档定制脚本

2. 抓取的数据为xml文件格式，每个xml文件对应一张页面的数据

3. 需要将所有xml文件合并成一个excel文件

使用宏

Sub xml2excel()
    Dim oxmlDoc As DOMDocument
    Dim Node As IXMLDOMNode
    Dim oXmlNodes As IXMLDOMNodeList
    Set oxmlDoc = New DOMDocument
    oxmlDoc.async = False
    'Rows("1:1").Select
    m = Dir(ThisWorkbook.Path & "\*.xml")
    Do While m <> ""
        oxmlDoc.Load ThisWorkbook.Path & "\" & m
        Set oXmlNodes = oxmlDoc.SelectNodes("/extraction/新书热卖榜/item")
        For j = 0 To oXmlNodes.Length - 1
           j2 = Range("a65536").End(xlUp).Row + 1
           For i = 0 To oXmlNodes(j).ChildNodes.Length - 1
              Cells(j2, i + 1) = oXmlNodes(j).ChildNodes(i).Text
           Next
        Next
        m = Dir
    Loop
            For i = 0 To oXmlNodes(0).ChildNodes.Length - 1
            Cells(1, i + 1) = oXmlNodes(0).ChildNodes(i).nodeName
            Next
End Sub

需要依赖Microsoft XML, 否则回报“用户自定义未找到”错误。

通过vba 工具--引入选项完成依赖。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/木道寻08/article/detail/919579?site