Data Scraping 数据搜集工具

admin · 发表于 2020-4-13 11:10:41

我们在使用提取网页上的表格或者其他有规则的数据结构时通常会采用Data Scraping 它可以很方便的提取出我们想要的信息而不用通过循环获取Element节点来实现，
通常我们的做法是采用之前点击的方式来操作但是有时直接点击的方式并不能很好的实现我们想要的效果，这时我们就需要自定义来实现了下面来看看如何实现：

1.首先我们还是按照之前的做法通过点击获取想要的内容可以随意点击

2.点击完后出现如上图所示，点击Edit Data Definition 出现下图所示的自定义界面

3.通过查找内容我们发现其实这上面的写法就是XML节点查找

我们可以先写一个根节点
<webctrl tag="div" class="s-desktop-width-max s-desktop-content s-opposite-dir sg-row" idx="1"/>
其中 tag就是标签 calss就是样式名 idx是索引值从1开始上面我们定义的那个就是查找class为 s-desktop-width-max s-desktop-content s-opposite-dir sg-row 的第一个div
然后如果想要查找的内容在根节点里面就继续往下查找再定义节点内容每往下一行就代表在上面的节点往下查找可以查看相应的id 比如 <webctrl tag="div" id="id" idx="1"/> idx 可以不写默认为1
通过上述自定义后就可以提取出自己想要的一列的内容了提取出后数据结构为DataTable 可以更改上面的column 中的name来更改列名

如果想要获取多列值的话就还需要定义一个row

这个row中的 webctrl 需要是每一行的标签

备注：里面的exact 没搞清楚是用来做什么的改了几个好像都没什么作用知道的朋友希望在下面留言告知下谢谢

		自动登录	找回密码
密码			立即注册

Data Scraping 数据搜集工具

本帖子中包含更多资源