orion知识

 找回密码
 立即注册
搜索
查看: 3110|回复: 0

Data Scraping 数据搜集工具

[复制链接]

63

主题

75

帖子

1259

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1259
发表于 2020-4-13 11:10:41 | 显示全部楼层 |阅读模式
我们在使用提取网页上的表格或者其他有规则的数据结构时通常会采用Data Scraping 它可以很方便的提取出我们想要的信息 而不用通过循环获取Element节点来实现,
通常我们的做法是采用之前点击的方式来操作 但是有时直接点击的方式并不能很好的实现我们想要的效果,这时我们就需要自定义来实现了 下面来看看如何实现:

1.首先我们还是按照之前的做法 通过点击获取想要的内容可以随意点击

2.点击完后出现如上图所示,点击Edit Data Definition 出现下图所示的自定义界面

3.通过查找内容我们发现其实这上面的写法就是XML节点查找

我们可以先写一个根节点
<webctrl tag="div" class="s-desktop-width-max s-desktop-content s-opposite-dir sg-row" idx="1"/>
其中 tag就是标签 calss就是样式名 idx是索引值 从1开始 上面我们定义的那个 就是查找class为 s-desktop-width-max s-desktop-content s-opposite-dir sg-row 的第一个div
然后如果想要查找的内容在根节点里面 就继续往下查找再定义节点内容 每往下一行就代表在上面的节点往下查找  可以查看相应的id 比如 <webctrl tag="div" id="id" idx="1"/> idx 可以不写 默认为1
通过上述自定义后 就可以提取出自己想要的一列的内容了 提取出后数据结构为DataTable 可以更改上面的column 中的name来更改列名


如果想要获取多列值的话 就还需要定义一个row

这个row中的 webctrl 需要是每一行的标签

备注:里面的exact 没搞清楚是用来做什么的 改了几个好像都没什么作用 知道的朋友希望在下面留言告知下 谢谢

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|orion知识 ( 浙ICP备20002629号 )

GMT+8, 2024-11-23 06:14 , Processed in 0.065299 second(s), 19 queries .

快速回复 返回顶部 返回列表