Excel抓取网页数据,超简单,实时更新,再也不用一个个复制啦!
哈喽,大家好呀!
今天来教大家如何快速从网站上抓取数据并自动更新。
俗称“爬虫”。
很多人是不是第一反应就是Python
啊,那真的好难好难好难。
没关系,今天这个小技巧,只需要你有个Excel就行,不用安装插件,也不用付费。
今天介绍最简单的一种:用“自网站”命令抓取数据。
1. Excel“自网站”命令抓取数据的操作方法
最近比较关心房价的跌幅,所以下面以房价爬取为例介绍“自网站”命令的使用。
版本说明:Excel 2016及以上就有该命令,WPS或低版本可能会存在差异。
Step1:新建一个空白的表格,在数据选项卡中找到“自网站”按钮。如下图所示:

Step2:接着用浏览器打开需要抓取数据的网址,我们复制一下当前网页的网址。

Step3:接着回到Excel中,从数据选项卡中打开自网页按钮,软件会弹出一个“从web”对话框,选择高级,URL部分处粘贴刚刚固执的网址,单击确认后会提示正在连接。随后会出现一个导航器。

Step4:导航器如下图所示,其中抓取的会有两个表格的数据,Table0是房价涨幅数据,Table1是房价跌幅数据。
现在我们选中Table1在表视图中就能预览看到数据,接着选择转换数据即可。

Step5:转换数据后会跳转到Power Query编辑器界面,因为这个网页的数据相对比较规整的,所以不需要我们做额外的操作,只需要选择关闭并上载即可。

Step6:上载到Excel中的数据如下图所示,查询&连接会提示已经加载了10行。此时的表格数据也是默认套用的超级表样式。

Step7:我们可以光标定位在表格数据中,在表设计中找到快速样式进行更改一个我喜欢的表格样式,当需要刷新数据时可以单击一下刷新中的全部刷新按钮,表格的左下角就会提示在后台运行查询数据。

Step8:如果我们想自定义一下刷新的时间,也可以通过查询选项卡中找到查询属性,设置一下刷新控件中的刷新频率,这里我们可以以分钟进行自定义刷新的时间。

2. Excel“自网站”命令无法抓取数据的原因
很多朋友随意打开一个网页,看到网页中好像存在数据,就采用自网站命令进行抓取,但往往不成功,只得到一个名为Document的空表格,如下。

这是“自网站”命令抓取数据的局限性造成的。它只能抓取符合以下两个特征的网页数据:
(1)支持GET请求。
GET请求指客户向服务器申请获取某个资源。通过Excel“自网站”命令爬数据,实际就是你向服务器发出得到资源请求。如果该资源服务接口不支持GET请求,那就无法爬取。
(2)数据位于网页的table(表格)标签

中。
在浏览器中打开网页后按F12打开网页调试器,单击调试器左上角第一个图标“选取页面元素”图标

,然后移动鼠标到网页中的数据上,即可在“查看器”栏目中查看数据所在标签,如下图。如果数据不在

中则无法爬取。

以上就是今日分享的Excel“自网站”命令抓取数据。它只能爬取位于

标签中的数据,最大的优点是操作简单。
对于其他类型的网页数据,则需要采用其他方法来爬取。有兴趣的伙伴可以留言。我们下期再来分享。
好的,以上就是今天的内容,感谢大家的观看。扫码进群学习Excel。
另外,Excel训练营今晚开班,1元报名,课程长期观看学习,有练习课件!
- 0000
- 0000
- 0000
- 0001
- 0000