PowerBI可以获取各种数据源,比如常用的Excel、CSV、文本、PDF以及各种关系和非关系型数据库等。我们经常在Web网站上查看各行各业的网页,我们能否用PowerBI抓取来自网页端的数据呢?答案是肯定的!PowerBI支持通过Web数据源的方式获取网页数据,同时借助PowerQuery的自定义函数,我们还可以实现多页面数据抓取。今天以抓取考拉海购的商品数据为例,分享一下PowerBI网页爬虫的操作方法。
第一步:分析网页结构,找到真实URL
打开考拉网站,浏览至想要抓取的商品页面,单击鼠标右键进入检查页(推荐使用谷歌浏览器),选择Network-XHR。滚动商品页到底后点击页码,连续翻页至第3页,右侧检查出现name数据列表。单击name列表里的链接(这里可以看到含goods的链接),查看链接的Preview是否有商品list,确认之后回到Headers,找到网页的真实URL并复制,一般真实URL带有page或pageNO等字段。第二步:打开PowerBI,构建爬虫函数
单击-,复制粘贴URL,确认后点击“连接”。连接成功后获得自动检测到的数据表,预览之后选择需要的数据表,点击“转换数据”后进入到PowerQuery中。单击-,创建一个新的参数并命名为,设置格式为文本,当前值为3。完成后双击步骤,将web获取模式修改为高级,将URL按页码前后分开,页码3替换为参数页码。上述步骤完成之后,在查询表处单击鼠标右键选择,到这里商品的爬虫函数就创建完成了。第三步:创建页码表,应用爬虫函数
点击-,创建空查询,输入公式=List.Numbers(1-20),创建页码表。页码表不能直接被使用,我们选中页码表单击鼠标右键选择,并将页码格式设置为文本。选中页码表,点击-,将页码参数设置为页码表的第一列,之后单击确定,爬虫随即开始运行。稍等片刻之后,页码表右侧会生成一个新table列,即代表数据爬取完成。最后单击table列的下三角,展开table中的列,确认之后20页商品数据就抓取完成了。获取数据之后,我们可以根据自己的需求进行数据清洗及分析等工作。好啦,以上就是PowerBI抓取多页面数据的操作方法和步骤,PowerBI抓取数据还有很多其他不同情况和方法,后面我们会继续展开分享。如需本次爬取案例的源文件,可以至