如何抓取亚马逊的商品评价?
原本想给大家介绍使用市面上常见或者付费的爬虫工具,直到我发现了这个Chrome的免费插件 ——Instant Data Scraper,当时我差点被感动哭了。比起学编程语言编写爬虫,自己费力去研究各种网页结构、层次,还要时刻担心自己的爬虫会被亚马逊干掉。
有 Instant Data Scraper 就好了!
也不用怕网页结构改变,采集规则失效的问题了!
小白也可以轻松使用上亚马逊评价采集爬虫技术!
什么是 Instant Data Scraper?
此插件使用 AI (人工智能)技术,可以判断页面中最相关的内容进行抓取,并不需要你懂得晦涩的编程技术。Amazon、 eBay、Best Buy、Walmart、Etsy、Home Depot、Craigslist、Yelp 等网站都能支持。
经我初步使用,发现它不大会发生「人工智障」的问题。起码爬取亚马逊商品评论(Customer Reviews),listing和QA等一些基础数据,Instant Data Scraper是非常方便的,大爱!
如何使用Instant Data Scraper?
在 Chrome 网上应用店搜索并安装插件「Instant Data Scraper」。如无法访问 Chrome 网上应用店,可以离线安装插件。
插件使用起来真的非常非常简单,以采集亚马逊 Review 为例:
Instant Data Scraper
1. 打开产品 Reviews 页的第一页,网址格式如:
如下图:
2.然后选择“Most recent”,以产品自然留评的时间进行排序。
3.排序完成后点击浏览器右上角Instant Data Scraper 插件图标“精灵球插件”,如下图
4.进入爬虫抓取页面的设置,如下图
5. 在精灵球插件里面,点击按钮Locate“next”button,然后回到产品Review页面的底部,点击“Next page”再点击“Start crawling”就开始自动抓取Review数据。
当然,我们也可以在这里移除我们不需要的信息。之后下载表格的时候,就不会展现我们不需要的信息了。
这里需要注意的是Min delay,Max delay,当你网速太快时要Min delay要设置的大一点,当你网速太慢的时候Min delay,Max delay也要设置的大一点,这样才能保证数据稳定的抓取下来。
6.当Review下载完成之后,页面会弹出错误的提示“Error getting table:Table not found,然后我们点击“CSV”这个绿色的按钮,就下把我们的Review一条不落的下载下来,如果你下载的Review数据超过一千条,数据下载的时间就会稍微久一点,可能出现假象,感觉是卡死的,我们只需要稍等片刻就可以下载下来,下载好了,左下角的底部会有文件下载的提示框,这样我们就知道Review有没有下载好了。
7.打开下载好的 CSV 或 Excel 文件,整理我们需要的数据列即可
当然,我们除了能够爬取Amazon的review数据,也能爬取QA等其他信息。
在抓取review信息的时候,可以抓取包括姓名,评级,留评时间,留评关键词和购买的款式等信息。
我们也可以使用该工具去进行选品。快速对产品的特性和消费者情感做出大致判断,而不需要一条一条的去阅读 Review,比较适合大范围的批量选品。
当然,我们除了可以在Amazon上抓取信息,还可以在其他平台或是独立站使用这个插件。
从上图我们可以看到对应抓取的信息,还是比较准确的。