
谷歌“Excel”好强:不用自己写代码就能爬虫,网友问微软慌不慌 |
发布时间:2022-10-20 文章来源:本站 浏览次数:3028 |
家人们,要爬虫——现在用一个电子表格就行了。 一行代码也别写,第三方软件也甭安。 只需在表格里点几下就ok。 不信,你瞧: 就这么两下,网页上的产品信息都有了。 ![]() 网友看完都惊呆了,码个不断。 一看到这是来自谷歌的产品(Google Sheet,谷歌的“Excel”),大家就立马cue起了微软,问它慌不慌。 还有人称这是在“跨界打击”它。 (手动狗头) 好不热闹。 来看具体怎么实现。 具体过程以爬亚马逊某个手机产品的产品页为例。 咱们先翻开谷歌Sheet(网友版即可),新建一个文档。 然后copy一下要爬的网址,粘进去。 ![]() 剩下的都在Sheet里完成。 咱们先列一下要爬的元素,这儿依次为: 产品图片-识别码(asin,亚马逊给每个产品生成的唯一标识)-产品名-价格-评分-图片网址。 然后就能够正式开端爬了。 要诀便是一个叫做ImportFromWeb的函数。 它也是个插件,没有的需求先装置一下(装置地址放文末端),然后通过Google Sheet程序的“扩展程序”菜单导入就行。 咱们只需把ImportFromWeb函数放进asin那一列,然后第一个参数选中刚刚粘过来的网址,第二个参数把要爬的元素单元格拖一遍(除了“图片”)。 稍等个1~2s,价格、产品名等信息就都出来了! ![]() 还差图片。 简单~基操~ 用IMAGE函数把G3格子里得到的图片网址值给曩昔就行。 ![]() 至此,第一个产品页里的东西就爬到了。 唯一麻烦的是,假如还需求爬更多产品的信息,需求把产品网址挨个粘一遍。 然后就没啥了,除了给单元格地址的行标列标加一下绝对引用符“$”。 这儿能够不学视频,直接一个f4就行。 拖一下,全部搞定! ![]() 怎么样?是不是非常方便。 看完整个操作,你也发现了,其实便是谷歌写了个脚本给咱封装好了直接用。 而据官方介绍,这个ImportFromWeb功能还能自动更新爬取到的信息。 并且只要是用JS写的网站都能够爬(根本等于绝大数网站了),每个函数还可支持50个url,以及数千个数据点。 |