这次主要做了些优化,调整了逻辑结构。
爬虫使用了匿名IP,代理。做了下简单的伪装。
优化了微信端的指令集。增加了价格区间和立即获取功能。
优化了推送格式。增加了卖家价格和昵称
由于邮件通知经常被拦截,所以去掉了邮件通知。
下一步接入快递单号跟踪。
8月5日12:33更新
根据朋友的特殊要求,去除了擦亮和重新编辑过的商品,只留下了最新发布的商品。最初的想法是,请商品的详情页面去看那个浏览量。但是由于相遇的放他进去了,一开始可以进商品详情页面,但是后来就进不去了。所以就想了另一个办法把大部分商品保存在数据库中,以后遇到新发布的就去数据库中查询。等一下商品材料或者是重新编辑的时候,他的链接是唯一的,不会改变。 当然也会发布一个版本就是没有剔除擦亮重新编辑的商品。因为有些商品它重新编辑之后可能会降价或者修改什么条件?例如加了一些赠品之类的,这个可以留着。
修改的功能,对于每个关键词都会设置一个价格区间。而不是像原来的所有关键字使用同一个价格区间,这样设置非常的不合理,有些商品差价非常大啊,使用同一个价格区间推送,结果就会变得不那么明显清晰。
其他的就是把价格周期以及其他设置全部写入数据库。一个是保证数据的安全性,再一个是保证数据的完整性。
关于爬虫去抓取动态加载内容。你想你为例,商品详情的浏览量就是动态加载的。可以通过浏览器的F12抓包去获取那个链接以及相对应的参数。别的网站我不太清楚,但是咸鱼这个加载浏览量,其中有一个头部叫Refer,他的意思是你是从哪个链接跳过来来获取这个参数的。如果没有这个参数的话,他不会给你返回jsonp数据。
如果你需要,联系我:CONTACT ME
额…
代码开源一下?
时隔这么久,估计闲鱼网页版改版了或者限制了,应该用不了了,只是提供一个思路