背景 本站现在用了知12提供的wordpress付费阅读插件,但是他们没有把插件发布到wordpress的插件商店,从而也就无法得知新版本的更新,导致上个月有个用户微信上和我反馈我的博客在付费完之后不会自动跳转然后显示隐藏内容了,需要手动验证,最主要的是要多次重复验证最后才成功,体验十分不好,当时我一看我的知12提供的paywall插件还是一个beta版本的,官网上已经在这之后又更新了好几版了,当机立断,我马上花几分钟用filezilla把插件更新到了官网最新的版本,然后找之前反馈问题的网友又测试了一下,他说一切都…

2020年09月06日 1条评论 600点热度 0人点赞 阅读全文

碎碎念 掐指一算,混loc的日子应该也快一年了,刚开始还几乎每天都上论坛上翻翻帖子,可后来到现在越来越少上了,但也还会隔一段时间猛刷上个把小时,今天闲来无事写了个小爬虫用来每日推送loc的热帖。 代码 #!/usr/bin/env python3 # coding = 'utf-8' """ @Time : 2020/3/26-18:51 @Author : sharp @FileName: hostloc_hot.py @Software: PyCharm @Blog :https://www.sharpgan.…

2020年03月26日 4条评论 2791点热度 0人点赞 阅读全文

背景 今天给大家分享一个python爬虫 ,其实很早之前就在这写过一个类似的,只不过这个是用于部署在vps上用的,因为这个爬虫每次运行的时候都要检测上次爬虫生成的一个文本文件中的内容来判断是否发表了新博客。 可现在本站所分享的python脚本都由腾讯云的云函数来托管了,因为云函数是severless化的,不可能用每次检测上次爬虫生成的一个文本文件中的内容来判断是否发表了新博客。 腾讯云官方推荐用其自家的对象存储COS来实现,我觉得比较麻烦,后来我又想到可以把临时生成的文件放到免费的ftp空间上,每次比较的时候再取回…

2020年03月26日 2条评论 2640点热度 0人点赞 阅读全文

废话少说 闲言少叙,直接上代码: #!/usr/bin/env python3 # coding=utf-8 import requests from bs4 import BeautifulSoup def get_soup(): url = 'https://www.solidot.org/index.rss' rss_xml = requests.get(url).text soup = BeautifulSoup(rss_xml, 'html5lib') return soup def get_mail_b…

2020年03月14日 0条评论 3032点热度 0人点赞 阅读全文

背景 因为下周一要去腾讯面试写代码,面试官说会考爬虫和数据处理,我就寻思着写个爬虫练练手,因为 最近几天一直都在拉勾上找工作就用拉勾拿来练手了。 环境 OSX 10.14.6 on Macbook pro 2017 Selenium==3.11.0 Python3.64 Chromedriver 70.0.3538.97 Github仓库 https://github.com/supersu097/mycrawler/tree/master/lagou 实现参考 Request版本:http://eunsetee.…

2020年03月02日 0条评论 2920点热度 0人点赞 阅读全文

环境 Mac 10.13.6 Python 3.6.4 Scrapy 1.5.0 现象 爬虫运行几秒钟就自动停止并报如下错误信息: 原因 这其中的原因是在后来再次啃官方文档到 这里时发现的。 原因其实很简单,但我印象中这个问题卡了两天左右,所以就在这里记录一下。 主要是我在执行命令scrapy genspider hnzj 时额外指定了网站域名为hnzj.com也即是scrapy genspider hnzj hnzj.com,于是生成的默认爬虫代码中多了一行 allowed_domains = ['hnzj.co…

2020年03月02日 0条评论 2950点热度 0人点赞 阅读全文