Selenium 无界面模式 14 一月 2020 07:19 dean Python (0) 使用Selenium请求网页的时候,默认会打开浏览器,你可以看到浏览器自动弹出和关闭,如果希望Selenium不显示浏览器界面时,可以参照这里的方式,使用无界面模式。 [更多...]
如何判断 Selenium 是否加载完成 14 一月 2020 06:58 dean Python (0) Selenium是通过浏览器驱动驱动浏览器加载网页,模拟正常的网页浏览,由于网页的加载过程会比较复杂,如何判断Selenium是否已加载完成,就会变得复杂,这里记录了三种判断网页加载完成的方式,需要按需要使用。 [更多...]
Selenium 的安装 14 一月 2020 06:24 dean Python (0) Selenium是一个自动化测试工具,它支持各种浏览器,包括Chrome、FireFox、IE、Edge等。它可以模拟操作浏览器,对一些需要动态加载的页面,不需要我们执行JavaScrip等操作,即可自动加载完成后的页面。在这里记录Selenium的安装过程。 [更多...]
安装 Hadoop 伪分布式环境 13 一月 2020 11:12 dean Hadoop (0) 本篇记录如何在CentOS 7中配置Hadoop伪分布式环境的过程。记录Hadoop进程的启停,向HDFS上传文件,运行Hadoop自带的wordcount测试案例。 [更多...]
使用Scrapy Shell命令测试提取数据 13 一月 2020 08:45 dean Scrapy, 爬虫 (0) 在开发爬虫的时候,从网页上提取数据是一件非常重要的、琐碎的、容易出错的事情。如果都是通过运行爬虫来测试,这个未免太过麻烦。幸好Scrapy早已针对这个问题提供了专门的Shell命令,熟练使用Shell命令,可以起来事半功倍的效果。 [更多...]
使用 Scrapy 爬取博客园列表 11 一月 2020 06:38 dean Python, Scrapy, 爬虫 (0) 本篇使用博客园首页推荐的博文列表,作为介绍Scrapy爬行提取数据的练习。主要讲解了一般爬虫开发的过程,了解数据提取的常用方法。 [更多...]
Scrapy 默认爬虫模板 08 一月 2020 09:12 dean Python, Scrapy, 爬虫 (0) 使用Scrapy创建爬虫的时候,可以使用genspider命令快速创建,genspider命令提供了四个模板,每个模板针对的用途都有侧重点和对适用的场景做了优化。 [更多...]
基于度娘接口判断指定日期是否为工作日 07 一月 2020 10:43 dean (0) 在有些场景需要判断指定的日期是否为工作日,例如,在做数据运维时,有些任务必须是每工作日运行的,这就需要检查当前日期是否为工作日了。判断是否为工作日,不能简单的判断是否是周一至周五或是不是周末,还需要依据国家的法定假日安排。 [更多...]
资源共享 - 中图法 06 一月 2020 11:17 dean (0) 《中国图书馆分类法》(原称《中国图书馆图书分类法》)是我国建国后编制出版的一部具有代表性的大型综合性分类法,是当今国内图书馆使用最广泛的分类法体系,简称《中图法》。 [更多...]
Scrapy网页抓取不全的几个检查点 03 一月 2020 06:57 dean (0) 最近在学习Scrapy,拿本网站作为小白鼠练手,发现网页有些数据抓不取。经过不断踩坑,发现可能导致网页抓取不全的原因,可能有robots协议导致或被LinkExtractor忽略。 [更多...]
基于 Redis 实现分布式锁 02 一月 2020 04:31 dean (0) 日常开发中,经常需要使用到分布式锁,避免冲突的发生。在redis中提供了一个Setnx命令,可以实现类似的效果。使用Python的上下文管理器协议,可以实现优雅的分布式锁。 [更多...]
解决Python zipfile解压后中文乱码的问题 31 十二月 2019 04:40 dean (0) Python中可以使用zipfile库处理zip文件的压缩和解压的问题。但是如果文件名或目录名中存在中文,zipfile解压后就会出现乱码的问题。zipfile库在解压的时候,只针对utf-8和cp437编码作处理,导致非这两种编码的字符就会出现乱码。对于坏果仁的这个处理,我们有三个大招应对,看下哪个更适合你。 [更多...]
Scrapy命令行工具速览 29 十二月 2019 11:24 dean (0) Scrapy提供了丰富的基于命令行工具,分为全局命令和项目命令。合理使用命令行工具,可以提高爬虫的开发速度与质量。 [更多...]
Python获取当前路径 27 十二月 2019 06:52 dean (0) 使用Python获取当前路径时,有多种方法可选择,如何选择?当在不同的目录层次执行相同的方法,返回是否有不同?sys.args[0]获取当前目录保险吗? [更多...]
ASP.NET WebApi返回JSON格式 26 十二月 2019 11:19 dean (0) ASP.NET WebApi返回的内容格式会经过内容协商,决定返回是XML格式或JSON格式。如果我们直接在浏览器上打开,一般返回的是XML格式的,如果我们希望它返回JSON格式,发送请求的时候,可以设置Accept的值。也可以通过服务器端的配置让它一直返回JSON格式。 [更多...]
InfluxDB Windows安装文件下载 25 十二月 2019 05:31 dean (0) InfluxDB是一款用Go语言编写的开源分布式时序、事件和指标数据库,无需外部依赖。该数据库现在主要用于存储涉及大量的时间戳数据,如DevOps监控数据,APP metrics, loT传感器数据和 [更多...]
Scrapy快速预览 25 十二月 2019 12:27 dean (0) 在上一篇安装Scrapy后,我们使用一个简单的Demo快速体验下。 我们先创建一个存放源代码的目录,例如: rd Codes 在cmd中进入到该目录,使用Scrapy命令添加项目: scrapy st [更多...]
Python动态导入模块与动态函数调用 23 十二月 2019 11:23 dean (0) 介绍当有动态import和动态调用时的一种方式。主要使用importlib库实现动态import,使用eval实现动态调用方法。 [更多...]
安装Scrapy 22 十二月 2019 10:23 dean (0) Scrapy是一个高层次的Web爬行和抓取框架,用来爬行和提取结构化数据。它用途广泛,从数据挖掘到监控和自动化测试皆可。 [更多...]
Python Django使用示例 22 十二月 2019 06:43 dean (0) 安装 Django是一个小巧且功能齐全的,基于MVC架构的Web开发框架,它拥有大量的插件,可快速将你的想法付之实践。在使用Django前,只需要安装Python库即可: pip install dj [更多...]