Python 读取 Excel 文件 09 五月 2020 11:04 dean Python (0) 在日常工作中,使用Python读取数据文件还是非常频繁,这里记录下如何读取Excel文件。 [更多...]
PyCharm 2020.1专业版完美激活 24 四月 2020 11:40 dean Python (0) PyCharm2020是由JetBrains打造的一款Python IDE,VS2010的重构插件Resharper就是出自JetBrains之手。同时支持Google App Engine,PyCharm支持IronPython。这些功能在先进代码分析程序的支持下,使 PyCharm 成为 Python 专业开发人员和刚起步人员使用的有力工具。 [更多...]
Python 模拟用户操作Windows应用程序 10 二月 2020 07:06 dean Python, 爬虫 (0) 通过模拟鼠标和键盘操作,实现从某店通的桌面应用程序自动点击、输入搜索条件和下载数据的爬数据应用的主要技术关键点。简要介绍pyWin32、PyUserInput、pyHook、psutil等相关库的使用。 [更多...]
Scrapy 下载图片和文件 18 一月 2020 01:20 dean Python, Scrapy (0) Scrapy内置了FilesPipeline和ImagesPipeline,使用它可以简化载图片、文件的下载过程。我们只需要对爬虫做简单调整,即可实现,甚于还可以在下载图片的同时生成所需要的缩略图,如果对默认生成的文件名不注意,还可以自定义Pipeline重新定义。本篇记录这些需求的开发过程。 [更多...]
使用 Scrapy Pipeline将数据保存到JSON文件 17 一月 2020 11:00 dean Python, Scrapy (0) 使用Scrapy中,提供了Pipeline技术,实现数据提取和保存的分离。使用Pipeline管道可以让代码结构再清晰,可读性更高。本篇演练Pipeline管道的开发过程,记录如果有多个管道时,如何协调管道的执行。 [更多...]
使用 Scrapy 爬取博客园列表 11 一月 2020 06:38 dean Python, Scrapy, 爬虫 (0) 本篇使用博客园首页推荐的博文列表,作为介绍Scrapy爬行提取数据的练习。主要讲解了一般爬虫开发的过程,了解数据提取的常用方法。 [更多...]
Scrapy 默认爬虫模板 08 一月 2020 09:12 dean Python, Scrapy, 爬虫 (0) 使用Scrapy创建爬虫的时候,可以使用genspider命令快速创建,genspider命令提供了四个模板,每个模板针对的用途都有侧重点和对适用的场景做了优化。 [更多...]
基于度娘接口判断指定日期是否为工作日 07 一月 2020 10:43 dean (0) 在有些场景需要判断指定的日期是否为工作日,例如,在做数据运维时,有些任务必须是每工作日运行的,这就需要检查当前日期是否为工作日了。判断是否为工作日,不能简单的判断是否是周一至周五或是不是周末,还需要依据国家的法定假日安排。 [更多...]
Scrapy网页抓取不全的几个检查点 03 一月 2020 06:57 dean (0) 最近在学习Scrapy,拿本网站作为小白鼠练手,发现网页有些数据抓不取。经过不断踩坑,发现可能导致网页抓取不全的原因,可能有robots协议导致或被LinkExtractor忽略。 [更多...]
基于 Redis 实现分布式锁 02 一月 2020 04:31 dean (0) 日常开发中,经常需要使用到分布式锁,避免冲突的发生。在redis中提供了一个Setnx命令,可以实现类似的效果。使用Python的上下文管理器协议,可以实现优雅的分布式锁。 [更多...]
解决Python zipfile解压后中文乱码的问题 31 十二月 2019 04:40 dean (0) Python中可以使用zipfile库处理zip文件的压缩和解压的问题。但是如果文件名或目录名中存在中文,zipfile解压后就会出现乱码的问题。zipfile库在解压的时候,只针对utf-8和cp437编码作处理,导致非这两种编码的字符就会出现乱码。对于坏果仁的这个处理,我们有三个大招应对,看下哪个更适合你。 [更多...]
Scrapy命令行工具速览 29 十二月 2019 11:24 dean (0) Scrapy提供了丰富的基于命令行工具,分为全局命令和项目命令。合理使用命令行工具,可以提高爬虫的开发速度与质量。 [更多...]
Python获取当前路径 27 十二月 2019 06:52 dean (0) 使用Python获取当前路径时,有多种方法可选择,如何选择?当在不同的目录层次执行相同的方法,返回是否有不同?sys.args[0]获取当前目录保险吗? [更多...]
Scrapy快速预览 25 十二月 2019 12:27 dean (0) 在上一篇安装Scrapy后,我们使用一个简单的Demo快速体验下。 我们先创建一个存放源代码的目录,例如: rd Codes 在cmd中进入到该目录,使用Scrapy命令添加项目: scrapy st [更多...]
Python动态导入模块与动态函数调用 23 十二月 2019 11:23 dean (0) 介绍当有动态import和动态调用时的一种方式。主要使用importlib库实现动态import,使用eval实现动态调用方法。 [更多...]
安装Scrapy 22 十二月 2019 10:23 dean (0) Scrapy是一个高层次的Web爬行和抓取框架,用来爬行和提取结构化数据。它用途广泛,从数据挖掘到监控和自动化测试皆可。 [更多...]
Python Django使用示例 22 十二月 2019 06:43 dean (0) 安装 Django是一个小巧且功能齐全的,基于MVC架构的Web开发框架,它拥有大量的插件,可快速将你的想法付之实践。在使用Django前,只需要安装Python库即可: pip install dj [更多...]
Python pip 设置国内源 21 十二月 2019 11:08 dean (0) pip国内源目前主要有: 清华源:https://pypi.tuna.tsinghua.edu.cn/simple [更多...]