Cent OS 7下配置环境变量 30 一月 2020 11:32 dean (0) 记录在Cent OS 7下配置环境变量的方式,当/etc/profile配置错误且已经刷新的情况下,记录如何挽救的办法。 [更多...]
Cent OS下压缩和解压文件 30 一月 2020 10:43 dean (0) yum provides zip 已加载插件:fastestmirror Loading mirror speeds from cached hostfile * base: mirrors.aliy [更多...]
ansible 使用测试 28 一月 2020 11:11 dean (0) ansible是一款deops运维工具,使用它可以方便的管理多个主机。目前参照网上的使用教程,记录下使用的方式。 [更多...]
ssh: Could not resolve hostname data1: Name or service not known 21 一月 2020 09:55 dean (0) 记录出现ssh: Could not resolve hostname xxx: Name or service not known时的解决办法。 [更多...]
CentOS 7配置固定IP 21 一月 2020 07:12 dean (0) 本篇记录如何在CentOS 7环境下配置固定IP,相比Windows,Linunx上配置网卡要复杂不少,对像我这种Linux小白,还是需要费不少时间。现在整理配置过程,以备后时之需。 [更多...]
在Windows下将 Redis 安装成服务 19 一月 2020 08:33 dean (0) 如果是以.msi包安装,Redis直接安装为Windows服务。如果希望更改设置,需要更改redis.window-service.conf文件并重启Redis服务。 [更多...]
将Windows下的 InfluxDB 做成Windows服务 19 一月 2020 08:34 dean (0) 从网上下载的Windows下的InfluxDB、Grafana,都是控制台程序,打开窗口后,很容易被别人给关掉,因此考虑做成Windows服务,nssm正是解决该问题的利器。 [更多...]
Scrapy 下载图片和文件 18 一月 2020 01:20 dean Python, Scrapy (0) Scrapy内置了FilesPipeline和ImagesPipeline,使用它可以简化载图片、文件的下载过程。我们只需要对爬虫做简单调整,即可实现,甚于还可以在下载图片的同时生成所需要的缩略图,如果对默认生成的文件名不注意,还可以自定义Pipeline重新定义。本篇记录这些需求的开发过程。 [更多...]
使用 Scrapy Pipeline将数据保存到JSON文件 17 一月 2020 11:00 dean Python, Scrapy (0) 使用Scrapy中,提供了Pipeline技术,实现数据提取和保存的分离。使用Pipeline管道可以让代码结构再清晰,可读性更高。本篇演练Pipeline管道的开发过程,记录如果有多个管道时,如何协调管道的执行。 [更多...]
Hadoop Shell命令 15 一月 2020 10:39 dean Hadoop (0) 本篇记录HDFS日常运维中常用的命令。演练了包含查看文件、创建文件夹、上传文件、下载文件和统计目录各文件大小、删除文件和目录等相操作。 [更多...]
Selenium 无界面模式 14 一月 2020 07:19 dean Python (0) 使用Selenium请求网页的时候,默认会打开浏览器,你可以看到浏览器自动弹出和关闭,如果希望Selenium不显示浏览器界面时,可以参照这里的方式,使用无界面模式。 [更多...]
如何判断 Selenium 是否加载完成 14 一月 2020 06:58 dean Python (0) Selenium是通过浏览器驱动驱动浏览器加载网页,模拟正常的网页浏览,由于网页的加载过程会比较复杂,如何判断Selenium是否已加载完成,就会变得复杂,这里记录了三种判断网页加载完成的方式,需要按需要使用。 [更多...]
Selenium 的安装 14 一月 2020 06:24 dean Python (0) Selenium是一个自动化测试工具,它支持各种浏览器,包括Chrome、FireFox、IE、Edge等。它可以模拟操作浏览器,对一些需要动态加载的页面,不需要我们执行JavaScrip等操作,即可自动加载完成后的页面。在这里记录Selenium的安装过程。 [更多...]
安装 Hadoop 伪分布式环境 13 一月 2020 11:12 dean Hadoop (0) 本篇记录如何在CentOS 7中配置Hadoop伪分布式环境的过程。记录Hadoop进程的启停,向HDFS上传文件,运行Hadoop自带的wordcount测试案例。 [更多...]
使用Scrapy Shell命令测试提取数据 13 一月 2020 08:45 dean Scrapy, 爬虫 (0) 在开发爬虫的时候,从网页上提取数据是一件非常重要的、琐碎的、容易出错的事情。如果都是通过运行爬虫来测试,这个未免太过麻烦。幸好Scrapy早已针对这个问题提供了专门的Shell命令,熟练使用Shell命令,可以起来事半功倍的效果。 [更多...]
使用 Scrapy 爬取博客园列表 11 一月 2020 06:38 dean Python, Scrapy, 爬虫 (0) 本篇使用博客园首页推荐的博文列表,作为介绍Scrapy爬行提取数据的练习。主要讲解了一般爬虫开发的过程,了解数据提取的常用方法。 [更多...]
Scrapy 默认爬虫模板 08 一月 2020 09:12 dean Python, Scrapy, 爬虫 (0) 使用Scrapy创建爬虫的时候,可以使用genspider命令快速创建,genspider命令提供了四个模板,每个模板针对的用途都有侧重点和对适用的场景做了优化。 [更多...]
基于度娘接口判断指定日期是否为工作日 07 一月 2020 10:43 dean (0) 在有些场景需要判断指定的日期是否为工作日,例如,在做数据运维时,有些任务必须是每工作日运行的,这就需要检查当前日期是否为工作日了。判断是否为工作日,不能简单的判断是否是周一至周五或是不是周末,还需要依据国家的法定假日安排。 [更多...]
资源共享 - 中图法 06 一月 2020 11:17 dean (0) 《中国图书馆分类法》(原称《中国图书馆图书分类法》)是我国建国后编制出版的一部具有代表性的大型综合性分类法,是当今国内图书馆使用最广泛的分类法体系,简称《中图法》。 [更多...]