熟悉关系型数据库的同学都知道关系数据库有数据库、表的概念,正如我们的mysql,需要先创建数据库,然后创建表,那么redis有没有数据库呢?
答案当然是有的。
熟悉关系型数据库的同学都知道关系数据库有数据库、表的概念,正如我们的mysql,需要先创建数据库,然后创建表,那么redis有没有数据库呢?
答案当然是有的。
熟悉laravel的同学都知道,laravel的数据迁移和数据填充,能够随着源代码的改变而同步记录同步数据库结构的变化,也就是对数据库的版本控制。
但是,有的项目开发之初,数据库结构的变化会比较频繁,每个都手动创建migrate文件的,工作量会比较大,或者老项目已有数据库,如果手动为所有的已存在的表去创建迁移文件的会非常耗时,还容易出错。
如果你还没有安装Redis,请先参考 Centos下Redis的安装与配置 。
首先我们切换到解压后的Redis目录
cd redis-4.0.6
然后将utils/redis_init_script文件复制到/etc/init.d下命名为redisd
关于Supervisor的安装与配置,请参考 Supervisor,进程管理利器。 让程序后台运行! 。
Supervisor设置开机启动有很多,这里以Centos为例,仅供参考!
根据不同的系统,有不同的脚本,参考 https://github.com/Supervisor/initscripts
Linux下如何让程序后台运行?
关掉终端继续让程序运行的方法?
Linux ssh状态下如何后台运行程序?
……
Redis,是个什么呢?
应一个朋友的邀请,接下来笔者将陆续推出Redis系列学习笔记,顺便巩固一下自己的redis知识。我相信,熟悉nosql的童鞋对Redis一定不陌生,也许你的项目中正在使用它,比如缓存、消息队列等。
Redis官网(https://redis.io )是这样介绍的:
Redis 没有官方的Windows版本,微软开源技术团队(Microsoft Open Tech group)开发和维护着 Win64 的版本,但并不建议用于生产环境。
这里主要介绍Centos下安装Redis,以及配置redis,后台运行以及自动启动等。
官方下载地址为:https://redis.io/download
前两篇文章中,简单用scrapy写了一个小demo,本篇文章主要目标是完整用scrapy爬取,慕课网所有免费的课程、标题、图片、地址、学习人数、难度、方向、分类、时长、评分、评论数等。
其实,很简单,在上一次的代码中修改调整一下就好。
Elasticsearch(以下简称es)是一个实时的分布式搜索和分析引擎。
在搜索引擎方面,不仅仅有Elasticsearch,像另一篇提到的Algolia,还有sphinx、Solr等等,这里不做评价和比较,本篇主要介绍laravel中如何使用Elasticsearch。
首选必须安装有Elasticsearch,请参考 https://www.tech1024.cn/original/2962.html 。
本文基于laravel5.5,其他版本大同小异。
这里使用yum方式安装,前提是必须有网络
yum install java-1.8.0-openjdk
你是否在检索千百万级数据时为性能和速度而担忧呢,即使优化了sql,创建了数据库索引,还是不尽如人意呢?
下面就主要介绍laravel如何集成Algolia
Algolia是法国初创公司为你提供毫秒级的数据库实时搜索服务,天下武功无坚不摧,唯快不破。记住哦,是毫秒级。
经常我们做项目都团队协作开发,每个人都在自己本地的数据库,如果你曾经出现过让同事手动在数据库结构中添加字段的情况,数据库迁移可以解决你这个问题。
不仅如此,在线上部署的时候,也避免了手动导入数据库或手动修改数据结构的麻烦,数据迁移帮你方便的维护着数据结构。
数据填充,让我们测试的时候需要大量的假数据不再一条一条的去造数据,可以轻松的批量填充大量数据。
本文基于Laravel5.5,其他版本大同小异。
上一篇(https://www.tech1024.cn/original/2951.html )说了如何创建项目,并爬去网站内容,下面我们说一下如何保存爬去到的数据
创建Spider,上一篇我们已经创建了ImoocSpider,我们做一下修改,可以连续下一页爬取。
scrapyDemo/spiders目录下的ImoocSpider类:
# -*- coding: utf-8 -*-
import scrapy
from urllib import parse as urlparse
from scrapyDemo.ImoocCourseItem import ImoocCourseItem
# 慕课网爬取
class ImoocSpider(scrapy.Spider):
# spider的名字定义了Scrapy如何定位(并初始化)spider,所以其必须是唯一的
name = "imooc"
# URL列表
start_urls = ['http://www.imooc.com/course/list']
# 域名不在列表中的URL不会被爬取。
allowed_domains = ['www.imooc.com']
def parse(self, response):
learn_nodes = response.css('a.course-card')
item = ImoocCourseItem()
# 遍历该页上所有课程列表
for learn_node in learn_nodes:
course_url = learn_node.css("::attr(href)").extract_first()
# 拼接课程详情页地址
course_url = urlparse.urljoin(response.url, course_url)
# 课程地址
item['course_url'] = course_url
# 课程图片
item['image'] = learn_node.css(
"img.course-banner::attr(src)").extract_first()
# 进入课程详情页面
yield scrapy.Request(
url=course_url, callback=self.parse_learn, meta=item)
# 下一页地址
next_page_url = response.css(
u'div.page a:contains("下一页")::attr(href)').extract_first()
if next_page_url:
yield scrapy.Request(
url=urlparse.urljoin(response.url, next_page_url),
callback=self.parse)
def parse_learn(self, response):
item = response.meta
# 课程标题
item['title'] = response.xpath(
'//h2[@class="l"]/text()').extract_first()
# 课程简介
item['brief'] = response.xpath(
'//div[@class="course-brief"]/p/text()').extract_first()
yield item
经常在朋友圈,QQ空间、微博上看到动态的发布时间、评论时间,都显示,昨天,前天,几天前,比起直接显示几月几日几分几秒要优雅的多。
于是自己的项目也想采用这种优雅直观的方式,网上找了各种计算相差几天的的例子,都是直接将时间戳相见除以86400,比如现在是17:08,动态更新的时间为前天22:00,这种方式计算的相差天数为1,而不是两天前。
用python写爬虫的人很多,python的爬虫框架也很多,诸如pyspider 和 scrapy,笔者还是笔记倾向于scrapy,本文就用python写一个小爬虫demo。
本文适用于有一定python基础的,并且对爬虫有一定了解的开发者。
检查环境,python的版本为3.6.2,pip为9.0.1
F:\techlee\python>python --version
Python 3.6.2
F:\techlee\python>pip --version
pip 9.0.1 from d:\program files\python\python36-32\lib\site-packages (python 3.6)
专业企业官网建设,塑造企业形象,传递企业价值
系统软件开发,用心思考,用心设计,用心体验
打破技术瓶颈,让不堪重负的项目起死回生
构建全渠道一体化运营能力,实现全链路数字化
文案撰写、营销策划,专注品牌全案
一站式解决企业互联网营销痛点和难题
以技术的力量,改变互联网
联系我们