es - 技术圈

# -*- coding: utf-8 -*-

import scrapy
from urllib import parse as urlparse
from scrapyDemo.ImoocCourseItem import ImoocCourseItem

# 慕课网爬取
class ImoocSpider(scrapy.Spider):
    # spider的名字定义了Scrapy如何定位(并初始化)spider，所以其必须是唯一的
    name = "imooc"

    # URL列表
    start_urls = ['http://www.imooc.com/course/list']
    #  域名不在列表中的URL不会被爬取。
    allowed_domains = ['www.imooc.com']

    def parse(self, response):
        learn_nodes = response.css('a.course-card')

        item = ImoocCourseItem()
        # 遍历该页上所有课程列表
        for learn_node in learn_nodes:
            course_url = learn_node.css("::attr(href)").extract_first()
            # 拼接课程详情页地址
            course_url = urlparse.urljoin(response.url, course_url)
            # 课程地址
            item['course_url'] = course_url
            # 课程图片
            item['image'] = learn_node.css(
                "img.course-banner::attr(src)").extract_first()
            # 进入课程详情页面
            yield scrapy.Request(
                url=course_url, callback=self.parse_learn, meta=item)

        # 下一页地址
        next_page_url = response.css(
            u'div.page a:contains("下一页")::attr(href)').extract_first()
        if next_page_url:
            yield scrapy.Request(
                url=urlparse.urljoin(response.url, next_page_url),
                callback=self.parse)

    def parse_learn(self, response):
        item = response.meta
        # 课程标题
        item['title'] = response.xpath(
            '//h2[@class="l"]/text()').extract_first()
        # 课程简介
        item['brief'] = response.xpath(
            '//div[@class="course-brief"]/p/text()').extract_first()
        yield item

python 2017年10月25日 1598

PHP时间转换今天昨天前天几天前

经常在朋友圈，QQ空间、微博上看到动态的发布时间、评论时间，都显示，昨天，前天，几天前，比起直接显示几月几日几分几秒要优雅的多。

于是自己的项目也想采用这种优雅直观的方式，网上找了各种计算相差几天的的例子，都是直接将时间戳相见除以86400，比如现在是17:08，动态更新的时间为前天22:00，这种方式计算的相差天数为1，而不是两天前。

PHP 2017年10月21日 40618

快速上手——我用scrapy写爬虫（一）

用python写爬虫的人很多，python的爬虫框架也很多，诸如pyspider 和 scrapy，笔者还是笔记倾向于scrapy，本文就用python写一个小爬虫demo。

本文适用于有一定python基础的，并且对爬虫有一定了解的开发者。

检查环境，python的版本为3.6.2，pip为9.0.1

F:\techlee\python>python --version
Python 3.6.2

F:\techlee\python>pip --version
pip 9.0.1 from d:\program files\python\python36-32\lib\site-packages (python 3.6)

python 2017年10月17日 1181

Redis 多数据库

Laravel从现有数据库逆向生成数据库迁移文件，包括索引和外键！

让Redis以服务方式运行并开机启动

Centos添加supervisor为服务，启动/关闭，设置开机启动服务

Supervisor，进程管理利器。让程序后台运行！

Redis，你好！

Centos下Redis的安装与配置

scrapy爬取慕课网全部免费课程——我用scrapy写爬虫（三）

Laravel中利用Scout集成Elasticsearch搜索引擎

Elasticsearch在Centos 7上的安装与配置

Laravel 全文检索 Scout集成Algolia

Laravel数据库迁移和填充（支持中文）

保存数据到MySql数据库——我用scrapy写爬虫（二）

PHP时间转换今天昨天前天几天前

快速上手——我用scrapy写爬虫（一）

标签

排行

解决方案

网站建设

系统开发

技术支撑

业务中台

文案策划

新媒体运营