技术圈开发者交流群:

利用Flask和ECharts进行数据可视化——我用scrapy写爬虫(四)

前几篇文章,我们对慕课网的课程进行了爬取,本文就对数据进行统计和可视化,让这些数据更直观的展现出来。

Flask 是基于Python的非常流行的框架之一,主要用于web开发,适合开发中小型项目,易于扩展。Flask的官方网站是 http://flask.pocoo.org/

Echartshttp://echarts.baidu.com/ )是百度出品的,基于Canvas的,纯Javascript 的图表库,提供直观,生动,可交互,可个性化定制的数据可视化图表。创新的拖拽重计算、数据视图、值域漫游等特性大大增强了用户体验,赋予了用户对数据进行挖掘、整合的能力。

python 2018年03月12日 66979

Virtualenv,Python虚拟环境,多版本共存

virtualenv 是创建独立Python环境的工具。

我们在同时开发多个应用的时候,老项目使用的是python2,新项目要求使用python3,或者有的项目使用python2.5,有的使用python2.6,那么如何让每个项目都在一个“隔离”的环境运行呢?

virtualenvhttps://virtualenv.pypa.io/en/stable/ ), 可以解决你的问题。

使用pip安装virtualenv

python 2018年02月23日 57271

scrapy爬取慕课网全部免费课程——我用scrapy写爬虫(三)

前两篇文章中,简单用scrapy写了一个小demo,本篇文章主要目标是完整用scrapy爬取,慕课网所有免费的课程、标题、图片、地址、学习人数、难度、方向、分类、时长、评分、评论数等。

其实,很简单,在上一次的代码中修改调整一下就好。

python 2017年11月29日 64841

Centos下安装Python3.6和Python2共存

centos6.8中默认自带的python版本为python2.6,那么这里需要将其改为python3

官方下载地址为 https://www.python.org/downloads/ ,这里已3.6.3为例。

# 下载
 wget https://www.python.org/ftp/python/3.6.3/Python-3.6.3.tgz
# 解压
tar -zxvf Python-3.6.3.tgz

cd Python-3.6.3
[root@localhost ~]# ./configure prefix=/usr/local/python3  --enable-optimizations

[root@localhost ~]# make && make install 
python 2017年11月23日 67812

保存数据到MySql数据库——我用scrapy写爬虫(二)

上一篇(https://www.tech1024.cn/original/2951.html )说了如何创建项目,并爬去网站内容,下面我们说一下如何保存爬去到的数据

创建Spider,上一篇我们已经创建了ImoocSpider,我们做一下修改,可以连续下一页爬取。 scrapyDemo/spiders目录下的ImoocSpider类:

# -*- coding: utf-8 -*-

import scrapy
from urllib import parse as urlparse
from scrapyDemo.ImoocCourseItem import ImoocCourseItem

# 慕课网爬取
class ImoocSpider(scrapy.Spider):
    # spider的名字定义了Scrapy如何定位(并初始化)spider,所以其必须是唯一的
    name = "imooc"

    # URL列表
    start_urls = ['http://www.imooc.com/course/list']
    #  域名不在列表中的URL不会被爬取。
    allowed_domains = ['www.imooc.com']

    def parse(self, response):
        learn_nodes = response.css('a.course-card')

        item = ImoocCourseItem()
        # 遍历该页上所有课程列表
        for learn_node in learn_nodes:
            course_url = learn_node.css("::attr(href)").extract_first()
            # 拼接课程详情页地址
            course_url = urlparse.urljoin(response.url, course_url)
            # 课程地址
            item['course_url'] = course_url
            # 课程图片
            item['image'] = learn_node.css(
                "img.course-banner::attr(src)").extract_first()
            # 进入课程详情页面
            yield scrapy.Request(
                url=course_url, callback=self.parse_learn, meta=item)

        # 下一页地址
        next_page_url = response.css(
            u'div.page a:contains("下一页")::attr(href)').extract_first()
        if next_page_url:
            yield scrapy.Request(
                url=urlparse.urljoin(response.url, next_page_url),
                callback=self.parse)

    def parse_learn(self, response):
        item = response.meta
        # 课程标题
        item['title'] = response.xpath(
            '//h2[@class="l"]/text()').extract_first()
        # 课程简介
        item['brief'] = response.xpath(
            '//div[@class="course-brief"]/p/text()').extract_first()
        yield item

这里用到了scrapyDemo目录下ImoocCourseItem类,下面我就说一下。

python 2017年10月25日 414845

快速上手——我用scrapy写爬虫(一)

用python写爬虫的人很多,python的爬虫框架也很多,诸如pyspider 和 scrapy,笔者还是笔记倾向于scrapy,本文就用python写一个小爬虫demo。 本文适用于有一定python基础的,并且对爬虫有一定了解的开发者。

检查环境,python的版本为3.6.2,pip为9.0.1

python 2017年10月17日 428135

排行

解决方案

网站建设

专业企业官网建设,塑造企业形象,传递企业价值

系统开发

系统软件开发,用心思考,用心设计,用心体验

技术支撑

打破技术瓶颈,让不堪重负的项目起死回生

业务中台

构建全渠道一体化运营能力,实现全链路数字化

文案策划

文案撰写、营销策划,专注品牌全案

新媒体运营

一站式解决企业互联网营销痛点和难题

以技术的力量,改变互联网

联系我们
鄂ICP备19028750号-1 @copyright 2023 tech1024.com