术业有专攻,闻道有先后。班门弄斧,请指教。
编程语言五花八门,在历史的洪流中,不断有新的编程语言、新的工具诞生。有的老牌语言依然是中流砥柱,有的新生代语言突飞猛进,后生可畏。
一个编程语言要想发展起来,包管理工具必不可少,包的数量与质量,决定着编程语言的周边生态的好坏。
术业有专攻,闻道有先后。班门弄斧,请指教。
编程语言五花八门,在历史的洪流中,不断有新的编程语言、新的工具诞生。有的老牌语言依然是中流砥柱,有的新生代语言突飞猛进,后生可畏。
一个编程语言要想发展起来,包管理工具必不可少,包的数量与质量,决定着编程语言的周边生态的好坏。
前几篇文章,我们对慕课网的课程进行了爬取,本文就对数据进行统计和可视化,让这些数据更直观的展现出来。
Flask 是基于Python的非常流行的框架之一,主要用于web开发,适合开发中小型项目,易于扩展。Flask的官方网站是 http://flask.pocoo.org/ 。
virtualenv 是创建独立Python环境的工具。
我们在同时开发多个应用的时候,老项目使用的是python2,新项目要求使用python3,或者有的项目使用python2.5,有的使用python2.6,那么如何让每个项目都在一个“隔离”的环境运行呢?
virtualenv
( https://virtualenv.pypa.io/en/stable/ ), 可以解决你的问题。
使用pip安装virtualenv
前两篇文章中,简单用scrapy写了一个小demo,本篇文章主要目标是完整用scrapy爬取,慕课网所有免费的课程、标题、图片、地址、学习人数、难度、方向、分类、时长、评分、评论数等。
其实,很简单,在上一次的代码中修改调整一下就好。
centos6.8中默认自带的python版本为python2.6,那么这里需要将其改为python3
官方下载地址为 https://www.python.org/downloads/ ,这里已3.6.3为例。
# 下载
wget https://www.python.org/ftp/python/3.6.3/Python-3.6.3.tgz
# 解压
tar -zxvf Python-3.6.3.tgz
cd Python-3.6.3
[root@localhost ~]# ./configure prefix=/usr/local/python3 --enable-optimizations
[root@localhost ~]# make && make install
上一篇(https://www.tech1024.cn/original/2951.html )说了如何创建项目,并爬去网站内容,下面我们说一下如何保存爬去到的数据
创建Spider,上一篇我们已经创建了ImoocSpider,我们做一下修改,可以连续下一页爬取。
scrapyDemo/spiders目录下的ImoocSpider类:
用python写爬虫的人很多,python的爬虫框架也很多,诸如pyspider 和 scrapy,笔者还是笔记倾向于scrapy,本文就用python写一个小爬虫demo。
本文适用于有一定python基础的,并且对爬虫有一定了解的开发者。
检查环境,python的版本为3.6.2,pip为9.0.1
专业企业官网建设,塑造企业形象,传递企业价值
系统软件开发,用心思考,用心设计,用心体验
打破技术瓶颈,让不堪重负的项目起死回生
构建全渠道一体化运营能力,实现全链路数字化
文案撰写、营销策划,专注品牌全案
一站式解决企业互联网营销痛点和难题
以技术的力量,改变互联网
联系我们