技术圈开发者交流群:

风生水起的NoSQL

大约从2010年以来,nosql的发展可谓是风生水起,非关系型、分布式的数据库发展迅猛,开始我们知道甲骨文的Oracle,Mysql,微软的sqlServer,后来我们又知道了mongodb、redis、memcached等,前者是关系型数据库,后者是非关系型数据库(NoSQL)。

NoSQL(NoSQL = Not Only SQL ),意即“不仅仅是SQL”,是 非关系型 数据库,是针对关系型数据库而言的。

  • 键值(Key-Value)存储数据库 ,最典型就是Redis。

  • 列存储数据库,例如apache的HBase,Facebook 用的就是它。

  • 文档型数据库,这个更不用说啦,大名鼎鼎的MongoDb。

  • 图形(Graph)数据库,望文生义吧,就是用图像表示实体与实体的关系

  • 高扩展性

  • 高性能

  • 分布式

  • 灵活的数据模型

  • 低成本

NoSQL在我们实际项目中,哪些地方能用到呢?

数据库 2017年11月30日 76000

scrapy爬取慕课网全部免费课程——我用scrapy写爬虫(三)

前两篇文章中,简单用scrapy写了一个小demo,本篇文章主要目标是完整用scrapy爬取,慕课网所有免费的课程、标题、图片、地址、学习人数、难度、方向、分类、时长、评分、评论数等。

其实,很简单,在上一次的代码中修改调整一下就好。

# -*- coding: utf-8 -*-

import scrapy
import json
from urllib import parse as urlparse
from scrapyDemo.ImoocCourseItem import ImoocCourseItem

# 慕课网爬取
class ImoocSpider(scrapy.Spider):
    # spider的名字定义了Scrapy如何定位(并初始化)spider,所以其必须是唯一的
    name = "imooc"

    # URL列表
    start_urls = ['http://www.imooc.com/course/list']
    #  域名不在列表中的URL不会被爬取。
    allowed_domains = ['www.imooc.com']

    def parse(self, response):
        # 课程类型
        types = response.css('div.course-content .course-nav-row')[2].css(
            '.bd ul li a')
        for key in range(len(types)):
            if key == 0:
                continue
            course_type = types[key].css('::text').extract_first()
            # 类型的url
            type_url = types[key].css('::attr(href)').extract_first()
            # print (item)
            yield scrapy.Request(
                url=urlparse.urljoin(response.url, type_url),
                callback=self.parse_by_type,
                meta={
                    'course_type': course_type
                })

    # 按课程类型爬取
    def parse_by_type(self, response):
        itemBase = response.meta
        item = ImoocCourseItem()
        item['course_type'] = itemBase['course_type']
        # print(item)
        learn_nodes = response.css('a.course-card')
        # 遍历该页上所有课程列表
        for learn_node in learn_nodes:
            course_url = learn_node.css("::attr(href)").extract_first()
            # 拼接课程详情页地址
            course_url = urlparse.urljoin(response.url, course_url)
            # 课程地址
            item['course_url'] = course_url
            # 课程图片
            item['image'] = learn_node.css(
                "img.course-banner::attr(src)").extract_first()
            # 分类
            cate = learn_node.css("div.course-label label::text").extract()
            item['cate'] = ','.join(cate)
            # 进入课程详情页面
            yield scrapy.Request(
                url=course_url, callback=self.parse_learn, meta=item)

        # 下一页地址
        next_page_url = response.css(
            u'div.page a:contains("下一页")::attr(href)').extract_first()
        if next_page_url:
            yield scrapy.Request(
                url=urlparse.urljoin(response.url, next_page_url),
                callback=self.parse_by_type,
                meta={
                    'course_type': item['course_type']
                })

    # 课程详情
    def parse_learn(self, response):
        item = response.meta
        # 课程标题
        item['title'] = response.xpath(
            '//h2[@class="l"]/text()').extract_first()
        # 课程简介
        item['brief'] = response.xpath(
            '//div[@class="course-brief"]/p/text()').extract_first()

        staticItem = response.css(
            'div#main div.statics div.static-item span.meta-value::text'
        ).extract()
        # 难度级别
        item['difficulty_level'] = staticItem[0]
        # 课程时长
        item['duration'] = staticItem[1]
        # 综合评分
        item['overall_rating'] = staticItem[2]
        # 评论数
        item['evaluation_number'] = response.css(
            'a.person-num span.person-num::text').extract_first().replace(
                '人评价', '')
        # 教师id
        item['teacher_id'] = response.css(
            'div.teacher-info a img::attr(data-userid)').extract_first()
        # 学习人数
        ids = response.url.split('/')[-1]
        yield scrapy.Request(
            url=urlparse.urljoin(response.url,
                                 '/course/AjaxCourseMembers?ids=' + ids),
            callback=self.parse_learn_num,
            meta=item)

    # 爬取学习人数
    def parse_learn_num(self, response):
        item = response.meta
        data = json.loads(response.body_as_unicode())
        # 学习人数
        item['learn_num'] = data['data'][0]['numbers']
        # print (item)
        yield item
python 2017年11月29日 64580

Centos下安装Python3.6和Python2共存

centos6.8中默认自带的python版本为python2.6,那么这里需要将其改为python3

官方下载地址为 https://www.python.org/downloads/ ,这里已3.6.3为例。

# 下载
 wget https://www.python.org/ftp/python/3.6.3/Python-3.6.3.tgz
# 解压
tar -zxvf Python-3.6.3.tgz

cd Python-3.6.3
[root@localhost ~]# ./configure prefix=/usr/local/python3  --enable-optimizations

[root@localhost ~]# make && make install 
python 2017年11月23日 67576

Laravel中利用Scout集成Elasticsearch搜索引擎

Elasticsearch(以下简称es)是一个实时的分布式搜索和分析引擎。

在搜索引擎方面,不仅仅有Elasticsearch,像另一篇提到的Algolia,还有sphinx、Solr等等,这里不做评价和比较,本篇主要介绍laravel中如何使用Elasticsearch。

PHP 2017年11月07日 66046

Laravel 全文检索 Scout集成Algolia

你是否在检索千百万级数据时为性能和速度而担忧呢,即使优化了sql,创建了数据库索引,还是不尽如人意呢? 下面就主要介绍laravel如何集成Algolia

Algolia是法国初创公司为你提供毫秒级的数据库实时搜索服务,天下武功无坚不摧,唯快不破。记住哦,是毫秒级。

本文基于laravel5.5,其他版本大同小异。

composer require laravel/scout
composer require algolia/algoliasearch-client-php
PHP 2017年10月29日 68596

Laravel数据库迁移和填充(支持中文)

经常我们做项目都团队协作开发,每个人都在自己本地的数据库,如果你曾经出现过让同事手动在数据库结构中添加字段的情况,数据库迁移可以解决你这个问题。

不仅如此,在线上部署的时候,也避免了手动导入数据库或手动修改数据结构的麻烦,数据迁移帮你方便的维护着数据结构。

数据填充,让我们测试的时候需要大量的假数据不再一条一条的去造数据,可以轻松的批量填充大量数据。

本文基于Laravel5.5,其他版本大同小异。

PHP 2017年10月28日 70297

保存数据到MySql数据库——我用scrapy写爬虫(二)

上一篇(https://www.tech1024.cn/original/2951.html )说了如何创建项目,并爬去网站内容,下面我们说一下如何保存爬去到的数据

创建Spider,上一篇我们已经创建了ImoocSpider,我们做一下修改,可以连续下一页爬取。 scrapyDemo/spiders目录下的ImoocSpider类:

# -*- coding: utf-8 -*-

import scrapy
from urllib import parse as urlparse
from scrapyDemo.ImoocCourseItem import ImoocCourseItem

# 慕课网爬取
class ImoocSpider(scrapy.Spider):
    # spider的名字定义了Scrapy如何定位(并初始化)spider,所以其必须是唯一的
    name = "imooc"

    # URL列表
    start_urls = ['http://www.imooc.com/course/list']
    #  域名不在列表中的URL不会被爬取。
    allowed_domains = ['www.imooc.com']

    def parse(self, response):
        learn_nodes = response.css('a.course-card')

        item = ImoocCourseItem()
        # 遍历该页上所有课程列表
        for learn_node in learn_nodes:
            course_url = learn_node.css("::attr(href)").extract_first()
            # 拼接课程详情页地址
            course_url = urlparse.urljoin(response.url, course_url)
            # 课程地址
            item['course_url'] = course_url
            # 课程图片
            item['image'] = learn_node.css(
                "img.course-banner::attr(src)").extract_first()
            # 进入课程详情页面
            yield scrapy.Request(
                url=course_url, callback=self.parse_learn, meta=item)

        # 下一页地址
        next_page_url = response.css(
            u'div.page a:contains("下一页")::attr(href)').extract_first()
        if next_page_url:
            yield scrapy.Request(
                url=urlparse.urljoin(response.url, next_page_url),
                callback=self.parse)

    def parse_learn(self, response):
        item = response.meta
        # 课程标题
        item['title'] = response.xpath(
            '//h2[@class="l"]/text()').extract_first()
        # 课程简介
        item['brief'] = response.xpath(
            '//div[@class="course-brief"]/p/text()').extract_first()
        yield item
python 2017年10月25日 414472

PHP时间转换今天昨天前天几天前

经常在朋友圈,QQ空间、微博上看到动态的发布时间、评论时间,都显示,昨天,前天,几天前,比起直接显示几月几日几分几秒要优雅的多。

于是自己的项目也想采用这种优雅直观的方式,网上找了各种计算相差几天的的例子,都是直接将时间戳相见除以86400,比如现在是17:08,动态更新的时间为前天22:00,这种方式计算的相差天数为1,而不是两天前。

实际情况应该是,昨天任何时间都算一天前,前天任意时间都算2天前,所以自己琢磨了一番,去动态更新时间与今天23:59:59相差的时间秒数与86400(24 x 3600)相除后,向下取整,这样就得到了相差的天数,比如昨天00:00~昨天23:59:59的任何时间与今天的23:59:59,都相差 86400~(86400 x 2) 天,也就是2天。


/**
 * 获取已经过了多久
 * PHP时间转换
 * 刚刚、几分钟前、几小时前
 * 今天昨天前天几天前
 * @param  string $targetTime 时间戳
 * @return string
 */
function get_last_time($targetTime)
{
    // 今天最大时间
    $todayLast   = strtotime(date('Y-m-d 23:59:59'));
    $agoTimeTrue = time() - $targetTime;
    $agoTime     = $todayLast - $targetTime;
    $agoDay      = floor($agoTime / 86400);

    if ($agoTimeTrue < 60) {
        $result = '刚刚';
    } elseif ($agoTimeTrue < 3600) {
        $result = (ceil($agoTimeTrue / 60)) . '分钟前';
    } elseif ($agoTimeTrue < 3600 * 12) {
        $result = (ceil($agoTimeTrue / 3600)) . '小时前';
    } elseif ($agoDay == 0) {
        $result = '今天 ' . date('H:i', $targetTime);
    } elseif ($agoDay == 1) {
        $result = '昨天 ' . date('H:i', $targetTime);
    } elseif ($agoDay == 2) {
        $result = '前天 ' . date('H:i', $targetTime);
    } elseif ($agoDay > 2 && $agoDay < 16) {
        $result = $agoDay . '天前 ' . date('H:i', $targetTime);
    } else {
        $format = date('Y') != date('Y', $targetTime) ? "Y-m-d H:i" : "m-d H:i";
        $result = date($format, $targetTime);
    }
    return $result;
}
PHP 2017年10月21日 39987

PHP获取汉字首字母并分组排序

经常我们在做项目的时候,会有按首字母排序的需求 比如: 美团的城市选择 http://www.meituan.com/index/changecity/initiative app中按字母搜索 这里写图片描述

网上找了各种,不尽人意,于是,自己就写了一个,分享给大家。

<?php

/**
 * @author Tech
 */
class Character
{
    /**
     * 二维数组根据首字母分组排序
     * @param  array  $data      二维数组
     * @param  string $targetKey 首字母的键名
     * @return array             根据首字母关联的二维数组
     */
    public function groupByInitials(array $data, $targetKey = 'name')
    {
        $data = array_map(function ($item) use ($targetKey) {
            return array_merge($item, [
                'initials' => $this->getInitials($item[$targetKey]),
            ]);
        }, $data);
        $data = $this->sortInitials($data);
        return $data;
    }

    /**
     * 按字母排序
     * @param  array  $data
     * @return array
     */
    public function sortInitials(array $data)
    {
        $sortData = [];
        foreach ($data as $key => $value) {
            $sortData[$value['initials']][] = $value;
        }
        ksort($sortData);
        return $sortData;
    }

    /**
     * 获取首字母
     * @param  string $str 汉字字符串
     * @return string 首字母
     */
    public function getInitials($str)
    {
        if (empty($str)) {return '';}
        $fchar = ord($str{0});
        if ($fchar >= ord('A') && $fchar <= ord('z')) {
            return strtoupper($str{0});
        }

        $s1  = iconv('UTF-8', 'gb2312', $str);
        $s2  = iconv('gb2312', 'UTF-8', $s1);
        $s   = $s2 == $str ? $s1 : $str;
        $asc = ord($s{0}) * 256 + ord($s{1}) - 65536;
        if ($asc >= -20319 && $asc <= -20284) {
            return 'A';
        }

        if ($asc >= -20283 && $asc <= -19776) {
            return 'B';
        }

        if ($asc >= -19775 && $asc <= -19219) {
            return 'C';
        }

        if ($asc >= -19218 && $asc <= -18711) {
            return 'D';
        }

        if ($asc >= -18710 && $asc <= -18527) {
            return 'E';
        }

        if ($asc >= -18526 && $asc <= -18240) {
            return 'F';
        }

        if ($asc >= -18239 && $asc <= -17923) {
            return 'G';
        }

        if ($asc >= -17922 && $asc <= -17418) {
            return 'H';
        }

        if ($asc >= -17417 && $asc <= -16475) {
            return 'J';
        }

        if ($asc >= -16474 && $asc <= -16213) {
            return 'K';
        }

        if ($asc >= -16212 && $asc <= -15641) {
            return 'L';
        }

        if ($asc >= -15640 && $asc <= -15166) {
            return 'M';
        }

        if ($asc >= -15165 && $asc <= -14923) {
            return 'N';
        }

        if ($asc >= -14922 && $asc <= -14915) {
            return 'O';
        }

        if ($asc >= -14914 && $asc <= -14631) {
            return 'P';
        }

        if ($asc >= -14630 && $asc <= -14150) {
            return 'Q';
        }

        if ($asc >= -14149 && $asc <= -14091) {
            return 'R';
        }

        if ($asc >= -14090 && $asc <= -13319) {
            return 'S';
        }

        if ($asc >= -13318 && $asc <= -12839) {
            return 'T';
        }

        if ($asc >= -12838 && $asc <= -12557) {
            return 'W';
        }

        if ($asc >= -12556 && $asc <= -11848) {
            return 'X';
        }

        if ($asc >= -11847 && $asc <= -11056) {
            return 'Y';
        }

        if ($asc >= -11055 && $asc <= -10247) {
            return 'Z';
        }

        return null;
    }

}
PHP 2017年10月18日 37352

排行

解决方案

网站建设

专业企业官网建设,塑造企业形象,传递企业价值

系统开发

系统软件开发,用心思考,用心设计,用心体验

技术支撑

打破技术瓶颈,让不堪重负的项目起死回生

业务中台

构建全渠道一体化运营能力,实现全链路数字化

文案策划

文案撰写、营销策划,专注品牌全案

新媒体运营

一站式解决企业互联网营销痛点和难题

以技术的力量,改变互联网

联系我们
鄂ICP备19028750号 @copyright 2019 tech1024.com