登录  | 加入社区

黑狼游客您好!登录后享受更多精彩

只需一步,快速开始

新浪微博登陆

只需一步, 快速开始

查看: 697|回复: 0

微信公众号文章防删除

[复制链接]

179

主题

179

帖子

0

现金

黑狼菜鸟

Rank: 1

积分
0
发表于 2019-2-3 21:13:16 | 显示全部楼层 |阅读模式 来自 江苏徐州
阅读本文大概必要 3.6 分钟。


前段时间《一个身世寒门的状元之死》刷屏了,当我看完了这篇文章,很有感触,一开始我以为是究竟,厥后才发现完满是假造,对于我来讲并不黑白常在乎文章中的故事是否是真实的,我在乎文章给我的那种生存体验。

文中谁人身世寒门的状元,不为长处而捐躯本身的原则,也就是不做恶:好比在做家教时,有钱人家的门生让他把寒假作业的答案发给他们,如许他就可以得到丰厚的报酬,然而他果断不做,还为此挨了打。文中有许多如许的事变。
谁人身世寒门的状元对峙不做恶,这也让他到处碰钉子,末了,竟抱病死了,不管怎么说,如许一身正气,布满正能量的人却死了,四周那些随处谄媚,逢场作戏的人却活的好好的,不得不说如许的了局让许多人感到痛惜。我想这也是此文章有许多阅读量的缘故原由。作者的写作伎俩非常高超:要引发人们的倾慕,就捧到天上,要赚取眼泪,就踩到泥里。人造的落差感,到底照旧缺了点生存。
但是如今想看这篇文章时,已经无法访问了。

QnXR6Z8x51B8rjD0.jpg 当我看到这个时很震动,心想这么好的阅读体验的文章就这么没了,在网上搜刮了很久都搜刮不到。内心一阵堵。
唉,怎样防止喜好的公众号文章被删除呢? 那就是当天就把该文章生存起来,偶然间再转头逐步玩味。如今每个人都很忙,而且关注的公众号也多,有没有步伐来帮我做这件事呢?
还真有,我搜刮了一下,发现如许一个好的开源项目:wechat-spider
界面预览

1) 要爬取的微信公众号列表
b8voSXo9VU5O1555.jpg 2) 要爬取的文章关键字列表
Byht7RvD0vOqE28H.jpg 3) 已经爬取的微信文章
Pyzj9Qbj77Jtj17t.jpg 4) 检察文章,并标志是否可用
VQ44umJiMU2icafa.jpg 5) 控制爬取历程数
poFqQfyDb3c0A2mo.jpg 技能栈

python + django + redis + mysql
安装

1)python情况, 查抄python的版本,是否为2.7.x,假如不是,安装2.7.6。
假如是centos 6.x,升级python2.6到python2.7,参考教程 http://ruiaylin.github.io/2014/12/12/python%20update/
假如是centos 7.x,默认就是python2.7,不消升级
假如是mac osx,可以利用virtualenv,安装python2.7
2)安装依靠包, clone代码
安装Mysql-python依靠

yum install python-devel mysql-devel gcc

安装lxml依靠
yum install libxslt-devel libxml2-devel

安装欣赏器情况 selenium依靠.(假如是mac情况,仅需安装firefox, 但确保版本是 firefox 36.0,利用最新的版本会报错)
yum install xorg-x11-server-Xvfb
yum upgrade glib2 # 确保glib2版本大于2.42.2,否则firefox启动会报错 
yum install firefox # centos下安装最新的firefox版本

clone代码,安装依靠python库
$ git clone http://github.com/bowenpay/wechat-spider.git
$ cd wechat-spider
$ pip install -r requirements.txt

3) 创建mysql数据库
创建数据库wechatspider,默认接纳utf8编码。(假如体系支持,可以接纳utf8mb4,以兼容emoji字符)
mysql> CREATE DATABASE `wechatspider` CHARACTER SET utf8;

4) 安装和运行Redis
$ wget http://download.redis.io/releases/redis-2.8.3.tar.gz
$ tar xzvf redis-2.8.3.tar.gz
$ cd redis-2.8.3
$ make
$ make install
$ redis-server

5) 更新设置文件local_settings
在 wechatspider 目次下,添加 local_settings.py 文件,设置如下:
# -*- coding: utf-8 -*-

SECRET_KEY="xxxxxx"

CRAWLER_DEBUG = True

# aliyun oss2, 可以将图片和视频存储到阿里云,也可以选择不存储,爬取速率会更快。 默认不存储。
#OSS2_ENABLE = True
#OSS2_CONFIG = {
#    "ACCESS_KEY_ID": "XXXXXXXXXXXXXX",
#    "ACCESS_KEY_SECRET": "YYYYYYYYYYYYYYYYYYYYYY",
#    "ENDPOINT": "",
#    "BUCKET_DOMAIN": "oss-cn-hangzhou.aliyuncs.com",
#    "BUCKET_NAME": "XXXXX",
#    "IMAGES_PATH": "images/",
#    "VIDEOS_PATH": "videos/",
#    "CDN_DOMAIN": "XXXXXX.oss-cn-hangzhou.aliyuncs.com"
#}
# mysql 数据库设置
DATABASES = {
    'default': {
        'ENGINE''django.db.backends.mysql',
        'HOST''127.0.0.1',
        'NAME''wechatspider',
        'USER''root',
        'PASSWORD''',
        'OPTIONS':{
            'charset''utf8mb4',
        },
    }
}
# redis设置,用于消息队列和k-v存储
REDIS_OPTIONS = {
    'host''localhost',
    'port'6379,
    'password''',
    'db'4
}

6) 初始化表
$ python manage.py migrate

7)启动网站
python manage.py runserver 0.0.0.0:8001

访问 http://localhost:8001/。
6) 创建超等管理员账号,访问背景,并设置要爬取的公众号和关键字
python manage.py createsuperuser

8)启动爬虫
$ python bin/scheduler.py
$ python bin/downloader.py
$ python bin/extractor.py
$ python bin/processor.py

以上步调实行乐成,并能爬取文章后,可以思量利用 uwsgi + nginx 在生产情况摆设。
项目 github 地点: http://github.com/bowenpay/wechat-spider
(完)
rTDfNJ4DJtwwSsjS.jpg




上一篇:设置vsftpd的碰到的坑及搭建假造账户
下一篇:LAMP之安装PHP
您需要登录后才可以回帖 登录 | 加入社区

本版积分规则

 

QQ|申请友链|小黑屋|手机版|Hlshell Inc. ( 豫ICP备16002110号-5 )

GMT+8, 2024-5-5 01:28 , Processed in 0.137592 second(s), 47 queries .

HLShell有权修改版权声明内容,如有任何爭議,HLShell將保留最終決定權!

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表