前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >云上部署Python3爬虫--以腾讯云+Ubuntu为例

云上部署Python3爬虫--以腾讯云+Ubuntu为例

作者头像
benny
发布2018-07-26 14:47:51
1.5K0
发布2018-07-26 14:47:51
举报

阅读文本大概需要 2 分钟。

提示


以鄙人在GitHub上的辣鸡代码为例, 其他Scrapy的项目操作类似, 本文同样适用于不使用云服务器的情形(排除掉前期准备部分即可).

前期准备


(也可以到腾讯云开发者实验室体验)

1. 购买云服务器

选择一家云服务厂商, 购买云服务器, 目前国内主流服务均有提供学生版

如果第一次购买, 可以戳这个链接

/redirect.php?redirect=1010&cps_key=e042d9552c4c0be2cd377436ca42ee62

2. 下载Xshell, 使用ssh连接服务器

Xshell学生和家用是免费的, 下载地址http://www.netsarang.com/download/free_license.html

下载安装完成后,使用系统分配的公网IP, 系统用户名和对应密码连接服务器.

在Github上克隆代码


git clone https://github.com/FesonX/JobCrawler.git

安装相关依赖


1. 安装Python3

项目使用Python3.6, 可以使用以下连接安装, 将文中的3.5改为3.6即可.

ubuntu14.04安装python3.5并且将其设置为python3默认启动

(https://blog.csdn.net/fireflychh/article/details/78195778)

2. 使用virtualenv(也可以使用Anaconda或Pycharm管理)

Virtualenv允许多版本Python同时在电脑上共存, 安装完Python3及pip后 终端键入

# 安装
pip3 install virtualenv
# 创建虚拟环境
virtualenv spider-env
# 激活虚拟环境
source spider-env/bin/activate
# 退出
deactivate
3. 安装库依赖

因为Scrapy依赖Python.h,在安装库依赖前在终端键入

sudo apt-get install libpython3.6-dev

然后安装依赖, 如果失败, 请逐条尝试

# 在JobCrawler/JobCrawler目录下
pip install -r requirements.txt
4. 安装MongoDB

参照以下连接安装 MongoDB Community Edition

(https://docs.mongodb.com/manual/administration/install-community/)

运行爬虫


终端cd到项目根目录, 键入

# -o job.csv为可选参数, 加入则输出到指定文件中
scrapy crawl jobCrawler -o job.csv

扩展: 使爬虫开机运行


使爬虫在系统开机时自动运行, 对于许多系统来说,最简单 (如果不是最好的)的方式是使用rc.local文件 具体实现方式就交由你自己用搜索引擎探索啦


欢迎点击查看原文关注我的腾讯云社区账号

入门小白, 欢迎大家指出错误, 技术交流

今日作者: 光光同学_

不爱看电影的摄影师不是好的程序员

本文参与?腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-06-07,如有侵权请联系?cloudcommunity@tencent.com 删除

本文分享自 程序员的碎碎念 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体分享计划? ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 提示
  • 前期准备
  • (也可以到腾讯云开发者实验室体验)
    • 1. 购买云服务器
      • 2. 下载Xshell, 使用ssh连接服务器
      • 在Github上克隆代码
      • 安装相关依赖
        • 1. 安装Python3
          • 2. 使用virtualenv(也可以使用Anaconda或Pycharm管理)
            • 3. 安装库依赖
              • 4. 安装MongoDB
              • 运行爬虫
              • 扩展: 使爬虫开机运行
              相关产品与服务
              云数据库 MongoDB
              腾讯云数据库 MongoDB(TencentDB for MongoDB)是腾讯云基于全球广受欢迎的 MongoDB 打造的高性能 NoSQL 数据库,100%完全兼容 MongoDB 协议,支持跨文档事务,提供稳定丰富的监控管理,弹性可扩展、自动容灾,适用于文档型数据库场景,您无需自建灾备体系及控制管理系统。
              领券
              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档

              http://www.vxiaotou.com