登录  | 加入社区

黑狼游客您好!登录后享受更多精彩

只需一步,快速开始

新浪微博登陆

只需一步, 快速开始

查看: 956|回复: 0

起薪2万的爬虫工程师,​Python​必要学到什么水平才可以就业? ...

[复制链接]

428

主题

17

帖子

0

现金

黑狼菜鸟

Rank: 1

积分
0
发表于 2018-10-4 06:04:23 | 显示全部楼层 |阅读模式 来自 江苏徐州
做爬虫工程师的的薪资为20K起,固然,由于大数据,薪资也将一起上扬。那么,Python必要学到什么水平呢?本日我们来看看3位先辈的答复。
A5lLFfWzaNTJkaMq.jpg
1、前段时间将近结业,而我又不想找本身的老本行Java开辟了,以是面了许多Python爬虫岗位。
由于我在南京上学,以是我一开始只是在南京投了简历,我一共口试了十几家企业,此中只有一家没有给我发offer,其他企业都乐意给到10K的薪资,不要拿南京的薪资程度和北上深的薪资程度比力,联合口试常问的题目范例说一说我的心得领会。
第一点:Python
由于口试的是Python爬虫岗位,口试官大多数会观察口试者的底子的Python知识,包罗但不限于:

  • Python2.x与Python3.x的区别
  • Python的装饰器
  • Python的异步
  • Python的一些常用内置库,好比多线程之类的
第二点:数据布局与算法
数据布局与算法是对口试者尤其是校招生口试的一个很紧张的点,固然小公司不会太在意这些,从现在的雇用环境来看对口试者的数据布局与算法的器重水平与企业的优劣成正比,那些从不问你数据布局的你就要当心他们是否把你当码农用的,固然以上环境不绝对,终极表明权归口试官全部。
第三点:Python爬虫
最紧张也是最关键的一点固然是你的Python爬虫相干的知识与履历储备,这通常也是口试官观察的重点,包罗但不限于:

  • 你碰到过的反爬虫的计谋有哪些?
  • 你常用的反反爬虫的方案有哪些?
  • 你用过多线程和异步吗?除此之外你还用过什么方法来进步爬虫服从?
  • 有没有做过增量式抓取?
  • 对Python爬虫框架是否有相识?
第四点:爬虫相干的项目履历
爬虫重在实践,除了理论知识之外,口试官也会非常注意爬虫相干的项目:

  • 你做过哪些爬虫项目?假如有Github最好
  • 你以为你做的最好的爬虫项目是哪个?此中办理了什么困难?有什么特殊之处?
以上是我在口试过程中,会遇到的一些技能相干的题目的总结,固然口试中不但是技能这一点,但是对于做技能的,过了技能面根本上就是薪资题目了。
大概有人问我如今在哪家公司做爬虫开辟?很歉仄,终极我放弃了南京的全部时机到了上海做我更喜好的岗位:数据工程师
2、给你一点我的面经吧。
低级的:
网络底子:cookie,session,https,headers常用的字段,署理利用等等
python底子:这个网上搜到的面经都得会,加上异步,多历程,多线程等等
爬虫:xpath,requests怎样处置惩罚https,常见的反爬步伐,举例说一个最难的爬虫过程,scrapy利用中的细节,比方署理,cookie,传参等等。
数据库:数据库操纵,并表之类的。
中级:
网络:几层网络层的细节,好比说说udp/tcp/smtp区别,说说10.x.x.x/127.x.x.x/192.x.x.x的区别,说说DNS,谈谈路由互换机的区别
python:多重继续,多态,单例用装饰器的实现,数组/天生器/列表剖析服从等等稍深入的细节
爬虫:分布式爬虫的实现,给你一个使命你立刻给出一个公道的架构,验证码的处置惩罚,增量数据爬取,写爬虫时有没写些辅助工具。
数据库:sql nosql的细节,性能上的。
加分项:数据发掘,呆板学习,天然语言处置惩罚,能写网站,纯熟操纵linux,github小星星
zxM1Zxc7PCPxEX6P.jpg
各人对于学习python有任何题目(学习方法,学习服从,怎样就业),可以随时来咨询我,这是我的公众号:python教程(教程/解答/交换群/学习方法/就业信息)都有分享的
3、起首说说Python吧
爬虫给人的感觉就是对于Python编程的知识要求并不高,确实,搞懂根本数据布局、语句,会写写函数似乎就OK了。
本身业余玩玩爬点数据还OK,但是你是要找工作乐成爬虫工程师的,踏实的编程底子可不是会写函数就够了的。Python的高级特性、面向对象编程、多线程、装饰器等等你至少必要相识一下吧。
如今许多爬虫工程师的口试,编程的根本功要求照旧很高的。编程的功底,以及对语言的明白,从某种水平上可以看出你的学习本领、发展潜力。
爬虫技能
HTTP必须要有很深刻的明白,这是你纵横网络的立品之本;
BeautifulSoup、xpath这些都是底子操纵了,肯定要做到非常纯熟;
Scrapy框架要会用,要能信手捏来写个分布式爬虫;
Webdriver、Selenium、PhantomJS至少也要会利用吧;
反爬虫的本领,重中之重,能不能搞返来数据,能高多少数据返来,很大水平依靠于此。抓包、cookie分析、署理池搭建、字体加密、验证码处置惩罚等等,也都是通例操纵了;
固然数据库也少不了啊。一样平常企业要求至少会一种SQL和一种noSQL。
相识布隆过滤器,会增量爬取。
加分项:
把握Python web相干的一些东西,可以或许举行后端开辟;
把握数据分析大概数据发掘的技能,可以或许搞个算法模子,做个分析和猜测。
本日就聊到这里啦,各人记得点赞收藏,分享转发,关注哟!
XifIclW6911spWFI.jpg




上一篇:Python 底子教程:小白怎样处置惩罚非常?
下一篇:Python底子教程(第三版)6.3 自界说函数
您需要登录后才可以回帖 登录 | 加入社区

本版积分规则

 

QQ|申请友链|小黑屋|手机版|Hlshell Inc. ( 豫ICP备16002110号-5 )

GMT+8, 2024-3-29 19:06 , Processed in 0.191434 second(s), 47 queries .

HLShell有权修改版权声明内容,如有任何爭議,HLShell將保留最終決定權!

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表