有没有公司需要 Python 爬虫实习的，地址北京， Python 爬虫自学，有一些 Java 基础

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2932 天前的主题，其中的信息可能已经有所发展或是发生改变。

技术描述：
1.熟练掌握 python,具有扎实的基础。有一些 Java 基础
2.熟练掌握网页抓取原理及技术，熟练掌握 xpath,熟悉正则表达式，从结构化的和非结构化的数据中获取信息。
3.熟悉基于 Cookie 的登录原理,熟悉常见的反爬虫策略。
4.熟悉 scrapy 爬虫框架,熟悉 PhantomJS 与 Selenium,了解分布式爬虫架构。
5.熟悉 urllib，urllib2，requests。
6.熟悉 Linux 系统，熟悉 Linux 命令。
7.熟练掌握 Mysql 日常 Query 操作，深刻理解 MySQL 的索引优化，掌握 explain、show
profile 等日常 SQL 诊断和性能分析策略，能快速定位 SQL 语句导致索引失效等关键点，能熟练配置 mysql 主从复制，熟悉 innodb 存储引擎各种特性，包括锁、索引等。
8.熟悉 Redis，熟练掌握 Redis 常用命令、五大数据结构；熟悉 Redis 的持久化方式
RDB 和 AOF、Redis 的事务、主从复制。熟悉 MongoDB。

工作经历：
2017/05 – 至今自学经验
描述：
跟据网上查到的资料和视频，进行数据的爬取，对收集到的数据进行，清洗，分类，工作中主要用到的是 pycharm,使用 re，xpath，beautifulsoup 来进行数据的定位，对定位好的数据进行整理入库，并进行清洗，分类，以拿到我们想要的数据
项目经验：
2017/12-至今关于某直播平台直播间的直播类型和观看人数的统计
开发工具: pycharm、python 2.7
责任描述：在本项目中我既是该项目的策划者也是该项目的执行者，首先，我们需要将我们需要的字段进行抓取出来，比如直播类型、房
间链接、直播间号、观众人数等。然后将爬取到的数据入库，进行数据的清洗，将数据格式变的相对统一，最后通过 charts
制成图表方便对比。
本项目正在进行的是要将这些数据用 Django 框架展示出来，同时要逐渐的修改这个项目使其适用于分布式爬虫以及 redis 的主从复制
项目描述：本项目主要就是爬取各大直播平台正在直播的直播间直播类型和各个类型的观看人数的统计，这么做的目的就是要查看某个时间段内哪个直播类型所占的比例，生成图表，留着以后查看。
1.本项目主用 selenium + PhantomJS + xpath,这个组合最大的缺点就是不能够进行快速的拿取到数据。
2.本项目也进行了去重操作。
3.本项目的数据存储在 MongoDB 数据库中。
4.用 charts 制作图表。
2017/06- 2017/10 爬取某政府市民咨询网站
开发工具: pycharm、python 2.7
责任描述：我在这个项目中根据我所需要拿到的数据进行爬虫项目的设计，主要是对于所要抓取的字段名称的命名(为了易读)，制定爬虫策略，制定反反爬虫策略。
通过这个项目我学到了很多关于 scrapy 框架的用法，学会了如何应对反爬虫策略，简单学习了一下 scrapy-redis 的应用
项目描述：本项目主要是爬取某政府市民的一些民生问题，用于了解市民都关注哪些民生问题，以及正在对哪些问题表示关注
1.此项目是在 Scrapy 爬虫框架的基础上搭建起来，在 items 文件中写入了我们要爬取的字段
2.为了防止大量的请求导致被反爬采用了在中间件中设置了随机的 User-Agent，并且在 settings 中打开了 DOWNLOAD_DELAY 防止速度过快导致被反爬
3.本项目的数据是存储在 MongoDB 数据库中
2017/05 – 至今教育数据采集
开发工具: pycharm、python 2.7
责任描述：本项目是对各大高校学生信息的抓取，使用 urllib，urllib2 来进行源码获取和模拟浏览器，需要用到 re 来进行数据定位并编写正则表达式来获取数据，对获取到的数据进行清洗，去重，入库。
项目描述：本项目主要就是进行各大高校学生信息的抓取实现数据共享优化行政管理，让教育更加个性化，精细化，智能化。
1.首先模拟浏览器 User-Agent 来预防网站反爬引入 urllib， urllib2 及 requests，模块这里面 urllib2 的作用就是实现模拟的功能使我们的项目流程更加快速；
2.使用 requests 来进行网站源码的获取并进行源码转译 utf-8 使我们的结果不会出现乱码错误；
3.获取源码之后需要使用 re 来进行需要内容的定位来编写正
则表达式进行数据的抓取
4.抓取到的数据进行清洗，入库，或存入 Excel 表格中以便分析使用。

项目

Python

数据

爬虫

3 条回复 • 2018-03-10 22:32:03 +08:00