赞
踩
Xxx
电话:邮箱:
住址:北京市海淀区
教育背景
2013.09–2017.06 毕业院校:南开大学滨海学院学历:本科专业:信息管理与信息系统个人能力
有充足的编程能力,了解计算机网络、数据结构,Http/Https;
熟练使用MySQL数据库,熟悉Redis,MongoDB等NoSQL数据库;
熟练使用XPath、re、json模块进行数据提取;
熟练使用Selenium+PhantomJS实现动态HTML抓取;
熟练掌握Scrapy框架、了解scrapy-redis分布式组件;
掌握常见的爬虫、反爬虫知识及应对措施;熟悉Django框架、熟悉Linux 系统;
熟悉JavaScript、Ajax、JQuery、CSS、HTML等WEB前端技术;
工作经历
2016.06-2017.07 天津坤禾生物
分析网站、网页、链接的特征,对指定的多个网站的网页进行网页抓取、数据提取, 负责特殊网页采集任务的分析及采集方案设计。负责特殊网页采集任务的分析及采集方案设计。搭建分布式爬虫环境。
项目经验
2015.09-2016.04 在学校跟着老师做项目
项目名称:抓取新浪微博数据(利用移动端抓取数据)
过程:
1.分析url,找到正确的首页start_url,
2.引擎从调度器中抽取start_url用于抓取数据;
3.引擎把url封装成request传给下载器;
4.下载器把资源下载下来并封装成应答包Response;
5.解析Response,把item交给实体管道Pipeline进行下一步处理;
6.若解析了url则交给调度器等待抓取。
项目名称:爬去斗鱼全部房间内容
过程:
1. 找到start_url;导入selenium的webdriver包;
2. 发送get请求,获得响应;
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。