当前位置:   article > 正文

合作项目 : 人工智能专业相关职位数据分析 (爬虫+数据处理)_人工智能相关职位数据分析

人工智能相关职位数据分析


1 项目背景

当前人工智能的发展愈来愈快,市场需求空间很大,为了分析开设人工智能专业的必要性,开展此项目进行具体的数据分析。通过对智联、51job、中华英才网和拉勾等企业常驻的招聘平台的招聘信息进行数据爬取及数据分析,得到的信息便能较大程度上反映出市场对某职位的需求情况及能力要求 。

2 Scrapy 爬取51job具体信息

  • 爬取的工作方向是人工智能,及人工智能下细分方向:机器学习,深度学习,图像识别,人脸识别,NLP,无人驾驶,语音识别,算法研究员
  • 主要爬取的内容有工作名称,公司名称,薪水待遇,学历及经验要求,职位描述及需求等具体信息,并保存至csv文件,spider代码如下:
import scrapy
from ..items import FiveoneItem
from scrapy.selector import Selector,HtmlXPathSelector
from scrapy.http import Request

class JobSpider(scrapy.Spider):
    name = 'job'
    # allowed_domains = ['example.com']
    # 需爬取的内容网页
    start_urls = ['https://search.51job.com/list/000000,000000,0000,00,9,99,%25E7%25AE%2597%25E6%25B3%2595%25E7%25A0%2594%25E7%25A9%25B6%25E5%2591%2598,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=']

    def parse(self, response):
        hxs = Selector(response=response).xpath('//div[@class="el"]')
        for obj in hxs:
            detailUrl = obj.xpath('.//a/@href').extract_first()
            # print(detailUrl)
            # title = obj.xpath('.//p[@class="t1 "]//a/@title').extract_first()
            # print(title)
            yield scrapy.Request(detailUrl, self.detailparse)
        visited_urls = set()
        # nextLink = Selector(response=response).xpath('//li[@class="bk"]/a/@href').extract()
        # 51job下一页链接标签与上一页一致,直接取会因重复导致spider过早关闭无法爬完所有页面,这里改找最后一个标签
        nextLink = Selector(response=response).xpath('//li[@class="bk"][last()]/a/@href').extract_first()
        if nextLink is not None:
            print("*******************下一页链接**************************")
            print(nextLink)
            yield scrapy.Request(url=nextLink, callback=self.parse)
    #爬取详情页具体内容
    def detailparse(self, response):
        item = FiveoneItem()
        hxs = Selector(response=response).xpath('//div[@class="tHeader tHjob"]')
        for obj in hxs:
            title = obj.xpath('.//h1/@title').extract_first()
            item['title'] = title
            print(title)
            salary = obj.xpath('.//strong/text()').extract_first()
            item['salary'] = salary
            print(salary)
            company = obj.xpath('.//p[@class="cname"]/a/@title').extract_first()
            item['company'] = company
            print(company)
            tags = obj.xpath('.//p[@class="msg ltype"]/@title').extract_first()
            item['tags'] = tags
            print(tags)
        details = Selector(response=response).xpath('//div[@class="bmsg job_msg inbox"]')
        jobrequest = []
        for obj in details:
            detail = obj.xpath('./p/text()').extract()
            for i in detail:
                jobrequest.append(i)
            print(jobrequest)
            item['jobrequest'] = jobrequest
        print('*******************')
        yield(item)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54

这里可不编辑pipeline,settings或items,直接采用scrapy自带的持久化功能存储

#存储json格式:
scrapy crawl 项目名称 -o 项目名称.json -s FEED_EXPORT_ENCIDING=utf-8
#存储csv(表格)形式:
scrapy crawl 项目名称 -o 项目名称.csv -s FEED_EXPORT_ENCIDING=utf-8
  • 1
  • 2
  • 3
  • 4

存储后得到如下文件:
这里写图片描述

3 数据清洗

import re
import numpy as np 
import pandas as pd  
import matplotlib as mpl  
from pyecharts import Geo 
import matplotlib.pyplot as plt
from pyecharts import WordCloud
#用来正常显示中文标签 
plt.rcParams['font.sans-serif']=['SimHei'] 
#用来正常显示负号 
plt.rcParams['axes.unicode_minus']=False
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

3.1 导入csv

a=pd.read_csv('aiall.csv')
len(a)
  • 1
  • 2
    14383 #共14383条数据 
  • 1
#去除无效数据
b = a.dropna()
  • 1
  • 2
b.head()
  • 1
.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }
companyjobrequestsalarytagstitle
0北京捷通华声科技股份有限公司职位描述:, 1.负责智能机器人知识库的建设,保证机器人智能问答的准确率;…0.7-1万/月北京 | 无工作经验 | 本科 | 招3人 | 08-14发布人工智能训练工程师
2寰宇优才教育科技(北京)有限公司【岗位方向】:,1、 Java+大数据软件开发工程师实习生,2、 人工智能+Python开发…6-8千/月北京-朝阳区 | 无工作经验 | 招16人 | 08-14发布Java+人工智能实习工程师
3广州市润东信息科技有限公司1. 研究机器学习、深度学习等领域的前沿技术并结合业务场景解决实际问题;,2. 通过对数据的…1.5-2万/月广州-番禺区 | 3-4年经验 | 本科 | 招1人 | 08-14发布人工智能工程师
4江苏厚学网信息技术股份有限公司岗位职责:,1. 开发软电话模块,完成与终端呼叫设备的对接;,2. 负责模块的需求分析,代码…10-20万/年南京-秦淮区 | 3-4年经验 | 大专 | 招4人 | 08-14发布C++高级开发工程师(人工智能方向)
5郑州汇之众网络科技有限公司1、热爱编程事业,热衷IT行业;, 2、本科以上学历,计算机及理工类专业优先;, 3、认真遵…6-8千/月郑州 | 无工作经验 | 本科 | 招若干人 | 08-14发布零基础人工智能开发实习生
len(b)
  • 1
    11834
  • 1

3.2 处理tags,提取其中有效信息

new_tags = b['tags'].str.split('|')
new_tags.head()
  • 1
  • 2
    0        [北京  ,   无工作经验  ,   本科  ,   招3人  ,   08-14发布]
    2           [北京-朝阳区  ,   无工作经验  ,   招16人  ,   08-14发布]
    3    [广州-番禺区  ,   3-4年经验  ,   本科  ,   招1人  ,   08-1...
    4    [南京-秦淮区  ,   3-4年经验  ,   大专  ,   招4人  ,   08-1...
    5       [郑州  ,   无工作经验  ,   本科  ,   招若干人  ,   08-14发布]
    Name: tags, dtype: object
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
data = new_tags.apply(pd.Series)
data.columns=['地区','经验要求','学历要求','招聘人数','发布日期','额外要求1','额外要求2']
data.head()
  • 1
  • 2
  • 3
.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }
地区经验要求学历要求招聘人数发布日期额外要求1额外要求2
0北京无工作经验本科招3人08-14发布NaNNaN
2北京-朝阳区无工作经验招16人08-14发布NaNNaNNaN
3广州-番禺区3-4年经验本科招1人08-14发布NaNNaN
4南京-秦淮区3-4年经验大专招4人08-14发布NaNNaN
5郑州无工作经验本科招若干人08-14发布NaNNaN

3.2.1 处理tags中数据数目不一致,规整数据信息

由于部分条目不含学历要求等信息,将这部分提出规整内容并替换为无要求

mask = data.iloc[:,2].str.contains('人')
mask.value_counts()
  • 1
  • 2
    False    9165
    True     2669
    Name: 学历要求, dtype: int64
  • 1
  • 2
  • 3
addclass = data[mask]
addclass.head()
  • 1
  • 2
.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }
地区经验要求学历要求招聘人数发布日期额外要求1额外要求2
2北京-朝阳区无工作经验招16人08-14发布NaNNaNNaN
9上海-静安区无工作经验招若干人08-14发布NaNNaNNaN
14武汉-洪山区无工作经验招6人08-14发布NaNNaNNaN
21郑州无工作经验招10人08-14发布NaNNaNNaN
28南京无工作经验招1人08-14发布NaNNaNNaN
addclass[['发布日期', '招聘人数']] = addclass[['招聘人数', '发布日期']]
  • 1
addclass[['招聘人数', '学历要求']] = addclass[['学历要求', '招聘人数']]
  • 1
addclass.head()
  • 1
.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }
地区经验要求学历要求招聘人数发布日期额外要求1额外要求2
2北京-朝阳区无工作经验NaN招16人08-14发布NaNNaN
9上海-静安区无工作经验NaN招若干人08-14发布NaNNaN
14武汉-洪山区无工作经验NaN招6人08-14发布NaNNaN
21郑州无工作经验NaN招10人08-14发布NaNNaN
28南京无工作经验NaN招1人08-14发布NaNNaN
fin = addclass.fillna('无要求')
fin.head()
  • 1
  • 2
.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }
地区经验要求学历要求招聘人数发布日期额外要求1额外要求2
2北京-朝阳区无工作经验无要求招16人08-14发布无要求无要求
9上海-静安区无工作经验无要求招若干人08-14发布无要求无要求
14武汉-洪山区无工作经验无要求招6人08-14发布无要求无要求
21郑州无工作经验无要求招10人08-14发布无要求无要求
28南京无工作经验无要求招1人08-14发布无要求无要求
data[mask]=fin
  • 1
data.head()
  • 1
.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }
地区经验要求学历要求招聘人数发布日期额外要求1额外要求2
0北京无工作经验本科招3人08-14发布NaNNaN
2北京-朝阳区无工作经验无要求招16人08-14发布无要求无要求
3广州-番禺区3-4年经验本科招1人08-14发布NaNNaN
4南京-秦淮区3-4年经验大专招4人08-14发布NaNNaN
5郑州无工作经验本科招若干人08-14发布NaNNaN
df= data.fillna('无要求')
  • 1
df.head()
  • 1
.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }
地区经验要求学历要求招聘人数发布日期额外要求1额外要求2
0北京无工作经验本科招3人08-14发布无要求无要求
2北京-朝阳区无工作经验无要求招16人08-14发布无要求无要求
3广州-番禺区3-4年经验本科招1人08-14发布无要求无要求
4南京-秦淮区3-4年经验大专招4人08-14发布无要求无要求
5郑州无工作经验本科招若干人08-14发布无要求无要求

3.2.2 处理地区信息,提取其中省名

df['地区'] = df['地区'].str.split('-').str[0]
  • 1
df.head()
  • 1
.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }
地区经验要求学历要求招聘人数发布日期额外要求1额外要求2
0北京无工作经验本科招3人08-14发布无要求无要求
2北京无工作经验无要求招16人08-14发布无要求无要求
3广州3-4年经验本科招1人08-14发布无要求无要求
4南京3-4年经验大专招4人08-14发布无要求无要求
5郑州无工作经验本科招若干人08-14发布无要求无要求

3.3 将处理好的tags信息与原数据合并并删除原tags列

result = b.join(df)
  • 1
result.drop('tags', axis=1, inplace=True)
  • 1
result = result[['title','company','salary','地区','经验要求','学历要求','招聘人数','额外要求1','额外要求2','jobrequest','发布日期']]
  • 1
result.head()
  • 1
.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }
titlecompanysalary地区经验要求学历要求招聘人数额外要求1额外要求2jobrequest发布日期
0人工智能训练工程师北京捷通华声科技股份有限公司0.7-1万/月北京无工作经验本科招3人无要求无要求职位描述:, 1.负责智能机器人知识库的建设,保证机器人智能问答的准确率;…08-14发布
2Java+人工智能实习工程师寰宇优才教育科技(北京)有限公司6-8千/月北京无工作经验无要求招16人无要求无要求【岗位方向】:,1、 Java+大数据软件开发工程师实习生,2、 人工智能+Python开发…08-14发布
3人工智能工程师广州市润东信息科技有限公司1.5-2万/月广州3-4年经验本科招1人无要求无要求1. 研究机器学习、深度学习等领域的前沿技术并结合业务场景解决实际问题;,2. 通过对数据的…08-14发布
4C++高级开发工程师(人工智能方向)江苏厚学网信息技术股份有限公司10-20万/年南京3-4年经验大专招4人无要求无要求岗位职责:,1. 开发软电话模块,完成与终端呼叫设备的对接;,2. 负责模块的需求分析,代码…08-14发布
5零基础人工智能开发实习生郑州汇之众网络科技有限公司6-8千/月郑州无工作经验本科招若干人无要求无要求1、热爱编程事业,热衷IT行业;, 2、本科以上学历,计算机及理工类专业优先;, 3、认真遵…08-14发布
result.info()
  • 1
    <class 'pandas.core.frame.DataFrame'>
    Int64Index: 11834 entries, 0 to 14379
    Data columns (total 11 columns):
    title         11834 non-null object
    company       11834 non-null object
    salary        11834 non-null object
    地区            11834 non-null object
    经验要求          11834 non-null object
    学历要求          11834 non-null object
    招聘人数          11834 non-null object
    额外要求1         11834 non-null object
    额外要求2         11834 non-null object
    jobrequest    11834 non-null object
    发布日期          11834 non-null object
    dtypes: object(11)
    memory usage: 1.4+ MB
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16

3.4 处理薪资单位不一致问题,规整为 “/月”

这里的问题比较复杂,因51job提供的薪资单位有 万/年,万/月,千/月,元/日,元/时等多种单位,这里由于按日和按时计算的不清具体工作时长,取 万/年,万/月,千/月统一化为月薪来进行数据处理 并添加最低月薪,平均月薪,最高月薪字段

mask = result['salary'].str.contains('年')
year_salary = result[mask]
month_salary = result[~mask]
  • 1
  • 2
  • 3
year_salary.salary
  • 1
4         10-20万/年
6          8-18万/年
60        30-50万/年
63        15-60万/年
71        40-60万/年
79        10-15万/年
102       15-20万/年
115       30-60万/年
143       20-30万/年
150       15-20万/年
164       40-50万/年
174       30-40万/年
179       24-42万/年
181       15-20万/年
190       50-60万/年
202       30-50万/年
224       30-40万/年
236       35-50万/年
241       40-50万/年
258       12-30万/年
261       10-30万/年
294       20-30万/年
333       20-30万/年
336       30-40万/年
344       30-40万/年
346       20-25万/年
358       15-20万/年
389       30-40万/年
396       15-20万/年
398       20-30万/年
           ...    

Name: salary, Length: 831, dtype: object
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
y_s = year_salary['salary'].str.split('万')
y_s = y_s.apply(pd.Series)
y_s = y_s[0].str.split('-').apply(pd.Series)
y_s = y_s.astype(float)
y_salary = y_s.mean(axis=1)*10000/12
  • 1
  • 2
  • 3
  • 4
  • 5
min_salary_y = y_s[0]*10000/12
min_salary_y
  • 1
  • 2
4         8333.333333
6         6666.666667
60       25000.000000
63       12500.000000
71       33333.333333
79        8333.333333
102      12500.000000
115      25000.000000
143      16666.666667
150      12500.000000
164      33333.333333
174      25000.000000
179      20000.000000
181      12500.000000
190      41666.666667
202      25000.000000
224      25000.000000
236      29166.666667
241      33333.333333
258      10000.000000
261       8333.333333
294      16666.666667
333      16666.666667
336      25000.000000
344      25000.000000
346      16666.666667
358      12500.000000
389      25000.000000
396      12500.000000
398      16666.666667
             ...     

Name: 0, Length: 831, dtype: float64
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
max_salary_y = y_s[1]*10000/12
max_salary_y
  • 1
  • 2
4        16666.666667
6        15000.000000
60       41666.666667
63       50000.000000
71       50000.000000
79       12500.000000
102      16666.666667
115      50000.000000
143      25000.000000
150      16666.666667
164      41666.666667
174      33333.333333
179      35000.000000
181      16666.666667
190      50000.000000
202      41666.666667
224      33333.333333
236      41666.666667
241      41666.666667
258      25000.000000
261      25000.000000
294      25000.000000
333      25000.000000
336      33333.333333
344      33333.333333
346      20833.333333
358      16666.666667
389      33333.333333
396      16666.666667
398      25000.000000
             ...     

Name: 1, Length: 831, dtype: float64
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
year_salary.salary = y_salary
  • 1
result[mask] = year_salary
  • 1
result['min_salary'] = min_salary_y
result['max_salary'] = max_salary_y
result.head()
  • 1
  • 2
  • 3
.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }
titlecompanysalary地区经验要求学历要求招聘人数额外要求1额外要求2jobrequest发布日期min_salarymax_salary
0人工智能训练工程师北京捷通华声科技股份有限公司0.7-1万/月北京无工作经验本科招3人无要求无要求职位描述:, 1.负责智能机器人知识库的建设,保证机器人智能问答的准确率;…08-14发布NaNNaN
2Java+人工智能实习工程师寰宇优才教育科技(北京)有限公司6-8千/月北京无工作经验无要求招16人无要求无要求【岗位方向】:,1、 Java+大数据软件开发工程师实习生,2、 人工智能+Python开发…08-14发布NaNNaN
3人工智能工程师广州市润东信息科技有限公司1.5-2万/月广州3-4年经验本科招1人无要求无要求1. 研究机器学习、深度学习等领域的前沿技术并结合业务场景解决实际问题;,2. 通过对数据的…08-14发布NaNNaN
4C++高级开发工程师(人工智能方向)江苏厚学网信息技术股份有限公司12500南京3-4年经验大专招4人无要求无要求岗位职责:,1. 开发软电话模块,完成与终端呼叫设备的对接;,2. 负责模块的需求分析,代码…08-14发布8333.33333316666.666667
5零基础人工智能开发实习生郑州汇之众网络科技有限公司6-8千/月郑州无工作经验本科招若干人无要求无要求1、热爱编程事业,热衷IT行业;, 2、本科以上学历,计算机及理工类专业优先;, 3、认真遵…08-14发布NaNNaN
mask1 = month_salary.salary.str.contains('万')
wan = month_salary[mask1]
qian = month_salary[~mask1]
  • 1
  • 2
  • 3
wan_s = wan['salary'].str.split('万')
wan_s = wan_s.apply(pd.Series)
wan_s = wan_s[0].str.split('-').apply(pd.Series)
wan_s = wan_s.astype(float)
mon_salary1 = wan_s.mean(axis=1)*10000
mon_salary1
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
0         8500.0
3        17500.0
8         8500.0
9        35000.0
12       13500.0
13       45000.0
15        8000.0
16       40000.0
20        9000.0
24       22500.0
25       12500.0
27       17500.0
30       35000.0
31       12500.0
32       12500.0
34        9000.0
35        9000.0
37       22500.0
38       12500.0
41       11500.0
43       15000.0
45       15000.0
48       17500.0
49       17500.0
52       20000.0
53       22500.0
54       24000.0
55       17500.0
56       15000.0
57       22500.0
          ...   

Length: 8055, dtype: float64
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
wan['salary'] = mon_salary1
  • 1
month_salary[mask1] = wan
  • 1
month_salary.head()
  • 1
.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }
titlecompanysalary地区经验要求学历要求招聘人数额外要求1额外要求2jobrequest发布日期
0人工智能训练工程师北京捷通华声科技股份有限公司8500北京无工作经验本科招3人无要求无要求职位描述:, 1.负责智能机器人知识库的建设,保证机器人智能问答的准确率;…08-14发布
2Java+人工智能实习工程师寰宇优才教育科技(北京)有限公司6-8千/月北京无工作经验无要求招16人无要求无要求【岗位方向】:,1、 Java+大数据软件开发工程师实习生,2、 人工智能+Python开发…08-14发布
3人工智能工程师广州市润东信息科技有限公司17500广州3-4年经验本科招1人无要求无要求1. 研究机器学习、深度学习等领域的前沿技术并结合业务场景解决实际问题;,2. 通过对数据的…08-14发布
5零基础人工智能开发实习生郑州汇之众网络科技有限公司6-8千/月郑州无工作经验本科招若干人无要求无要求1、热爱编程事业,热衷IT行业;, 2、本科以上学历,计算机及理工类专业优先;, 3、认真遵…08-14发布
7人工智能训练师北京捷通华声科技股份有限公司广州分公司5-8千/月广州无工作经验本科招若干人无要求无要求1.负责智能机器人知识库的建设,保证机器人智能问答的准确率;,2.收集客户的产品与服务知识库…08-14发布
min_wan = wan_s[0]*10000
max_wan = wan_s[1]*10000
month_salary['min_salary'] = min_wan
month_salary['max_salary'] = max_wan
  • 1
  • 2
  • 3
  • 4
month_salary.head()
  • 1
.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }
titlecompanysalary地区经验要求学历要求招聘人数额外要求1额外要求2jobrequest发布日期min_salarymax_salary
0人工智能训练工程师北京捷通华声科技股份有限公司8500北京无工作经验本科招3人无要求无要求职位描述:, 1.负责智能机器人知识库的建设,保证机器人智能问答的准确率;…08-14发布7000.010000.0
2Java+人工智能实习工程师寰宇优才教育科技(北京)有限公司6-8千/月北京无工作经验无要求招16人无要求无要求【岗位方向】:,1、 Java+大数据软件开发工程师实习生,2、 人工智能+Python开发…08-14发布NaNNaN
3人工智能工程师广州市润东信息科技有限公司17500广州3-4年经验本科招1人无要求无要求1. 研究机器学习、深度学习等领域的前沿技术并结合业务场景解决实际问题;,2. 通过对数据的…08-14发布15000.020000.0
5零基础人工智能开发实习生郑州汇之众网络科技有限公司6-8千/月郑州无工作经验本科招若干人无要求无要求1、热爱编程事业,热衷IT行业;, 2、本科以上学历,计算机及理工类专业优先;, 3、认真遵…08-14发布NaNNaN
7人工智能训练师北京捷通华声科技股份有限公司广州分公司5-8千/月广州无工作经验本科招若干人无要求无要求1.负责智能机器人知识库的建设,保证机器人智能问答的准确率;,2.收集客户的产品与服务知识库…08-14发布NaNNaN
mask2 = qian['salary'].str.contains('千')
qian1 = qian[mask2]
day = qian[~mask2]
  • 1
  • 2
  • 3
qian_s = qian1['salary'].str.split('千')
qian_s = qian_s.apply(pd.Series)
qian_s = qian_s[0].str.split('-').apply(pd.Series)
qian_s = qian_s.astype(float)
mon_salary2 = qian_s.mean(axis=1)*1000
qian1['salary'] = mon_salary2
qian[mask2] = qian1
month_salary[~mask1] = qian
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
min_qian = qian_s[0]*1000
max_qian = qian_s[1]*1000
  • 1
  • 2
mask5 = month_salary['min_salary'].isnull()
  • 1
mon_qian = month_salary[mask5]
  • 1
mon_qian.head()
  • 1
.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }
titlecompanysalary地区经验要求学历要求招聘人数额外要求1额外要求2jobrequest发布日期min_salarymax_salary
2Java+人工智能实习工程师寰宇优才教育科技(北京)有限公司7000北京无工作经验无要求招16人无要求无要求【岗位方向】:,1、 Java+大数据软件开发工程师实习生,2、 人工智能+Python开发…08-14发布NaNNaN
5零基础人工智能开发实习生郑州汇之众网络科技有限公司7000郑州无工作经验本科招若干人无要求无要求1、热爱编程事业,热衷IT行业;, 2、本科以上学历,计算机及理工类专业优先;, 3、认真遵…08-14发布NaNNaN
7人工智能训练师北京捷通华声科技股份有限公司广州分公司6500广州无工作经验本科招若干人无要求无要求1.负责智能机器人知识库的建设,保证机器人智能问答的准确率;,2.收集客户的产品与服务知识库…08-14发布NaNNaN
10人工智能训练工程师北京捷通华声科技股份有限公司成都分公司6500成都无工作经验本科招1人无要求无要求职位描述:,1.负责智能机器人知识库的建设,保证机器人智能问答的准确率;,2.收集客户的产品…08-14发布NaNNaN
11AI人工智能电话销售专员武汉智生粉科技有限公司7000武汉1年经验大专招5人无要求无要求本公司是做AI电销机器人的,智能语音,为企业节约人力财力,更好的寻找客户,目前有很大的发展空…08-14发布NaNNaN
mon_qian['min_salary'] = min_qian 
mon_qian['max_salary'] = max_qian 
  • 1
  • 2
month_salary[mask5] = mon_qian
  • 1
month_salary.head()
  • 1
.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }
titlecompanysalary地区经验要求学历要求招聘人数额外要求1额外要求2jobrequest发布日期min_salarymax_salary
0人工智能训练工程师北京捷通华声科技股份有限公司8500北京无工作经验本科招3人无要求无要求职位描述:, 1.负责智能机器人知识库的建设,保证机器人智能问答的准确率;…08-14发布7000.010000.0
2Java+人工智能实习工程师寰宇优才教育科技(北京)有限公司7000北京无工作经验无要求招16人无要求无要求【岗位方向】:,1、 Java+大数据软件开发工程师实习生,2、 人工智能+Python开发…08-14发布6000.08000.0
3人工智能工程师广州市润东信息科技有限公司17500广州3-4年经验本科招1人无要求无要求1. 研究机器学习、深度学习等领域的前沿技术并结合业务场景解决实际问题;,2. 通过对数据的…08-14发布15000.020000.0
5零基础人工智能开发实习生郑州汇之众网络科技有限公司7000郑州无工作经验本科招若干人无要求无要求1、热爱编程事业,热衷IT行业;, 2、本科以上学历,计算机及理工类专业优先;, 3、认真遵…08-14发布6000.08000.0
7人工智能训练师北京捷通华声科技股份有限公司广州分公司6500广州无工作经验本科招若干人无要求无要求1.负责智能机器人知识库的建设,保证机器人智能问答的准确率;,2.收集客户的产品与服务知识库…08-14发布5000.08000.0
result[~mask] = month_salary
  • 1
result.head()
  • 1
.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }
titlecompanysalary地区经验要求学历要求招聘人数额外要求1额外要求2jobrequest发布日期min_salarymax_salary
0人工智能训练工程师北京捷通华声科技股份有限公司8500北京无工作经验本科招3人无要求无要求职位描述:, 1.负责智能机器人知识库的建设,保证机器人智能问答的准确率;…08-14发布7000.00000010000.000000
2Java+人工智能实习工程师寰宇优才教育科技(北京)有限公司7000北京无工作经验无要求招16人无要求无要求【岗位方向】:,1、 Java+大数据软件开发工程师实习生,2、 人工智能+Python开发…08-14发布6000.0000008000.000000
3人工智能工程师广州市润东信息科技有限公司17500广州3-4年经验本科招1人无要求无要求1. 研究机器学习、深度学习等领域的前沿技术并结合业务场景解决实际问题;,2. 通过对数据的…08-14发布15000.00000020000.000000
4C++高级开发工程师(人工智能方向)江苏厚学网信息技术股份有限公司12500南京3-4年经验大专招4人无要求无要求岗位职责:,1. 开发软电话模块,完成与终端呼叫设备的对接;,2. 负责模块的需求分析,代码…08-14发布8333.33333316666.666667
5零基础人工智能开发实习生郑州汇之众网络科技有限公司7000郑州无工作经验本科招若干人无要求无要求1、热爱编程事业,热衷IT行业;, 2、本科以上学历,计算机及理工类专业优先;, 3、认真遵…08-14发布6000.0000008000.000000
result.salary = result.salary.astype(str)
  • 1
mask4 = result.salary.str.contains('元')
  • 1
mask4.value_counts()
  • 1
    False    11741
    True        93
    Name: salary, dtype: int64
  • 1
  • 2
  • 3
result = result[~mask4]
  • 1
result.salary = result.salary.astype(float)
  • 1
result.rename(columns={'salary':'ave_salary','地区':'workspace','经验要求':'experienceRequirement','学历要求':'educationRequirement','招聘人数':'recruits',
                       'jobrequest':'jobRequirement','发布日期':'publishTime'},inplace=True)
result.drop(['额外要求1','额外要求2'], axis=1, inplace=True)
result.head()
  • 1
  • 2
  • 3
  • 4
.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }
titlecompanyave_salaryworkspaceexperienceRequirementeducationRequirementrecruitsjobRequirementpublishTimemin_salarymax_salary
0人工智能训练工程师北京捷通华声科技股份有限公司8500.0北京无工作经验本科招3人职位描述:, 1.负责智能机器人知识库的建设,保证机器人智能问答的准确率;…08-14发布7000.00000010000.000000
2Java+人工智能实习工程师寰宇优才教育科技(北京)有限公司7000.0北京无工作经验无要求招16人【岗位方向】:,1、 Java+大数据软件开发工程师实习生,2、 人工智能+Python开发…08-14发布6000.0000008000.000000
3人工智能工程师广州市润东信息科技有限公司17500.0广州3-4年经验本科招1人1. 研究机器学习、深度学习等领域的前沿技术并结合业务场景解决实际问题;,2. 通过对数据的…08-14发布15000.00000020000.000000
4C++高级开发工程师(人工智能方向)江苏厚学网信息技术股份有限公司12500.0南京3-4年经验大专招4人岗位职责:,1. 开发软电话模块,完成与终端呼叫设备的对接;,2. 负责模块的需求分析,代码…08-14发布8333.33333316666.666667
5零基础人工智能开发实习生郑州汇之众网络科技有限公司7000.0郑州无工作经验本科招若干人1、热爱编程事业,热衷IT行业;, 2、本科以上学历,计算机及理工类专业优先;, 3、认真遵…08-14发布6000.0000008000.000000
result = result[['title','company','min_salary','ave_salary','max_salary','workspace','experienceRequirement','educationRequirement','recruits','jobRequirement','publishTime']]
result.head()
  • 1
  • 2
.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }
titlecompanymin_salaryave_salarymax_salaryworkspaceexperienceRequirementeducationRequirementrecruitsjobRequirementpublishTime
0人工智能训练工程师北京捷通华声科技股份有限公司7000.0000008500.010000.000000北京无工作经验本科招3人职位描述:, 1.负责智能机器人知识库的建设,保证机器人智能问答的准确率;…08-14发布
2Java+人工智能实习工程师寰宇优才教育科技(北京)有限公司6000.0000007000.08000.000000北京无工作经验无要求招16人【岗位方向】:,1、 Java+大数据软件开发工程师实习生,2、 人工智能+Python开发…08-14发布
3人工智能工程师广州市润东信息科技有限公司15000.00000017500.020000.000000广州3-4年经验本科招1人1. 研究机器学习、深度学习等领域的前沿技术并结合业务场景解决实际问题;,2. 通过对数据的…08-14发布
4C++高级开发工程师(人工智能方向)江苏厚学网信息技术股份有限公司8333.33333312500.016666.666667南京3-4年经验大专招4人岗位职责:,1. 开发软电话模块,完成与终端呼叫设备的对接;,2. 负责模块的需求分析,代码…08-14发布
5零基础人工智能开发实习生郑州汇之众网络科技有限公司6000.0000007000.08000.000000郑州无工作经验本科招若干人1、热爱编程事业,热衷IT行业;, 2、本科以上学历,计算机及理工类专业优先;, 3、认真遵…08-14发布

3.5 将处理完的数据保存至csv

result.to_csv('ai.csv')
  • 1
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/155417
推荐阅读
相关标签
  

闽ICP备14008679号