当前位置:   article > 正文

ChatGPT炒股:深度挖掘数据要素产业链股票_学习数据挖掘炒股

学习数据挖掘炒股

随着ChatGPT带动AI产业链股票火爆,数据要素作为其中重要一环,也被市场重视。

如何深度挖掘数据要素产业链股票呢?

国内已经成立好几家数据交易所,比如上海数据交易所,里面已经有很多挂牌的数据产品。如果能把所有已经挂牌数据产品的上市公司找出来,然后去评估其数据资产的价值,或许可以发现不错的投资机会。

具体步骤有三步:

  1. 从上海数据交易所爬取所有数据产品相关资料,建立数据公司数据库
    上海数据交易所的网页是很有规律的:
    第2页:https://nidts.chinadep.com/ep-hall?productName=&dataType=&type=&pageSize=9&pageNum=2
    第3页:https://nidts.chinadep.com/ep-hall?productName=&dataType=&type=&pageSize=9&pageNum=3
    pageNum参数是从1到132,每页+1;


网页中的数据是动态加载的,返回的是json格式,所以可以这样在ChatGPT中写提示词:
你是一个Python编程专家,任务是爬取网页数据。
下面是具体步骤:
在d盘创建名为”上海大数据交易所”的excel表格;
打开网页https://nidts.chinadep.com/ep-hall?productName=&dataType=&type=&pageSize=9&pageNum=1,pageNum参数是从1到132,每页+1;
每页的request headers
:Authority:
http://nidts.chinadep.com
:Method:
GET
:Path:
/daep/broker/product/visitor/pageProduct?productName=&dataType=&type=&pageSize=9&pageNum=1
:Scheme:
https
Accept:
application/json, text/plain, */*
Accept-Encoding:
gzip, deflate, br
Accept-Language:
zh-CN,zh;q=0.9,en;q=0.8
Ignorecanceltoken:
true
Referer:
https://nidts.chinadep.com/ep-hall?productName=&dataType=&type=&pageSize=9&pageNum=1
Sec-Ch-Ua:
"Not.A/Brand";v="8", "Chromium";v="114", "Google Chrome";v="114"
Sec-Ch-Ua-Mobile:
?0
Sec-Ch-Ua-Platform:
"Windows"
Sec-Fetch-Dest:
empty
Sec-Fetch-Mode:
cors
Sec-Fetch-Site:
same-origin
User-Agent:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36
构造请求,获取网页 JSON 数据;
输出返回的 JSON 数据;
将原始 JSON 数据解析为 Python 字典;
然后根据嵌套结构,提取JSON 数据中 "data" 的数据,然后 "data"中提取 "list" 下的数据;从"list" 数据中提取 "supplierCompanyName"、 "dataName"、"dataContent"、 "supplierProductReleaseTime"这四个字段;
保存这四个字段到d盘上海大数据交易所的excel表格中;
注意:每一步都要输出信息,方便查找bug;
需要有应对反爬虫的措施,如:修改请求头、延迟请求、每爬取一页数据后延迟5秒;
每获取一页的Json数据,就保存到excel表格中;


很快,1186条数据就爬取下来了。删除掉重复的数据,一共有125家企业。

  1. 获取所有上市公司企业名称等信息,建立上市公司数据库
    在ChatGPT中输入如下提示词:
    写一段Python代码,使用Akshare库获取所有A股上市公司的企业名称、股票代码、股票简称这些数据,保存到d盘excel文件中。
    接口: stock_info_sh_name_code
    目标地址: 上海证券交易所
    描述: 上海证券交易所股票代码和简称数据
    限量: 单次获取所有上海证券交易所股票代码和简称数据
    输入参数
    名称 类型 描述
    symbol str symbol="主板A股"; choice of {"主板A股", "主板B股", "科创板"}
    输出参数
    名称 类型 描述
    证券代码 object -
    证券简称 object -
    公司全称 object -
    上市日期 object -
    接口示例
    import akshare as ak
    stock_info_sh_name_code_df = ak.stock_info_sh_name_code(symbol="主板A股")
    print(stock_info_sh_name_code_df)


运行,获取上市公司数据。

  1. 进行比对,同时在两个数据库里面的企业,就是潜在研究对象,可以进一步进行深度研究

在ChatGPT中输入提示词:

写一段Python代码,完成excel数据处理的任务。具体步骤:

F盘有2个excel文件:全部A股股票信息20230601.xlsx、上海大数据交易所全部数据产品20230601.xlsx,

提取“全部A股股票信息20230601.xlsx”中的c2单元格到c6467单元格的所有数据,

提取“上海大数据交易所全部数据产品20230601.xlsx”中的A1单元格到 A125单元格的所有数据,

然后交叉对比,找出所有相同的数据,然后保存到F盘的stock.xlsx

最终结果是有5家企业:

中远海运科技股份有限公司

上海钢联电子商务股份有限公司

中国东方航空股份有限公司

上海宝信软件股份有限公司

北京海天瑞声科技股份有限公司

接下里就可以对这5家企业进行深度研究了。

全部A股股票信息20230601.xlsx、上海大数据交易所全部数据产品20230601.xlsx,这两个表格,可以加入知识星球“AIGC部落”进行下载。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/584736
推荐阅读
相关标签
  

闽ICP备14008679号