分享免费的编程资源和教程

网站首页 > 技术教程 正文

ChatGPT炒股:爬取广州数据交易所网页数据

goqiw 2024-11-17 10:12:40 技术教程 24 ℃ 0 评论

除了贵州大数据交易所、上海数据交易所、北京数据交易所,广州数据交易所也是排名靠前的数据交易所,里面要有很多数据要素相关企业的数据产品。

网站初看起来是静态页面,很简单:

在ChatGPT里面输入提示词:

写一段Python程序,爬取网页数据。具体步骤:

在d盘创建一个excel文件,文件名称:广州数据交易所

打开网站https://www.cgdde.cn/jybd.html#/List,解析源代码;

定位所有class="pro"的div元素;

然后定位div元素中第1个p元素,写入excel第1列;

定位div元素中第2个p元素,写入excel第2列;

定位div元素中第3个p元素,获取其内容,然后去掉开头的字符串“入场机构:”,写入excel第3列;

定位div元素中第4个p元素,写入excel第4列;

定位div元素中第5个p元素,获取其内容,然后去掉开头的字符串“产品分类:”,写入excel第5列;

实际运行后,爬取下来的excel表格中却什么也没有。

再仔细查看,实际是动态网页,返回的是json数据

所以要重新写提示词:

写一段Python程序,爬取网页数据。具体步骤:

在d盘创建一个excel文件,文件名称:广州数据交易所

打开网站https://www.cgdde.cn/si/jybd/rccpList,解析源代码;

网站的Request headers是

Accept:

application/json, text/plain, */*

Accept-Encoding:

gzip, deflate, br

Accept-Language:

zh-CN,zh;q=0.9,en;q=0.8

Access-Token:

dGVtcC1FQTc4QUVEQjRGRDBDOUI3MUMwMkQzMTJBNTc5MTEyRl8yMDIzMDYxNDA4NDQ1M19mMjkwYWU3ZjcyZGM0MGUyODI1YWViYTZmODMxMzY5Mg==

Connection:

keep-alive

Content-Length:

13

Content-Type:

application/json;charset=UTF-8

Host:

http://www.cgdde.cn

Origin:

https://www.cgdde.cn

Sec-Ch-Ua:

"Not.A/Brand";v="8", "Chromium";v="114", "Google Chrome";v="114"

Sec-Ch-Ua-Mobile:

?0

Sec-Ch-Ua-Platform:

"Windows"

Sec-Fetch-Dest:

empty

Sec-Fetch-Mode:

cors

Sec-Fetch-Site:

same-origin

User-Agent:

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36

获得json数据,转成Python数据;

提取json数据中"XH"、"FCLASS"、HYMC"、 "FCLASSMC"、"CPMC"、 "CPMS"这些字段,并将其转换为Excel列

这次顺利爬取了所有数据。

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表