网站首页 > 技术教程正文

ChatGPT炒股:爬取广州数据交易所网页数据

goqiw 2024-11-17 10:12:40 技术教程 24 ℃ 0 评论

除了贵州大数据交易所、上海数据交易所、北京数据交易所，广州数据交易所也是排名靠前的数据交易所，里面要有很多数据要素相关企业的数据产品。

网站初看起来是静态页面，很简单：

在ChatGPT里面输入提示词：

写一段Python程序，爬取网页数据。具体步骤：

在d盘创建一个excel文件，文件名称：广州数据交易所

打开网站https://www.cgdde.cn/jybd.html#/List，解析源代码；

定位所有class="pro"的div元素；

然后定位div元素中第1个p元素，写入excel第1列；

定位div元素中第2个p元素，写入excel第2列；

定位div元素中第3个p元素，获取其内容，然后去掉开头的字符串“入场机构：”，写入excel第3列；

定位div元素中第4个p元素，写入excel第4列；

定位div元素中第5个p元素，获取其内容，然后去掉开头的字符串“产品分类：”，写入excel第5列；

实际运行后，爬取下来的excel表格中却什么也没有。

再仔细查看，实际是动态网页，返回的是json数据

所以要重新写提示词：

写一段Python程序，爬取网页数据。具体步骤：

在d盘创建一个excel文件，文件名称：广州数据交易所

打开网站https://www.cgdde.cn/si/jybd/rccpList，解析源代码；

网站的Request headers是

Accept:

application/json, text/plain, */*

Accept-Encoding:

gzip, deflate, br

Accept-Language:

zh-CN,zh;q=0.9,en;q=0.8

Access-Token:

dGVtcC1FQTc4QUVEQjRGRDBDOUI3MUMwMkQzMTJBNTc5MTEyRl8yMDIzMDYxNDA4NDQ1M19mMjkwYWU3ZjcyZGM0MGUyODI1YWViYTZmODMxMzY5Mg==

Connection:

keep-alive

Content-Length:

Content-Type:

application/json;charset=UTF-8

Host:

http://www.cgdde.cn

Origin:

https://www.cgdde.cn

Sec-Ch-Ua:

"Not.A/Brand";v="8", "Chromium";v="114", "Google Chrome";v="114"

Sec-Ch-Ua-Mobile:

Sec-Ch-Ua-Platform:

"Windows"

Sec-Fetch-Dest:

empty

Sec-Fetch-Mode:

cors

Sec-Fetch-Site:

same-origin

User-Agent:

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36

获得json数据，转成Python数据；

提取json数据中"XH"、"FCLASS"、HYMC"、 "FCLASSMC"、"CPMC"、 "CPMS"这些字段，并将其转换为Excel列

这次顺利爬取了所有数据。

上一篇：一套视频监控系统规划设计方案，含拓扑图，VISIO格式，可编辑!
下一篇： ECS-700系统互联（ecs700培训教程）

网站首页 > 技术教程正文

ChatGPT炒股:爬取广州数据交易所网页数据

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术教程 正文

ChatGPT炒股:爬取广州数据交易所网页数据

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术教程正文

取消回复欢迎你发表评论: