网站首页 > 技术教程 正文
上一篇文章聊完不懂技术的情况下,怎么通过app抓包获取用户数据。今天分享一下上次抓web数据的经历。
文章主要提供一些解决问题的思维方法。这篇文章可能很啰嗦,先把思路写出来:
- 利用Xenu检索全站URL地址
- 用Excel筛选出有用的URL
- 网页爬取工具,爬取页面中指定的内容信息
- Excel信息整理
- 寻找竞品的典型用户
- 目的:调研竞品主播基本情况。我想知道他们的主播粉丝数量分布、用户关注数量分布、用户送礼额度。
- 背景:一个不懂技术的产品经理。
1.数据爬取
需要的数据都在竞品用户个人空间,所以第一个想到的是让开发用 Python 写个爬虫。跟开发确认了一下时间,说要三天,果断放弃,自己来。
先找了个网页信息爬取工具(百度一搜一大把),我用的是火车采集器。它可以对指定的URL中的页面内容进行抓取。抓取的规则是通过H5标签识别,所以输入需要抓取字段的起止标签就可以了。
我想了解的是主播收入、大R的送礼金额、还有个人空间的地址。
大R的送礼记录个人空间就有。不过主播个人总收益是没有展示的,所以我只能假定主播的粉丝越高,他的收益越多。
所以我最终抓取的是三个字段是:粉丝量、送礼总额、个人空间地址。
在爬取工具上设置好抓取字段,测试了几个页面,数据可用。然后麻烦的问题来了,没办法知道触手更多个人空间地址。
2.获取URL
个人空间的 URL 是这样的“//chushou.tv/u/用户ID.htm”。观察了一下,用户ID是不规则的,从6位到9位都有。如果直接从一个一个 URL 循环过去,抓到999999999不现实。
最后选择了Xenu,这是一个检查网站死链的工具,据说会模拟百度蜘蛛爬取网站URL,检测是否为死链。最重要的是会把检查结果显示出来,这样我可以拿到竞品域名下所有的URL,再通过Excel筛选出我需要的个人空间URL。
避免URL爬取不完整,连续抓了3个晚上。再放到Excel中去重。Xenu在运行时比较消耗内存,早上来的时候都会发现软件已经崩溃,所以我三天累计抓到了近100w个URL,实际可用的只有7w个。
这样我拿到了竞品的7w个用户个人空间地址,不过这个数字跟他们PR出去的数字相差甚远。(严格来说,由于不确定这些数据的来源,所以即便得出结论也是不可信的。)
3.数据整理
拿到这些数据就有了排行榜。我可以按照粉丝量最高的来排,寻找大主播;也可以按照送礼金额(平台的虚拟货币)来排,寻找土豪粉。
寻找用户进行访谈:
利用百度的站内搜索site:
在竞品网站中搜索用户联系方式。比如QQ site:www.chushou.tv
或主播 Q site:www.chushou.tv
等。
这样我能找到好多在个人签名或公告中留有 QQ 的用户。然后加了好友,开始聊天。
后记
这些文字是在半年前写的,时隔半年,还是觉得这个过程很有趣,不断提出问题,解决问题。
实际上还有很多问题,没啥可以实操的东西,比如:网站有反爬虫;被封 IP ;页面中都是各种 JS 导致无法顺利完成抓取,等等。看个热闹就好了。 ^_^
猜你喜欢
- 2024-10-18 诠网科技|网站seo排名波动原因分析及恢复排名对策
- 2024-10-18 2018.12.19(20)产品页面优化以及头部优化
- 2024-10-18 web测试之功能测试常用的方法有哪几种?有什么要点要注意?
- 2024-10-18 网站改版该怎么做SEO优化? 网站改版方案
- 2024-10-18 合肥网络营销:网站死链检测与处理方法
- 2024-10-18 软件测试中18个功能测试点总结(知识篇)
- 2024-10-18 如何加快网站的响应速度 如何加快网站的访问速度
- 2024-10-18 Google Search Console报告收到5XX错误时的含义以及如何处理
- 2024-10-18 新站怎么做SEO优化 新网站怎么优化seo
- 2024-10-18 网站死链接怎么处理 死链接测试
你 发表评论:
欢迎- 05-05从virsh当中学习QEMU/KVM启动命令
- 05-05Win10 BCD文件损坏怎么修复?(bcd文件损坏win7)
- 05-05亚马逊春节假期期间的店铺管理设置
- 05-051分钟总结常用k8s常用诊断教程(k8s常见故障)
- 05-05VisiPics重复图片查找软件中文汉化教程
- 05-05微服务的发布实现方式1灰度实现(微服务实现原理)
- 05-05轻松掌握Java多线程 - 第二章:线程的生命周期
- 05-05德拉诺之王邪DK报告:PVE向小测试及分析
- 最近发表
- 标签列表
-
- sd分区 (65)
- raid5数据恢复 (81)
- 地址转换 (73)
- 手机存储卡根目录 (55)
- tcp端口 (74)
- project server (59)
- 双击ctrl (55)
- 鼠标 单击变双击 (67)
- debugview (59)
- 字符动画 (65)
- flushdns (57)
- ps复制快捷键 (57)
- 清除系统垃圾代码 (58)
- web服务器的架设 (67)
- 16进制转换 (69)
- xclient (55)
- ps源文件 (67)
- filezilla server (59)
- 句柄无效 (56)
- word页眉页脚设置 (59)
- ansys实例 (56)
- 6 1 3固件 (59)
- sqlserver2000挂起 (59)
- vm虚拟主机 (55)
- config (61)
本文暂时没有评论,来添加一个吧(●'◡'●)