分享免费的编程资源和教程

网站首页 > 技术教程 正文

网站内容采集的利与弊,你知道吗?

goqiw 2024-11-04 13:25:01 技术教程 23 ℃ 0 评论

昨天,木偶写了一篇"学会使用工具分析网站质量“的文章,其中有位朋友看了之后,提到了一个问题:“想了解下采集的弊端。”那么,木偶今天就来分析下采集的问题。

网站采集,可以简单分为两种情况。

一种是整站的采集

网站管理员希望将别人的整站数据下载到自己的网站里或者将别人网站的一些内容保存到自己的服务器上。从内容中抽取相关的字段,发布到自己的网站系统中。有时需要将网页相关的文件也保存到本地,如图片、附件等。

第二种是网站信息内容的采集

网站管理员从互联网中收集各类图片、笑话、新闻、等各类信息,然后分类、编辑,发布到自己的网站系统中。网站管理员一般通过搜索引擎搜索各类关键字获取目标网址,然后再提取网页中的内容。关键字的组织决定获取内容的准确性和数量。由于内容来不同的网站,所以提取内容的方法也各不相同。对于某一类的信息,发布到网站系统的数据结构是相同的。

首先这类工具有很多,内容的采集一般很多安装在服务器上的建站程序后台都有采集的功能,比如“笑话类、小说类、图片类”等等,一般情况都支持采集。另外也有些采集整站内容的工具,这类工具也非常的多,比如"Teleport Pro"如下图所示:

木偶对采集的简单的介绍就到这里,相信大家应该能大体了解了采集的含义。操作就不作多讲,言归正传,今天主要来说说网站内容采集的利与弊。

网站内容采集的利

一个已经建立好的网站,内容采集主要体现在非常的方便,非常的快速就能更新网站的内容,能在短时间之内快速的成为一个内容丰富的网站。好处的确是有,可能在网站页面收录情况非常的可观,也许也会有部分关键词的排名。但是在木偶看来,弊端远远大于这个利。但是也会分情况,除非你的网站不依靠搜索引擎获得流量。(木偶不建议,毕竟这种方式是不好的行为)

网站内容采集的弊端

1.采集内容的质量你很难控制。

其他网站的内容不一定适合你网站的内容。不同的网站都有差异特征的。相同类型的网站,它也不可能是一模一样的。你完全采集了内容,你自己连内容是什么都不知道,你也不清楚,举个列子:你的网站是一个装修公司的网站,你觉得你采集另外一个装修公司的内容合适吗?即使有些关键字、关键词能过滤掉,也会出现文章前后不通顺,甚至内容和你的网站不符合的情况。

2.网站质量的影响

这样的网站,搜索引擎是不会喜欢的。前期可能你的收录数量会很不错,但是百度很早就已经官方公告:“针对低质量站点的措施已经生效”。而公告其中很重要的一段话,大家看了就会明白了。如下图所示:

所以,大量采集网站内容,会被搜索引擎直接判定为低质量站点。会没有什么排名,甚至没有收录。最坏的情况是K站,被划入“黑名单”。期限如果是永久,这个域名再无出头之日,想整改也为时已晚。

3.版权保护

其实这一点,不用详加说明。大家应该都能明白这点的含义。之前在国内互联网发展初期,这方面没有引起相关方面的重视。是一个很混乱的局面,但是发展了这么多年。版权保护意识已经在逐渐加强。各个网站,各个企业都会努力去维护自己的权益。举个很简单的例子:最近百度全面清查盗版,封杀小说类贴吧,包括很多视频类的网站都是买了影视的版权。木偶一直在追一部剧集“权利的游戏。这部剧集最新第六季已经被腾讯花了大价钱独家买断了,其他网站你要侵权,腾讯肯定也会追究责任。所以,互联网一直在变化,现在已经不是以前的年代,要与时代俱进。适应不了互联网的发展肯定会被淘汰。

4.采集内容的真实性

上面第三点木偶说了,你采集别人的东西,就相当于偷袭别人的东西拿来己用。首先别人肯定会找你麻烦,另外还有一点,你敢保证你采集的内容都是真实有效合法的吗?遇到虚假内容,第三方依旧会追究你的责任。(当然,前提是你的网站确实有一点影响力了,但是话说回来,你的目的肯定也是让网站更好吧?)

5.用户体验很差

抄来抄去的内容,网友不会感兴趣,即使对个别内容感兴趣,但是我们建站都是有一个长远的目标。也希望网友能真心的觉得你的站点有价值。你的内容全是到处抄袭的,用户粘度也不好。甚至你网站的内容N年前就在互联网上“发烂了”。用户体验会很差,而且也没大意义。

写在文章最后,木偶个人的建议:大家应该都明白,原创的重要性。可能有些朋友,确实觉得源源不断的去原创难度很大,木偶认为,网站肯定离不开原创,要有自己的内容,自己的特色。当然,遇到好的文章,好的内容,适合自己的内容。至少你自己用心看了,觉得有用,你个人喜好,想要分享给更多的人,这是很好的事。热点的事件,有价值的内容大家都很喜欢,今日头条,网易,它们也会转载很多高质量的内容来更新网站。所以,我们要换种思维去处理,不要用于商业目的,注明内容出处,我相信以这种转载的方式来处理,效果会比不分青红皂白的直接采集要好很多。当然,转载也需要和自己的原创内容相结合共同完善自己的站点,说白了,能原创又有谁愿意去采集呢。其实都能够理解,只是在考虑网站内容采集的利与弊,如果你想要长期的提升你的网站质量,得到越来越多的人喜欢。请你用心做好站! 学会创新,努力的去创新,头条号不就是一个很好的例子吗?

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表