分享好友 资讯首页 资讯分类 切换频道
网络数据采集
2024-12-27 12:50  浏览:64

网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息

  • 分布式网络爬虫工具,如Nutch
  • Java网络爬虫工具,如Crawler4j、WebMagic、WebCollector。
  • 非Java网络爬虫工具,如Scrapy(基于Python语言开发
工作原理
  • 网络爬虫是一种按照一定的规则,自动地抓取Web信息的程序或者脚本。Web网络爬虫可以自动采集所有其能够访问到的页面内容,为搜索引擎和大数据分析提供数据来源。从功能上来讲,爬虫一般有数据采集、处理和存储3部分功能。
  • 网络爬虫系统通过网页中的超链接信息不断获得网络上的其他网页。网络爬虫从一个或若干个初始网页的RUL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
  • 网络爬虫系统一般会选择一些比较重要的、出度(网页中链出的超链接数)较大的网站的URL作为种子URL集合。网络爬虫系统以这些种子集合作为初始URL,开始数据的抓取。因为网页中含有链接信息,通过已有网页的URL会得到一些新的URL。可以把网页之间的指向结构视为一个森林,每个种子URL对应的网页是森林中的一棵树的节点,这样网络爬虫系统就可以根据广度优先搜索算法或者深度优先搜索算法遍历所有的网页。由于深度优先搜索算法可能会使爬虫系统陷入一个网站内部,不利于搜索比较靠近网站首页的网页信息,因此一般采用广度优先搜索算法采集。
  • 网络爬虫系统首先将种子URL放入下载队列,并简单地从队首取出一个URL下载其对应的网页,得到网页的内容并将其存储后,经过解析网页中的链接信息可以得到一些新的URL。其次,根据一定的网页分析算法过滤掉与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。最后,取出一个URL,对其对应的网页进行下载,然后再解析,如此反复进行,直到遍历了整个网络或者满足某种条件后才会停止下来。
工作流程
  • 首先选取一部分种子URL。
  • 将这些URL放入待抓取URL队列
  • 从待抓取URL队列中取出待抓取URL,解析DNS,得到主机IP地址,并将URL对应的网页下载下来,存储到已下载网页库中。此外,将这些URL放进已抓取URL队列。
  • 分析已抓取URL队列中的URL,分析其中的其他URL,并且将这些URL放入待抓取URL队列,从而进入下一个循环。
抓取策略
网络爬虫策略用到的基本概念
  • 网页间关系模型
    从互联网的结构来看,网页之间通过数量不等的超链接相互连接,形成一个彼此关联、庞大复杂的有向图。如果将网页看成一个节点,而将网页中指向其他网页的链接看成是这个节点指向其他节点的边,那么我们很容易将整个互联网上的网页建模成一个有向图。理论上,通过遍历算法遍历该图,可以访问到互联网上几乎所有的网页。

  • 网页分类
    从爬虫的角度对互联网进行划分,可以将互联网的所有页面分为5个部分:已下载未过期网页、已下载已过期网页、待下载网页、可知网页和不可知网页。

网络数据采集

通用网络爬虫

通用网络爬虫又称全网爬虫,爬行对象从一些种子URL扩展到整个Web,主要为门户站点搜索引擎和大型Web服务提供商采集数据。

  • 深度优先策略
    深度优先策略是指网络爬虫会从起始页开始,一个链接一个链接地跟踪下去,直到不能再深入为止。网络爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其他链接。当所有链接遍历完后,爬行任务结束。这种策略比较适合垂直搜索或站内搜索,但爬行页面内容层次较深的站点时会造成资源的巨大浪费。

  • 广度优先策略
    广度优先策略按照网页内容目录层次深浅来爬行页面,处于较浅目录层次的页面首先被爬行。当同一层的页面爬行完毕后,爬虫再深入下一层继续爬行。

聚焦网络爬虫

聚焦网络爬虫又称主题网络爬虫,是指选择性地爬行那些与预先定义好的主题相关的页面的网络爬虫。
1)基于内容评价的爬行策略
De Bra将文本相似度的计算方法引入到网络爬虫中,提出了Fish Search算法。该算法将用户输入的查询词作为主题,包含查询词的页面被视为与主题相关的页面,其局限性在于无法评价页面与主题相关度的大小。
Herseovic对Fish Search算法进行了改进,提出了Shark Search算法,即利用空间向量模型计算页面与主题的相关度大小。采用基于连续值计算链接价值的方法,不但可以计算出哪些抓取的链接和主题相关,还可以得到相关度的量化大小。
2)基于链接结构评价的爬行策略
PageRank算法的基本原理是,如果一个网页多次被引用,则可能是很重要的网页,如果一个网页没有被多次引用,但是被重要的网页引用,也有可能是重要的网页。一个网页的重要性被平均地传递到它所引用的网页上。
3)基于增强学习的爬行策略
将增强学习引入聚焦爬虫,利用贝叶斯分类器,根据整个网页文本和链接文本对超链接进行分类,为每个链接计算出重要性,从而决定链接的访问顺序。
4)基于语境图的爬行策略
通过建立语境图学习网页之间的相关度的爬行策略,该策略可训练一个机器学习系统,通过该系统可计算当前页面到相关Web页面的距离,距离近的页面中的链接优先访问。

增量式网络爬虫

增量式网络爬虫是指对已下载网页采取增量式更新并且只爬行新产生的或者已经发生变化网页的爬虫,它能够在一定程度上保证所爬行的页面是尽可能新的页面。

深度网络爬虫
    以上就是本篇文章【网络数据采集】的全部内容了,欢迎阅览 ! 文章地址:http://w.yusign.com/news/6114.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 述古往 http://w.yusign.com/mobile/ , 查看更多   
最新新闻
uni-app开发小程序
一、项目准备工作 1.uni-app介绍(地址) uni-app是一个使用Vue.js开发所有前端应用的框架,开发者编写一套代
SEO实战指南,网站优化推广,助你网站一鸣惊人
本教程旨在帮助初学者掌握SEO(搜索引擎优化)技巧,通过学习如何优化网站内容、关键词研究和链接建设等策略,提升网站在搜索引
最受欢迎的手机H网页游戏推荐
近年来,手机H游戏越来越受到玩家们的喜爱。无论是方便轻松的休闲游戏,还是让人兴奋刺激的冒险游戏,手机H网页游戏提供了丰富多
怎样让我的网站可以添加上两个统计工具
选择合适的统计工具1. 确定需求:要明确网站统计的需求,包括流量分析、用户行为分析、转化率分析等。  2. 市场调研:根据需求
微信二维码转链接
将微信二维码转换成链接,可以通过多种方法实现,以下是几种常见且实用的方法:一、使用在线二维码解码工具选择工具:在网络上搜
用AI生成超逼真美女写真,轻松打造专属作品!
限时免费,点击体验最近超火的AI生图神器,坐拥3000美女的大男主就是你! https://ai.sohu.com/pc/generate/textToImg?_trans_=0
中邑云科技刘伟剑出席“第三届WIPO-KIPO人工智能与知识产权互动在线研讨会”
  11月11日—15日,第三届WIPO-KIPO人工智能与知识产权互动在线研讨会成功举行,吸引了全球众多关注人工智能与知识产权领域人
金羚洗衣机24小时人工400电话-(科技与服务创新) - 行业 - 百科知识-蓝心网
金羚洗衣机售后24小时维修服务热线:400-658-8618。金羚洗衣机全市各区售后服务点热线号码。☎:400-658-8618金羚洗衣机售后服务
万圣节的活动作文600字范文
万圣节的活动作文600字范文(精选21篇)  前几天是个外国独有的节日——万圣节。我的英语课外兴趣班开展了一次“万圣节之夜小
SEO Token(SEOT币)兑换英镑今日价格行情,SEO Token(SEOT币)今日价格行情,最新消息,SEOT24小时实时汇率K线历史走势图分析
周三,重新提名美国SEC委员CarolineCrenshaw的投票被取消,这可能意味着她将失去在SEC连任的机会。美国参议院银行委员会原定于上