当前位置:论文网 > 论文宝库 > 信息科技类 > 通信论文 > 正文

基于DOM 树的信息推广平台

来源:UC论文网2015-11-06 18:59

摘要:

1引言 随着互联网+时代的到来,信息的来源,可信度,及时度越来越受到人们的关注,但现在大多数的信息都是来自Web 网页,这样的信息多而杂,具网络资料显示,文本信息正以指数型

  1引言

  随着“互联网+”时代的到来,信息的来源,可信度,及时度越来越受到人们的关注,但现在大多数的信息都是来自Web 网页,这样的信息多而杂,具网络资料显示,文本信息正以指数型式不断增长。为了节约时间,就有了基于Web 页面挖掘技术的产生。实现信息推送最好的选择就是微信公众平台。微信公众平台是最近几年新出的推送信息的一种新方式,它是腾迅公司在微信的基础上新增的功能模块,通过这一平台,个人和企业都可以打造一个微信的公众号,并实现和特定群体的文字、图片、语音的全方位沟通、互动。

  2Web 页面挖掘

  如今Internet 上很多网页都是动态生成的,通过用户填写表单提交信息,动态的生成Deep Web 页面,与此同时用户提交的大量数据信息被保存在网站的后台数据库中。由于页面中数据记录之间的代码具有极高的结构相似性,因此Web 数据记录所对应的标签树之间自然也具有很高的相识性,所以网页往往具有相似的结构和局部代码重复性。因此数据的自动化提取则可以分为以下几个步骤:

  (1)输入一些具有相同或相似结构的Web 页面。

  (2)对这些Web 页面进行预处理,就是将一些与网页无关的内容进行删除,将代码结构不严谨的HTML 页面转换成结构严谨、易于处理的HTML 页面。

  (3)将处理好的页面解析成以标签为队列的线性数据结构,接着利用标签队列的匹配去除页面中的广告,导航栏等。

  (4)按照一些页面性质将网页中的标签归类成为一些小集合,然后对这些小集合的有效数据进行自动抽取,并自动生成该类的模版页。

  3DOM 标签树

  HTML 通过定义一套标签来刻画显示的页面。依据标签的作用可将HTML 的标签分为三类:

  (1)规划网页布局的标签。在视觉上,我们都知道网页是由无数的方块嵌套在一起组成,而里面的内容则是由标签规划出来的。常用的标签有:<div> <p> <td> <tr> <table> </table> </tr> </td> </p> </div> 

等。

  (2)描述显示特点的标签。在网页中常看到为了引起我们注意的不同格式文字,它们都是由一些标签规定的,这类标签称为信息标签。常用的有:<b> <i> <strong> <h1> <h2> </h2> </h1> </strong> </i> </b>

等。

  (3)超链接相关的标签:超链接是网页区别于普通文本最明显的特征之一。它表示着网页间的关系,整理出超链接标签可以挖掘出网页间的相关内容。

  4部分功能与实现的步骤

  4.1HTML 的预处理

  现在大多数的网站都是以HTML 文档形式向客户展开,每一个页面中的数据和格式都是以一组成对的“始标记”与“结束标记”组成。例如:<br> 和</br>,<body>,</body> 等。在页面中的标签可以相互嵌套使
用。为了避免网页不兼容、代码错误的现象可能导致的页面解析失败,我们可以先除去一些无用的标签,如:<from>,<select>,页面中的style 和注释等。
  可以把预处理流程归纳为:

  (1)获取THML 页面。

  (2)将HTML 转换成XHTML。

  (3)去除标签和无关脚本。

  (4)去除导航栏,广告等无关数据。
  去除style 和注释可以分别用正则表达式<style (? s) .* ? </style>>(\ r \ n)? 和<! - -(? s) . * ? - ->(\ r \ n)? 。去除广告,导航栏等信息的方法是主要将HTML 页面解析成标签树,在根据标签树中具有相同名称和属性的节点进行分析,判断该父节点及其以下的子节点是否相同,如果相同就从其父节点处删除。

  4.2HTML 页面的解析

  经过HTML 处理以后生成XHTML,使得Web 结构更加规整化。这样就更方便的判断其节点的类型,如果该节点是开始标签,那么就判断它的属性是否为空,如果不为空,则为开始标签删除其属性,直到仅剩下普通文本。再根据正则表达式提取我们所需要的信息。如果遇到该节点的结束标签,则进行下一个开始标签的分析,直至循环到该页面提取结束。

  5Dom 树与信息推送的联系

  Web 页面信息提取的过程也就是页面扩展DOM 树的创建过程。简单来说,DOM 树就是根据HTML 页面中标签的含义创建出来的具有层次关系的树状结构,树中的每一个节点都是对应于HTML 的标签,我们通过存取这些标签就能操作文档中的内容。

  程序通过操作DOM 树,将众多页面中的客户需要知道的消息提取出来存入数据库,当用户在消息推送的微信公众号上查询想知道的信息时,消息就会从数据库中读出来展现在微信平台上。

  6结语
  选用DOM 树结构为Web 页面信息采集的核心技术,是因为DOM 易用性强,使用时,它可以将XML 文档信息都存于内存中,并且遍历简单,支持XPath,增强了通用性,对于开发软件较为容易。

核心期刊推荐