研究非结构化文本分析软件比较

来源：UC论文网2015-12-05 20:04

摘要：

摘要：文章给出了非结构化文本分析软件的定义，并将其划分为三种主要的类型：基于词典的非结构化文本分析软件、基于开发环境的非结构化文本分析软件以及基于注释的非结构化

　　摘要：文章给出了非结构化文本分析软件的定义，并将其划分为三种主要的类型：基于词典的非结构化文本分析软件、基于开发环境的非结构化文本分析软件以及基于注释的非结构化文本分析软件。之后，文章选择了两款非结构化文本分析软件(KH Coder，Wordstat)，从内部特征和外部特征两个角度对其进行了比较分析。其中，外部特征包括：两款非结构化文本分析软件的费用、更新速度、运行环境、语言种类、客户端方式以及用户指南等6个方面;内部特征包括两款非结构化文本分析软件的主要功能、工作流程、数据格式、可视化功能的展现方式以及关系揭示等5个角度开展。分别指出两款非结构化文本分析软件的优势与劣势、非结构化文本分析软件的未来发展，以帮助用户根据自身的需求选择合适的非结构化文本分析软件。

　　关键词：非结构文本;软件;比较研究;可视化

　　一、引言

　　非结构化文本是指以文本(字符、数字、标点、各种可打印的符号等)为数据形式的非结构化数据[1]。非结构化文本数据的典型代表是图书馆数据库中的文档，这些文档可能包含结构字段，如标题、作者、出版日期、长度、分类等等，也可能包含大量非结构化文本成分，如摘要和内容[2]。当前互联网上也存在大量的非结构化电子文本，如新闻、博客、电子邮件、政府文件、聊天记录等[3]。人们应该如何正确理解这些数据?目前普遍的方式是通过人工注释语义信息实现对非结构化文本进行分析。但是数据量的过于巨大使得这项任务不可能完全凭借人工方式来完成，迫切的需要借助于计算机的帮助来完成对大量非结构化文本进行信息抽取和分析。在此情况下，非结构化文本分析软件就应运而生了。非结构化文本，主要是指类似于字符、标点、各种可打印的符号等数据。比如，一篇文档既可能包含结构字段，如标题、作者、出版日期、长度、分类等，也可能包含大量非结构化文本成分，如摘要和正文内容。而所谓非结构化文本分析软件，是指能够对非结构化文本进行自动化分析，进而将文本中词频、词性、词间关系等特征以结构化数据或者可视化方式呈现给用户的计算机软件。

　　早在20世纪50年代末，H.P.Luhn[4]就已经在非结构化文本分析领域进行了开创性的研究，提出了将词频统计思想用于文本的自动分类。之后，这一领域逐渐得到学者们的重视，出现了许多新的研究成果。如Maron M E[5]等人围绕如何对非结构化文本进行自动分类开展了研究与探讨;Ghanem M[6]等人在经过深入研究后，提出了适用于非结构化文本的分析模型。除此之外，我国也有许多学者对这一问题加以关注，研究重点主要集中在文本特征抽取与文本中间表示、关联规则抽取、语义关系挖掘、文本聚类与主题分析以及趋势分析等领域。例如，李凡[7]等人曾于2001年对文本特征的抽取进行研究，提出了一种新的文本特征抽取方法;万小军[8]等人于2003年撰文试图对文档聚类方法k-means算法加以改进;而黄晓斌教授[9]等学者则试图对互联网文本内容进行分析挖掘以达到对舆情信息的分析与预测。与此同时，由于对非结构化文本分析的需求日益加大，许多支持非结构化文本分析、功能日益完善的软件也相继出现，数量多达数十个。因此，美国哈佛大学学者Lowe W[10]于2002年撰文对前述非结构化文本分析软件进行了详细的分类与介绍，以期为用户选用非结构化文本分析软件提供借鉴与帮助。然而，尽管有越来越多的学者将目光聚焦于非结构化文本分析这一问题，也产生了丰硕的研究成果，但是应该明确的是，现有研究大都从实现技术层面着手试图对非结构化文本分析技术加以改进，而从用户角度出发，将关注点集中在应用层面的文章却少之又少。鉴于此，本文试图以两款较为常用的非结构化文本分析软件――KH Coder和Wordstat为例，从内外特征共11个方面对其数据格式、工作流程、主要功能等进行比较分析，以期为用户选用并研究非结构化文本分析软件提供参考。

　　二、非结构化文本分析软件的主要类型

　　根据笔者对各类非结构化文本分析软件的调研，并且结合前人的研究成果[10]，可初步将非结构化文本分析软件按照主要功能划分为如下三个类型：基于词典的非结构化文本分析软件、包含开发环境的非结构化文本分析软件以及包含注释的非结构化文本分析软件。

　　2.1 基于词典的非结构化文本分析软件

　　基于词典的非结构化文本分析软件以词典或词表为基础，通过将文本中的单词与词典或词表进行匹配来完成对文本的分析。其最终结果通常是对词频等特征的统计数据，如CATPAC、Concordance等。

　　2.2. 包含开发环境的非结构化文本分析软件

　　包含开发环境的非结构化文本分析软件在对文本进行分析时，能够自动生成对应的词典或词表。其最终结果也是各类统计数据，但是与基于词典的非结构化文本分析软件相比，由于使用的词典更具针对性，因此统计出的最终结果也更为精准，如Profiler Plus、DIMAP等。

　　2.3 包含注释的非结构化文本分析软件

　　包含注释的非结构化文本分析软件是三种非结构化文本分析软件中自动化程度最高的一种，其最终结果将以旁注、交叉参考以及笔记的形式呈现，其形式好比一个研究人员对某篇论文做的读书笔记一样，如Atlas-ti、NUDIST等。

　　本文选择了两款第一种类型(基于词典的非结构化文本分析软件)非结构化文本分析软件(KH Coder、Wordstat)进行比较分析。之所以选择第一种类型的非结构化文本分析软件是由于：相对来讲，第一种类型的非结构化文本分析软件的使用更为普遍;之所以选择KH Coder和Wordstat来作为比较分析的具体对象，一是由于上述两款软件较为普及，二是由于上述两款软件均为开源软件(Wordstat虽然非开源，但是有免费试用期)。

　　三、外在特征比较研究

　　本部分主要对上述两款非结构化文本分析软件的外部特征，即两款非结构化文本分析软件的基本概况进行比较，具体包括：软件的费用、软件的更新速度、软件所支持的运行环境、软件支持的语言种类、软件运行的客户端方式以及软件是否配备有用户指南等方面(见表1)。

　　3.1 软件费用

　　费用问题将很大程度上影响用户对软件的选用。上述两款非结构化文本分析软件中，KH Coder是完全免费的，用户可以通过其官网自行下载。Wordstat则是非开源的，但是有30天的试用期，在30天内用户可以免费试用，超出试用期后，需要额外购买才能使用。可见，在软件费用方面，KH Coder相对占有优势，但是由于Wordstat允许用户有30天的试用期限，也能够一定程度上满足用户需求。

核心期刊推荐

返回软件开发论文

热门论文推荐