网络热点话题的挖掘与分析__新闻_【生意多】-免费发布分类信息

　　元素属性“herf” 文本元素文本文本 2.2DOM的结构 2.3 中文分词在英文语句中，最基本的单位是单词（word）,单词与单词之间以空格作为天然的分隔符，而中文的最基本单位是汉字，但是单个汉字往往不能表达特定的意思，真正能表达语义的是若干个汉字组合成的词。因此，在让计算机进一步处理之前，需要对中文语句进行分词，使其分割成一个个基本的语义单位。目前的分词算法主要分为三大类：基于字符串匹配的方法、基于理解的方法字符串匹配分词该方法需要一个较为完备的词典，在分词时将待分词的语句与这个词典中的词进行匹配。如果在词典中找到某个词与其匹配，那么这个词就被识别出来。按照匹配长度的不同带来的优先级的不同，该分词方法可以分为最长匹配分词和最短匹配分词。按照扫描方向的不同带来的优先级的不同，该分词方法可以划分为正向匹配分词和逆向匹配分词。常用的几种字符串匹配分词方法有正向最大匹配法、逆向最大匹配法、最少切分法和双向最大匹配法等。理解分词方法该方法的基本思想是让计算机模拟人对于句子的理解，以此达到识别词语的效果。该方法为了克服分词过程中遇到的歧义的问题，在分词的同时进行句法、语义分析。但是这种分词方法需要使用大量的语言知识，目前正处于研究、试验阶段，尚未成熟。统计分词方法该方法基于相邻的字如果共同出现的次数越多，它们就越有可能构成一个词的假设。共同出现的次数体现了两个汉字之间结合的紧密程度。通过对文本中共同出现的字组的频度进行统计，可以计算它们的共现频度。当共现频度高于预定的阈值时，便认为此字组构成了一个词。该方法的优点在于只需对文档中的字的共现频度进行统计，不需要词典和复杂的语言知识。但这种方法只利用了统计信息，具有一定的局限性，往往抽出来的是一些共现频度很高但并非词语的常用字 2.4文本表示 2.4.1 文本建模相对于数据库中结构化的数据而言，得到的文本是非结构化的，为了便于计算机的处理，需要建立合适的模型来表示。在实际的操作当中，都对文本做了一种叫做“词袋”(bag words)的假设，也就是认为文本可由文本中的词的种类及其出现的频率来表示，而词与词之间的相对位置则可以忽略。这显然是对文本进行了很大程度的简化，但是实验表明这种简化在绝大多数情况下都能取得良好的效果，因此是合理的。在“词袋”假设的基础上，目前主要有以下几个文本表示模型：布尔模型该模型是一种非常简化的模型，它将一篇文档表示成一个向量，向量的长度等于词汇表的长度，向量的每个分量对应词汇表的某个特定的词，如果该词出现在文档中，则该分量为 1，如果不出现，则该分量为 0。这种模型丢失了词出现的频率信息，因此表示文本的精度和能力有限，使用场合较少。向量空间模型向量空间模型又称VSM（Vector Space Model），同布尔模型类似，它也是将一篇文档表示成一个向量，向量的长度等于词汇表的长度，向量的每个分量对应词汇表的某个特定的词，不过对应的分量的值不是二进制的 1，而是相应的权重，极大地增强了其对于文档的表示能力。假设文档集的词的总数为N，那么特定的文档就可以表示成由词的权重组成的N 维向量，即d 个词在文档d中的权重。 VSM模型中文本的各个元素和向量空间中的各个元素的对应关系如下：向量空间的一个维度词的权重对应维度的坐标值文档向量空间的一个点文档文档文档的集合向量空间的一组点集 2.3文档与VSM的对应关系向量空间模型由于其对文档出色的描述能力以及简单易操作等特点，成为文本表示领域最重要的模型之一，广泛应用于自动摘要、文本分类、文本聚类等领域中。语义模型在用词语对文本进行建模的时候容易遇到以下两个问题：由于同义词和近义词的存在，不同的词可能会表达相同或相近的含义。为了解决以上问题，有学者提出了概率潜在语义分析（pLSA） [10] ，该模型将把高维的向量空间映射到语义空间，在降低维度的同时，解决了近义词和同义词的问题。生成模型LDA这个模型是 Blei 等人在 2003 年提出的 [11] ，也是近年来非常流行的一种文本模型。该模型是一个三层贝叶斯模型，它的基本假设是整个文档集会包含若干个主题，每个文档都可以属于任意的主题，因此文档有一个关于主题的概率分布；每个词也都可以属于任意的主题，因而每个主题有一个关于词的概率分布。LDA 的全称是Latent Dirichlet Allocation,即潜在狄利克雷分配。它认为文档中的词是显式的、可以观察到的变量，而主题则是潜在的变量，而文档中词的产生受到这个潜在的变量的制约。 LDA 的概率图模型如下： 2.4LDA 的概率图模型其中，α和β是超参数，K 是主题的数目，M是文档的数目，N 是文档内词的数目。θ是关于α的狄利克雷分布，代表文档关于主题的概率分布；φ是关于β的狄利克雷分布，代表主题关于词的概率分布。这个模型之所以叫生成模型的原因从上图可以很容易地看出来：首先从文档关于主题的概率分布中按概率选取一个主题，再从主题关于词的概率分布中按概率选取一个词。将这个过程重复N 次就得到了一篇文档。再按照这种方式重复次就得到了整个文档集。LDA模型从概率层面深刻地描绘了一个文档集和其中的每篇文档和每个词的产生过程，在文本 10 分类、文本聚类、特征词提取等方面应用广泛，并且在 LDA 的基础上有很多衍生、变异的形式。 2.4.2 权重计算在向量空间模型中，向量在每个维度上的取值等于词对应的权重。该权重反映了这个词对于这篇文档的重要性，权重越大，重要性越高。如果一个词在某篇文档中出现的频次越高，则其对该文档的描述能力越强，那么这个词对于这篇文档的重要性越大；如果该词在该文档集的其它文档中出现的次数越少，说明这个词可以有效地区分该篇文档与剩余的文档，那么这个词对这篇文档的重要性也越词频逆文档频率TFIDF很好地刻画了上述思想 [12] ，其公式如下：（2-1）其中，ω 代表文档集中包含第i个词的文档的个数，N 代表文档总数，代表第k篇文档词的总数。 2.4.3 文本相似度的计算在将文本表示成向量之后，衡量文本之间相似度的方法主要可以通过计算向量之间的距离来实现，距离越小，相似度越高。除此之外，也可以通过集合之间的相似度计算方法来衡量。下面简单介绍一下距离和相似度的一些计算公式。按照前面对于向量空间模型的描述，可以将文档表示成为向量d 欧几里得距离distance(d 棋盘距离distance(d 闵可夫斯基距离distance(d 余弦相似度11 similarity(d Jaccard相似度 similarity(d （2-6）2.5 文本聚类算法文本聚类算法是话题发现的基础。一般来说，描述同一事件或话题的文本相似度较大，而描述不同事件或话题的文本相似度较小。基于这个假设，可以将文本相似度作为文本之间距离的度量，将那些相似度较高的文本聚合在一起，实现信息的有效组织和管理 [13] 2.5.1聚类算法聚类是一种无监督的学习方式，不需要事先进行学习和训练 [14] 。常用的聚类方法有如下几种：划分聚类划分聚类是将文本的集合划分到事先指定个数的类中，有模糊划分和确定性划分两种方式。 k-means 是目前最为常用的划分聚类的方法。k-means 方法的核心思路是，首先将样本初始划分成k 类，计算k 类各自的中心。然后在每次迭代过程中将每个样本分到离中心点最近的那一类当中，之后重新计算k 个类的中心点，直到中心点的位置收敛或没有样本归属的类发生变动聚类终止。 k-means 作为一种非常常用的聚类算法，思路简单清晰，聚类效果也较好。但k-means 也存在一定的问题。首先，它作为一种划分聚类，需要事先确定聚类的数目，但是在一般情况下，这个聚类的数目是无法实现知道的或者在动态变化的。另外，聚类的结果和速度也往往会受到初始聚类中心位置的影响。而且 k-means 算法往往达不到全局最优，只能得到局部最优。层次聚类层次聚类方法主要分为自顶向下的分裂式和自底向上的凝聚式算法。对于凝聚式层次聚类算法，首先将每个样本看作是一个独立的类，然后从中选择距离最近的两个类进行合并，不断重复上述过程，直到类的个数达到预定的数目或者类之间的距离满足一定的阈值。对于分裂式层次聚类算法，首先将所有样本看成是一类，然后将其分成两类， 12 使得这两类中心的距离最远。重复这个过程，直到类的个数达到预定的数目或者类之间的距离满足一定的阈值。层次聚类的优点是思路清晰，可以挖掘样本之间的层次结构关系。但是这种聚类算法的时间复杂度和空间复杂度均较高，不太适宜在大样本数据集上使用。密度聚类层次聚类和划分聚类方法比较容易发现球状的簇，但是如果对于形状不规则的簇难以取得良好的效果。基于密度的聚类方法能够有效解决这个问题。该方法通过将样本空间中那些较高密度的联通区域形成一个簇的方法实现聚类，可以得到任意形状的簇。密度聚类算法的优点在于不需要事先指定簇的个数，对输入数据的顺序也不敏感，而且可以获得任意形状的簇。但是密度聚类算法的计算复杂度也很高，使其应用受到了一定的限制。网格聚类基于网格的聚类算法将数据空间划分成一个个网格单元，将全部样本分别分配到其所属的网格单元中，进而计算所得到的每个网格单元的密度。将密度低于阈值的网格单元直接删除，再将剩余的密度较大的网格单元结合成簇，实现聚类。网格聚类算法的效率较高，但是牺牲了聚类的准确度。 2.5.2 聚类算法性能评估目前，衡量聚类算法效果主要有准确率、召回率、F-score 等方法。准确率是所有文本中与被正确分类的文本占分到该类的文本总量的比例，公式如下：准确率Precision 正确分类的文本数分到该类的总的文本数（2-7）召回率是正确分到该类的文本占所有应该属于该类的文本数量的比例，公式如下：召回率（Recall）正确分类的文本数属于该类的总的文本数（2-8）准确率和召回率反映了聚类效果的两个侧面，但是二者往往存在此消彼长的关系，例如过高的准确率很可能造成较低召回率，而过高的召回率又很可能造成较低的准确率，因此二者必须综合考虑，这就产生了评价标准 F-score。F-score 是根据准确率（Precision）和召回率（Recall）综合之后得出的，定义如下： F_score （2-9）13 系统实现在深入调研相关算法和技术的基础上，本研究实现了一个完整的网络热点话题挖掘系统，并且为了尽可能提升系统的性能，对其中的一些关键的算法和技术进行了修改和优化。这一章将详细介绍系统的整体结构以及各部分的具体实现方 3.1整体思路本系统主要由网络新闻数据获取、网络新闻数据处理、网络新闻数据分析以及结果呈现四大层次模块构成，系统的框架示意图如下： 3.1系统的整体结构具体的系统流程如下图所示：数据获取 •爬虫设计 •网页结构化信息提数据处理•中文分词 •权重计算 •特征提取 •文本建模数据分析 •文本聚类 •话题发现 •趋势跟踪数据呈现 •服务器- 客户端模 •图形用户界面 14 互联网网络爬虫网页集合信息提取结构化新闻信息中文分词权重计算特征提取 VSM模型文本聚类话题发现热度计算趋势跟踪热点话题系统运行结果图形用户界面客户端 3.2系统的流程图从系统流程图可以看出，本系统首先从互联网中通过网络爬虫来爬取新闻数据，得到新闻网页的集合。但是网页是以HTML 格式写成的，所以需要对其进行结构化信息提取，得到结构化的新闻数据。由于得到是中文的新闻报道，所以需要对其进行中文分词，将文档拆分成最小的语义单位。接下来计算文档中的每个词在这篇文档中的权重，进而可以根据词和词的权重提取出这篇文档的特征，为文档建立模型。接下来通过无监督的聚类算法对获得的新闻信息进行聚类，根据聚类结果将其中的热点话题提取出来。在提取出热点话题的基础上，可以实现对其趋势进行跟踪等处理。最后，通过图形用户界面的方式，将处理分析的结果向用户呈现。为了将系统的内部实现和结果的呈现解耦并便于多用户的访问，采取了服务器和客户端的模型，将程序的运行和数据的存储放到实验室的服务器上，而客户端可以通过HTTP 协议访问服务器上的结果数据，并以合理的方式展示出下面逐一介绍系统各个模块的实现细节。3.2 网络新闻数据获取这一模块主要完成的是任务是从网络中爬取新闻网页，并且对其进行解析以 15 提取结构化的新闻信息，主要包含网络爬虫的设计和网页结构化信息提取两个部 3.2.1网络爬虫互联网上的信息是海量的，而且信息的种类繁多，从视频、音频、到各种类型和内容的网页，无所不包，新闻信息只占其中的一小部分，而且其中的大部分都是过时的新闻，真正有时效性的新闻则少之又少。如果不加选择、不加限制地进行盲目的爬取，那么所得到的网页中很大一部分会是无用的信息，浪费了网络的带宽和资源，并且网页的质量也参差不齐。另外网络的信息时刻在进行动态更

　　网络热点话题的挖掘与分析分析,网络,热点,热点话题,网络热点,挖掘和,挖掘的网络,与分析,热点问题,网络挖掘与

• “星船”发生猛烈爆炸，SpaceX载人登月和登陆火	• 南部战区新闻发言人就美舰擅闯中国西沙领海发表
• 南海战略态势感知：美海军“里根”号航母打击群	• 俄国防部通报在乌外国雇佣兵情况
• 南部战区新闻发言人就美舰擅闯中国西沙领海发表	• 南海战略态势感知：美海军“里根”号航母打击群
• 日本海上力量再添新装备	• 日本鹿儿岛县鹿屋市长表示接受美军无人机部署计
• 高燃瞬间！某陆航旅组织多型直升机进行海上超低	• 战机轰鸣，向战而飞！

VIP

推广服务

网络热点话题的挖掘与分析