作者: 来源: 日期:2022/8/24 15:32:03 人气:307
目前,从企业到党政机关、高校,再到公众人物、相关事业单位等,舆情监测已在各个领域得到广泛应用。
所以,舆情监测软件产品在市场上也层出不穷。
网络舆情监测从技术角度看,实际上是很多技术组合的结果。一般来说,舆情监测技术首先包括:
1.网络舆情搜集。
网络爬虫(We-bcrawler)和网页清洗(WebPageCleaning)是信息搜集步骤中的重要技术。
网络爬虫是一种按一定规矩自动抓取网络信息的程序,又称网络蜘蛛(WebSpider)。网络爬虫分为三大类:面向主题的通用爬虫(GenerpurseWebCrawer)
面向DepWeb爬虫(DepWebCrawer)的FocusCrawerorTopicalCrawler)。考虑到网络舆情监面向行业监测,倾向于面向主题爬虫。
网页整理是将网页页面中的“噪音”数据过滤掉,提取出网页页面中有使用价值的信息内容。网页整理分析法首要分为树结构分析法、网页发掘法、正则表达法三大类。树结构分析法的使用最为广泛,开源软件htmlparse是比较有代表性的工具,缺陷是对每个网页的结构依赖性很大。
言论自动分类。
网络舆情分类是自动分类搜集的舆情,是整理和发现舆情的关键步骤,首要使用于自然语言处理中的文本分类(TextCategorizan)和文本聚类等技术。
三、主题辨认和盯梢。
论题辨认与追寻是网络舆情监测中的核心技术,是经过算法找出热点问题,经过算法追寻论题的发展过程,对网络舆情的聚类进行分析。
四、情感分析文本。
文字情感分析(又称文字倾向或观点发掘(OPIONININI)),是对带有情感颜色的主观文本进行分析、处理、概括和推理的过程。文字情感分析是自然语言处理技术中具有巨大研讨价值和使用价值的新兴研讨课题,总体分为情感信息提取、情感信息分类、情感信息检索概括三大研讨使命。