MARC状态:审校 文献类型:中文图书 浏览次数:159
- 题名/责任者:
- Web中文舆情信息挖掘/王天志著
- 出版发行项:
- 北京:科学出版社,2020
- ISBN及定价:
- 978-7-03-063546-4/CNY130.00
- 载体形态项:
- 192页:图;26cm
- 个人责任者:
- 王天志 著
- 学科主题:
- 互联网络-舆论-信息处理
- 中图法分类号:
- G202
- 书目附注:
- 有书目 (第168-178页)
- 提要文摘附注:
- 本书首先论述网页提取:对网站链接进行过滤以缩小搜索范围,提高搜索准确度、效率和可行性;通过选择精当检索词、遴选相关主题词,增强搜索的精度和效率;根据HTML生成DOM树,根据不同模板类型进行正文抽取和正文过滤。其次阐述了文本的特征向量表示,用分词词典将中文文本进行分词,分词的过程中进行了歧义分析,将分词后的文本用特征向量表示,通过去停用词、进行词性标注、同义词替换等进行文本的特征降维。再讲述文本聚类与分类,包括文本特征加权、主成份分析和基于模糊矩阵的蚁群聚类。最后讲述文本的倾向性分析。
全部MARC细节信息>>