MARC状态:审校 文献类型:中文图书 浏览次数:129
- 题名/责任者:
- 基于R语言的自动数据收集:网络抓取和文本挖掘实用指南/(德) 西蒙·蒙策尔特 ... [等] 著 吴今朝译
- 出版发行项:
- 北京:机械工业出版社,2016
- ISBN及定价:
- 978-7-111-52750-3/CNY99.00
- 载体形态项:
- XV, 366页:图;26cm
- 其它题名:
- 网络抓取和文本挖掘实用指南
- 丛编项:
- 数据科学与工程技术丛书
- 个人责任者:
- 蒙策尔特 (Munzert, Simon) 著
- 个人次要责任者:
- 吴今朝 译
- 学科主题:
- 程序语言-程序设计
- 学科主题:
- 数据采集
- 中图法分类号:
- TP312
- 中图法分类号:
- TP274
- 版本附注:
- 据2015年英文原著译出
- 出版发行附注:
- 本书中文简体字版由约翰-威利父子公司授权机械工业出版社独家出版
- 书目附注:
- 有书目 (第360-366页)
- 提要文摘附注:
- 本书共17章。第1章是概述,阐述数据挖掘的意义与实际应用。第2~8章介绍网络和数据技术基础知识。这一部分内容涉及互联网上通信、交换、保存和显示信息的基础技术(如HTTP、HTML、XML、JSON、AJAX、SQL等),并讲解用于查询网络文档和数据集的基本技术(XPath和正则表达式)。第9~11章介绍网络抓取和文本挖掘的实用工具箱。这一部分由三个核心章节组成:第9章讲解多种网络抓取技术,涉及正则表达式的使用、XPath、各类API接口、其他数据类型以及开源社区相关的技术;第10章深入介绍用于统计性文本处理的技术;第11章给出关于用R管理数据的项目中常见问题的一些见解。第12~17章介绍实际案例分析,涉及美国参议院里的合作网络、从半结构化文档解析信息、利用Twitter预测2014年奥斯卡奖、绘制姓氏地理分布图、采集关于手机的数据、分析产品评
- 使用对象附注:
- 程序设计相关人员些案例分析针对日常的数据抓取和文本处理的工作流程、真实环境数据中的陷阱以及规避它们的方法等问题提供一些实用的见解
全部MARC细节信息>>