信息工程学院(cloudera)大数据学院开展 “数据采集之探秘网络蜘蛛”技术讲座
2019-06-03 10:30:43   作者:    来源:信息工程学院 徐征(文)/ 徐征(图)    责任编辑:    点击:

5月30日晚六点,重庆翰海睿智大数据科技有限公司组织了以“数据采集之探秘网络蜘蛛”为主题目的技术讲座。主讲工程师翰海睿智项目经理巫达勇老师,cloudera大数据学院的学子们认真的凝听了一场丰盛的技术大餐。

1.jpg


这是最好的时代,我们已经进入DT时代,以数据为王,面对漫天的数据,我们又能留住什么?看到百度贴吧那些漂亮的图片,我们只能一页一页的翻看吗?现在,让我们利用网络蜘蛛进行实操演示:从网页小生到爬虫达人。

18250d7db0bfb995d5b51c3a9f92065.jpg


讲座中,巫工给学生们解析了网络爬虫,怎样才能在网站上爬取自己想得到的东西。而网络爬虫也被称为网络蜘蛛,是一个在互联网中访问不同网站的各个页面的互联网软件。网络爬虫从这些网页中检索各种信息将其存储在其记录中,这些抓取工具主要用于从网站收集内容再经过后期分析整理,提取出我们需要的有效结果。

4e91e1f2cb8fd4d8cbdb22c27f1c86d.jpg


网络爬虫是一个自动化脚本,它的所有行为都是预定义的。爬虫首先从访问的URL的初始列表开始,这些URL称为种子,网络爬虫从初始的种子页面确定所有其他页面的超链接,然后将这些网页以HTML文档的形式爬取回来,这些HTML文档由解析程序清洗处理并保存有效数据。

此次讲座学生们纷纷表示收获颇多,提前预习了专业知识,对专业技术的学习兴趣更浓;经过巫工的演示,对为爬虫的所用更加清晰明朗。


相关热词搜索: 信息工程学院(cloudera)大数据学院开展 “数据采集之探秘网络蜘蛛”技术讲座

上一篇:信息工程学院(cloudera)大数据学院举办“如何成为一名合格的商务数据...
下一篇:喜报:热烈祝贺我院在学校“青春心向党 建功新时代”——庆祝新中国成立...

分享到: 收藏
?

  版权所有:三码必中三码资料 技术支持:信息化处
扫一扫
学校地址:重庆市沙坪坝区明德路3号(重庆·大学城)
  电话:61691896 61691899 61736670 61736671 61736672(招办)

主体备案号:渝ICP备09009115号;网站备案号:渝ICP备09009115号-3  邮编:401331站长统计渝公网安备 50010602500254号