5月30日晚六点,重庆翰海睿智大数据科技有限公司组织了以“数据采集之探秘网络蜘蛛”为主题目的技术讲座。主讲工程师翰海睿智项目经理巫达勇老师,cloudera大数据学院的学子们认真的凝听了一场丰盛的技术大餐。
这是最好的时代,我们已经进入DT时代,以数据为王,面对漫天的数据,我们又能留住什么?看到百度贴吧那些漂亮的图片,我们只能一页一页的翻看吗?现在,让我们利用网络蜘蛛进行实操演示:从网页小生到爬虫达人。
讲座中,巫工给学生们解析了网络爬虫,怎样才能在网站上爬取自己想得到的东西。而网络爬虫也被称为网络蜘蛛,是一个在互联网中访问不同网站的各个页面的互联网软件。网络爬虫从这些网页中检索各种信息将其存储在其记录中,这些抓取工具主要用于从网站收集内容再经过后期分析整理,提取出我们需要的有效结果。
网络爬虫是一个自动化脚本,它的所有行为都是预定义的。爬虫首先从访问的URL的初始列表开始,这些URL称为种子,网络爬虫从初始的种子页面确定所有其他页面的超链接,然后将这些网页以HTML文档的形式爬取回来,这些HTML文档由解析程序清洗处理并保存有效数据。
此次讲座学生们纷纷表示收获颇多,提前预习了专业知识,对专业技术的学习兴趣更浓;经过巫工的演示,对为爬虫的所用更加清晰明朗。