阅读:3667回复:1
配套辅助课程之golang爬虫初级版开更
本课程是 “付费阅读”大型混合实战第一季(正在连载中)的配套课程。
由于课程中要模拟上线试运行,需要数据。因此我们使用go+第三方框架来对某在线教育网站进行抓取,作为课程演示的初始数据(预计需要填充上百万) 为啥要填充这么多测试数据? 答:就几十条几百条,怎么能发现系统或开发上的问题、怎么能过瘾? 另外:由于一些众所周知的原因,本课程仅仅是作为实战课程的配套数据抓取,不会讲太深(你懂的) 本课程也是连载状态,每周预计更新2-3课时 本周先放出5课时 第1讲:开张课、免责申明、课程内容等 (免费,免责申明) 由于一些众所周知的原因。我们需要先做个申明,以及本课程涉及到的程度 第2讲:选择器的初步使用、打印出所有一级分类 我们快速了解下选择器,更多的大家可以根据课程指引课后恶补 第3讲:取出一级分类链接、hashset的使用、获取完整url 先简单的在首页上分析出一级分类 第4讲:在首页上获取一级、二级、三级分类(文本) 今天我们利用选择器一次性把三级分类全部分析出,以文本的方式打印出来 第5讲:抓取多级分类并保存到mysql中(递归级联) 本课时我们把抓取到的三级别分类利用gorm保存到mysql中,注意表是支持无限递归的 |
|
|