广告位联系
返回顶部
分享到

go colly 爬虫实现示例介绍

Golang 来源:互联网 作者:佚名 发布时间:2022-10-01 20:52:09 人浏览
摘要

贡献某CC,go源码爬虫一个,基于colly,效果是根据输入的浏览器cookie及excel必要行列号,从excel中读取公司名称,查询公司法人及电话号码。并写回到excel中指定行。 1 2 3 4 5 6 7 8 9 10 11

贡献某CC,go源码爬虫一个,基于colly,效果是根据输入的浏览器cookie及excel必要行列号,从excel中读取公司名称,查询公司法人及电话号码。并写回到excel中指定行。

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

91

92

93

94

95

96

97

98

99

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

package main

import (

   "bufio"

   "fmt"

   "github.com/gocolly/colly/debug"

   "github.com/gocolly/colly/extensions"

   "github.com/xuri/excelize/v2"

   "net/url"

   "os"

   "runtime"

   "strconv"

   "time"

)

import "github.com/gocolly/colly"

var (

   cookies string

   tempUrl string

   tempGongSiName string

   tempI int

)

func main() {

   //要处理的文件全名

   var fileName string

   //列的名称

   var namelie string

   //开始行号

   var startNum int

   //结束行号

   var endNum int

   var personLie string

   var phoneLie string

   fmt.Println("请输入浏览器cookies 在浏览器 开发者模式F12,情况下找到控制台(consol) 输入(注意,Cookie中如果有 HttpOnly的需要在开发工具中将HttpOnly取消掉,然后再执行后面命令):document.cookie  即可,然后复制出来! 右击,复制字符串内容")

   //fmt.Scan(&cookies)  //此行遇到空格会 默认输入完毕了,所以不能用它

   reader := bufio.NewReader(os.Stdin)

   res, _, err := reader.ReadLine()

   if nil == err {

      cookies=string(res)

   }else{

      fmt.Println("读取cookie错误 error:", err)

      return

   }

   //fmt.Println("输入的cookie是:"+cookies)

   fmt.Println("请输入文件全路径:(字符串类型)")

   fmt.Scan(&fileName)

   fmt.Println("请输入Excel要查询公司名称列的字母(字母大写):")

   fmt.Scan(&namelie)

   fmt.Println("请输入Excel指定列的第一个行号(数字类型):")

   fmt.Scan(&startNum)

   fmt.Println("请输入Excel指定列的最后一个行号(数字类型):")

   fmt.Scan(&endNum)

   fmt.Println("请输入Excel联系人的所在列的字母(字母大写):")

   fmt.Scan(&personLie)

   fmt.Println("请输入Excel联系电话所在列的字母(字母大写):")

   fmt.Scan(&phoneLie)

   //输出所有输入的信息,验证正确

   //fmt.Println(fileName,namelie,startNum,endNum,personLie,phoneLie)

   f, err := excelize.OpenFile(fileName)

   if err!=nil {

      fmt.Println(err)

      return

   }

   c:=initCollector(f,personLie,phoneLie)

   //上面打开的工作簿记得关闭吆。

   defer func() {

      // 关闭工作簿

      if err := f.Close(); err != nil {

         fmt.Println(err)

      }

   }()

   for i:=startNum;i<=endNum;i++{

      // 获取工作表中指定单元格的值

      cell, err := f.GetCellValue("Sheet1", namelie+strconv.Itoa(i))

      if err != nil {

         fmt.Println("读取第"+strconv.Itoa(i)+"行出错!")

         return

      }else{

         fmt.Println("开始抓取:"+cell+"  数据")

         tempGongSiName = cell

         tempI = i

         visitUrl(c)

         time.Sleep(1*time.Second)

      }

   }

   fmt.Println("-------------亲爱的,程序成功执行完毕。--------我要喝咖啡,我要吃肉肉------!")

}

///初始化收集器

func initCollector(f *excelize.File,personLie string,phoneLie string,) *colly.Collector {

   c := colly.NewCollector(colly.MaxDepth(1), colly.Debugger(&debug.LogDebugger{}))

   extensions.RandomUserAgent(c)                              // 使用随机的UserAgent,最好能使用代理。这样就不容易被ban

   c.SetProxy("socks5://127.0.0.1:7890")

   c.OnError(func(response *colly.Response, err error) {

      fmt.Println("---->onError  --------爬取出错了"+err.Error())

      runtime.Goexit()

   })

   c.OnResponse(func(response *colly.Response) {

      fmt.Println("---->onResponse")

   })

   c.OnXML("table", func(element *colly.XMLElement) {

      fmt.Println("---->onXML")

   })

   c.OnRequest(func(r *colly.Request) {

      r.Headers.Set("Cookie",cookies)

      r.Headers.Add("referer", tempUrl)

      r.Headers.Add("sec-fetch-mode", "cors")

      r.Headers.Add("sec-fetch-site", "same-origin")

      r.Headers.Add("accept", "text/javascript, application/javascript, application/ecmascript, application/x-ecmascript, */*; q=0.01")

      r.Headers.Add("accept-encoding", "gzip, deflate, br")

      r.Headers.Add("accept-language", "en,zh-CN;q=0.9,zh;q=0.8")

      r.Headers.Add("X-Requested-With", "XMLHttpRequest")

   })

   c.OnHTML("tr:first-child", func(e *colly.HTMLElement) {//拿到查询的第一条数据。

      fmt.Println("---->onHtml---获取成功!")

      //拿到第一条的公司主要信息。

      //fmt.Println("---->"+e.DOM.Find(".relate-info").Text())

      sellectEle := e.DOM.Find(".relate-info")

      //最终查询出来的人

      name:=sellectEle.Find("div:nth-child(1)").Find("div>span").First().Find("a").Text()

      //最终查询出来的电话

      phone:=sellectEle.Find("div:nth-child(2)").Find("div>span").First().Find("span>span").Find(":nth-child(2)").Text()

      //fmt.Println("--->>>"+name)

      //fmt.Println("--->>>"+phone)

      f.SetCellValue("Sheet1", personLie+strconv.Itoa(tempI), name)

      fmt.Println("将"+tempGongSiName+"人名 ("+name+") 写入  "+personLie+strconv.Itoa(tempI))

      f.SetCellValue("Sheet1", phoneLie+strconv.Itoa(tempI), phone)

      fmt.Println("将"+tempGongSiName+"电话 ("+phone+") 写入  "+phoneLie+strconv.Itoa(tempI))

      f.Save()

   })

   c.OnScraped(func(response *colly.Response) {

      fmt.Println("onScraped")

   })

   return c

}

//访问给定名称

func visitUrl(c *colly.Collector){

   tempUrl:="https://www.xxx.com/web/search?key="+url.QueryEscape(tempGongSiName)

   c.Visit(tempUrl)

}


版权声明 : 本文内容来源于互联网或用户自行发布贡献,该文观点仅代表原作者本人。本站仅提供信息存储空间服务和不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权, 违法违规的内容, 请发送邮件至2530232025#qq.cn(#换@)举报,一经查实,本站将立刻删除。
原文链接 : https://juejin.cn/post/7148752862388944926
相关文章
  • 基于GORM实现CreateOrUpdate的方法
    CreateOrUpdate 是业务开发中很常见的场景,我们支持用户对某个业务实体进行创建/配置。希望实现的 repository 接口要达到以下两个要求: 如果
  • Golang中的内存逃逸的介绍
    什么是内存逃逸分析 内存逃逸分析是go的编译器在编译期间,根据变量的类型和作用域,确定变量是堆上还是栈上 简单说就是编译器在编译
  • Golang自旋锁的介绍
    自旋锁 获取锁的线程一直处于活跃状态,但是并没有执行任何有效的任务,使用这种锁会造成busy-waiting。 它是为实现保护共享资源而提出的
  • Go语言读写锁RWMutex的源码

    Go语言读写锁RWMutex的源码
    在前面两篇文章中初见 Go Mutex、Go Mutex 源码详解,我们学习了Go语言中的Mutex,它是一把互斥锁,每次只允许一个goroutine进入临界区,可以保
  • Go项目实现优雅关机与平滑重启功能
    什么是优雅关机? 优雅关机就是服务端关机命令发出后不是立即关机,而是等待当前还在处理的请求全部处理完毕后再退出程序,是一种对
  • Go语言操作Excel利器之excelize类库的介绍
    在开发中一些需求需要通过程序操作excel文档,例如导出excel、导入excel、向excel文档中插入图片、表格和图表等信息,使用Excelize就可以方便
  • 利用Go语言快速实现一个极简任务调度系统

    利用Go语言快速实现一个极简任务调度系统
    任务调度(Task Scheduling)是很多软件系统中的重要组成部分,字面上的意思是按照一定要求分配运行一些通常时间较长的脚本或程序。在爬
  • GoLang中的iface 和 eface 的区别介绍

    GoLang中的iface 和 eface 的区别介绍
    GoLang之iface 和 eface 的区别是什么? iface和eface都是 Go 中描述接口的底层结构体,区别在于iface描述的接口包含方法,而eface则是不包含任何方
  • Golang接口使用的教程
    go语言并没有面向对象的相关概念,go语言提到的接口和java、c++等语言提到的接口不同,它不会显示的说明实现了接口,没有继承、子类、
  • go colly 爬虫实现示例介绍
    贡献某CC,go源码爬虫一个,基于colly,效果是根据输入的浏览器cookie及excel必要行列号,从excel中读取公司名称,查询公司法人及电话号码。
  • 本站所有内容来源于互联网或用户自行发布,本站仅提供信息存储空间服务,不拥有版权,不承担法律责任。如有侵犯您的权益,请您联系站长处理!
  • Copyright © 2017-2022 F11.CN All Rights Reserved. F11站长开发者网 版权所有 | 苏ICP备2022031554号-1 | 51LA统计