golang 百度贴吧爬虫

实际上爬虫一共就四个主要步骤：

1 明确目标(要知道你准备在哪个范围或网站去搜索)

2 爬(将所有的网站的内容全部爬下来)

3 处理数据(按照我们想要的方式存储和使用)

百度贴吧

https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=50 下一页 + 50

package main
import (
"fmt"
"net/http"
"os"
"strconv"
)
func HttpGet(url string) (result string, err error) {
  resp, err1 := http.Get(url)
  if err != nil {
      err = err1
      return
	}
    defer resp.Body.Close()
    //读取网页body内容
    buf := make([]byte, 1024*4)
    for {
        n, err := resp.Body.Read(buf)
        if n == 0 { //读取结束，或者， 出问题
            fmt.Println("resp.Body.Read err = ", err)
            break
        	}
        result += string(buf[:n])
     }
      return
}
func DoWork(start, end int) {
    fmt.Printf("正在爬取 %d 到 %d 的页面\n", start, end)
    //1 明确目标(要知道你准备在哪个范围或者网站去搜索)
    //https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=0 下一页 + 50
    for i := start; i <= end; i++ {
        url := "https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=" + strconv.Itoa((i-1)*50) //返回i的base进制的字符串表示。go语言不像PHP等弱类型语言那么灵活
        fmt.Println("url = ", url)
        //2 爬(将所有的网站的内容全部爬下来)
        result, err := HttpGet(url)
        if err != nil {
        fmt.Println("HttpGet err = ", err)
        continue
    }
    //把内容写入到文件
    fileName := strconv.Itoa(i) + ".html"
    f, err1 := os.Create(fileName)
    if err1 != nil {
        fmt.Println("os.Create = err1", err1)
        continue
    }
    f.WriteString(result) //写内容
    f.Close()
    }
}
func main() {
    var start, end int
    fmt.Printf("请输入起始页( >= 1) :")
    fmt.Scan(&start)
    fmt.Printf("请输入终止页(>= 起始页)")
    fmt.Scan(&end)
    DoWork(start, end)
}

并发版网络爬虫

package main
import (
    "fmt"
    "net/http"
    "os"
    "strconv"
)
func HttpGet(url string) (result string, err error) {
    resp, err1 := http.Get(url)
    if err != nil {
        err = err1
        return
    }
    defer resp.Body.Close()
    //读取网页body内容
    buf := make([]byte, 1024*4)
    for {
        n, err := resp.Body.Read(buf)
        if n == 0 { //读取结束，或者， 出问题
            fmt.Println("resp.Body.Read err = ", err)
            break
        }
    result += string(buf[:n])
    }
    return
}
//爬取一个网页
func SpiderPage(i int, page chan int) {
    url := "https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=" + strconv.Itoa((i-1)*50) //go语言不能像PHP语言那么灵活
    fmt.Printf("正在爬第%d页网页: %s\n", i, url)
    //2 爬(将所有的网站的内容全部爬下来)
    result, err := HttpGet(url)
    if err != nil {
        fmt.Println("HttpGet err = ", err)
        return
    }
    //把内容写入到文件
    fileName := strconv.Itoa(i) + ".html"
    f, err1 := os.Create(fileName)
    if err1 != nil {
        fmt.Println("os.Create = err1", err1)
        return
    }
    f.WriteString(result) //写内容
    f.Close()
    page <- i //写入到管道
}
func DoWork(start, end int) {
    fmt.Printf("正在爬取 %d 到 %d 的页面\n", start, end)
    page := make(chan int) //新建管道
    //1 明确目标(要知道你准备在哪个范围或者网站去搜索)
    //https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=0 下一页 + 50
    for i := start; i <= end; i++ {
        go SpiderPage(i, page)
    }
    for i := start; i <= end; i++ { //此语句的作用防止主协同还未执行, 子协程已经退出
        fmt.Printf("第%d个页面爬取完成\n", <-page) //读取管道的数据
    }
}
func main() {
    var start, end int
    fmt.Printf("请输入起始页( >= 1) :")
    fmt.Scan(&start)
    fmt.Printf("请输入终止页(>= 起始页)")
    fmt.Scan(&end)
    DoWork(start, end)
}

相关推荐

AI「自我复制」能力曝光，RepliBench警示:大模型正在学会伪造身份: 科幻中AI自我复制失控场景，正成为现实世界严肃的研究课题。英国AISI推出RepliBench基准，分解并评估AI自主复制所需的四大核心能力。测试显示，当前AI尚不具备完全自主复制能力，但在获取资源...

【Python第三方库安装】介绍8种情况，这里最全看这里就够了!: **本图文作品主要解决CMD或pycharm终端下载安装第三方库可能出错的问题**本作品介绍了8种安装方法，这里最全的python第三方库安装教程，简单易上手，满满干货！希望大家能愉快地写代码，而不要...

pyvips，一个神奇的 Python 库!（pythonvip视频）: 大家好，今天为大家分享一个神奇的Python库-pyvips。在图像处理领域，高效和快速的图像处理工具对于开发者来说至关重要。pyvips是一个强大的Python库，基于libvips...

mac 安装tesseract、pytesseract以及简单使用: 一.tesseract-OCR的介绍1.tesseract-OCR是一个开源的OCR引擎，能识别100多种语言，专门用于对图片文字进行识别，并获取文本。但是它的缺点是对手写的识别能力比较差。2.用te...

实测o3/o4-mini:3分钟解决欧拉问题，OpenAI最强模型名副其实!: 号称“OpenAI迄今为止最强模型”，o3/o4-mini真实能力究竟如何？就在发布后的几小时内，网友们的第一波实测已新鲜出炉。最强推理模型o3，即使遇上首位全职提示词工程师RileyGoodsid...

使用Python将图片转换为字符画并保存到文件: 字符画（ASCIIArt）是将图片转换为由字符组成的艺术作品。利用Python，我们可以轻松实现图片转字符画的功能。本教程将带你一步步实现这个功能，并详细解释每一步的代码和实现原理。环境准备首先，你...

5分钟-python包管理器pip安装（python pip安装包）: pip是一个现代的，通用、普遍的Python包管理工具。提供了对Python包的查找、下载、安装、卸载的功能，是Python开发的基础。第一步：PC端打开网址：选择gz后缀的文件下载第二步：...

网络问题快速排查，你也能当好自己家的网络攻城狮: 前面写了一篇关于网络基础和常见故障排查的，只列举了工具。没具体排查方式。这篇重点把几个常用工具的组合讲解一下。先有请今天的主角：nslookup及dig，traceroute，httping，teln...

终于把TCP/IP 协议讲的明明白白了，再也不怕被问三次握手了: 文：涤生_Woo下周就开始和大家成体系的讲hadoop了，里面的每一个模块的技术细节我都会涉及到，希望大家会喜欢。当然了你也可以评论或者留言自己喜欢的技术，还是那句话，希望咱们一起进步。今天周五，讲讲...

记一次工控触摸屏故障的处理（工控触摸屏维修）: 先说明一下，虽然我是自动化专业毕业，但已经很多年不从事现场一线的工控工作了。但自己在单位做的工作也牵涉到信息化与自动化的整合，所以平时也略有关注。上一周一个朋友接到一个活，一家光伏企业用于启动机组的触...

19、90秒快速“读懂”路由、交换命令行基础: 命令行视图VRP分层的命令结构定义了很多命令行视图，每条命令只能在特定的视图中执行。本例介绍了常见的命令行视图。每个命令都注册在一个或多个命令视图下，用户只有先进入这个命令所在的视图，才能运行相应的命...

摄像头没图像的几个检查方法（摄像头没图像怎么修复）: 背景描述：安防监控项目上，用户的摄像头运行了一段时间有部分摄像头不能进行预览，需要针对不能预览的摄像头进行排查，下面列出几个常见的排查方法。问题解决：一般情况为网络、供电、设备配置等情况。一，网络检查...

小谈:必需脂肪酸（必需脂肪酸主要包括）: 必需脂肪酸是指机体生命活动必不可少，但机体自身又不能合成，必需由食物供给的多不饱和脂肪酸（PUFA）。必需脂肪酸主要包括两种，一种是ω-3系列的α-亚麻酸（18：3），一种是ω-6系列的亚油酸（18：...

期刊推荐:15本sci四区易发表的机械类期刊: 　　虽然，Sci四区期刊相比收录在sci一区、二区、三区的期刊来说要求不是那么高，投稿起来也相对容易一些。但，sci四区所收录的期刊中每本期刊的投稿难易程度也是不一样的。为方便大家投稿，本文给大家推荐...

be sick of 用法考察（be in lack of的用法）: besick表示病了,做谓语.本身是形容词，有多种意思.最通常的是：生病,恶心，呕吐，不适，晕，厌烦，无法忍受asickchild生病的孩子Hermother'sverysi...

相关推荐

idea本地配置连接远程hadoop集群的一些网络问题解决汇总

无缓存不行?例行升级的入门级阿斯加特AN2 SSD装机点评

Ceph运维手册(基于P版本)

大数据开发前要做什么准备?8台Hadoop服务器进行集群规划前配置

Tensorflow分类loss函数总结 tensorflow绘制loss曲线

R语言学习笔记(七) -离散型数据的模型预测2

iOS Runtime详解

PHP 远程调试最佳实践

7 个对 Java 意义重大的性能指标，你知道几个?

Laravel框架使用图片处理简单教程