百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

golang图片网站爬取

bigegpt 2024-08-24 23:11 2 浏览

package main

import (
	"errors"
	"flag"
	"io/ioutil"
	"log"
	"net/http"
	"os"
	"strconv"
	"strings"

	"github.com/PuerkitoBio/goquery" // 解析html
)

var website = ""
var dir string = ""
var file_size int64 = 200 //文件大于200kb则下载
func loadUrl(uri string) (*goquery.Document, error) {
	resp, err_resp := http.Get(uri)
	if err_resp != nil {
		return nil, err_resp
	}
	defer resp.Body.Close()
	log.Printf("resp.Status %v", resp.Status)
	if resp.StatusCode != 200 {
		log.Fatalf("访问 异常 %v", uri)
		return nil, errors.New("访问异常,code:" + resp.Status)
	}
	return goquery.NewDocumentFromResponse(resp)
}
func getCatagreyUrls() []string {
	var urls []string
	doc, _ := loadUrl(website)
	if doc == nil {
		return nil
	}
	doc.Find(".pagelist > .thisclass").Each(func(i int, s *goquery.Selection) {
		pageTotal := s.Text()
		log.Printf("共%v页", pageTotal)
		p_count, ee := strconv.Atoi(pageTotal)
		if ee == nil {
			var url string
			for i := 1; i < p_count; i++ {
				url = website + "/list_" + strconv.Itoa(i) + ".html" //网址信息
				urls = append(urls, url)
			}
		}
	})
	return urls
}

//分析栏目
func parseCatagrey(url string) {
	doc, err := loadUrl(url)
	if err != nil {
		log.Fatal(err)
	}
	if doc == nil {
		return
	}
	nodes := doc.Find(".w170img > a ")
	if nodes == nil {
		return
	}
	log.Printf("栏目分页 %v\t当前页共%v图片", url, nodes.Length())
	nodes.Each(func(i int, s *goquery.Selection) { //遍历整个文档
		item_url, _ := s.Attr("href")
		log.Printf("item_url:%v", item_url)
		if item_url == "" || item_url == "#" {
			return
		}
		// 启动协程下载图片
		if strings.Index(item_url, "//") == 0 {
			item_url = "https:" + item_url
		}
		parseImgDetail(item_url, true)
	})
}

//分析展示详情页的图片地址
func parseImgDetail(uri string, repeat bool) {
	uri = strings.Replace(uri, "/p/", website, -1)
	log.Printf("图片浏览页:%v", uri)
	doc, err_doc := loadUrl(uri)
	if err_doc != nil {
		log.Printf("%v,解析异常:%v", uri, err_doc)
	}
	if doc == nil {
		return
	}
	imgs := doc.Find(".imagebody > p > a > img")
	log.Printf("图片数量 %v", imgs.Length())
	img_src, _ := imgs.Attr("src")
	// imgs.Each(func(j int, t *goquery.Selection) {
	// 	img_src, _ := t.Attr("src")
	if img_src == "" {
		return
	}
	go download(img_src)
	if repeat == false {
		return
	}
	pageList := doc.Find(".pagelist > a")
	log.Printf("%v\t当前页共%v页", uri, pageList.Length())
	pageList.Each(func(i int, s *goquery.Selection) {
		href, _ := s.Attr("href")
		text := s.Text()
		if href == "" || text == "" || text == "下一页" || href == uri {
			return
		}
		parseImgDetail(href, false)
	})
}

// 下载图片
func download(img_url string) {
	log.Printf("图片:%v", img_url)
	file_name := strings.Replace(img_url, "https://", dir, -1)
	log.Printf("保持文件:%v", file_name)
	os.MkdirAll(file_name+"_", os.ModePerm)
	os.RemoveAll(file_name + "_")
	_, err_stat := os.Stat(file_name)
	if err_stat == nil {
		log.Printf("已存在:%v", file_name)
		return
	}
	f, err := os.Create(file_name)
	if err != nil {
		log.Panic("文件创建失败", err)
		return
	}
	defer f.Close() //结束关闭文件

	resp, err := http.Get(img_url)
	if err != nil {
		log.Println("http.get err", err)
	}
	log.Printf("resp: %s", resp.Status)
	ctLen := resp.ContentLength / 1024
	log.Printf("图片大小 %v", ctLen)
	if file_size > 0 && ctLen <= file_size {
		log.Printf("文件太小<%v", file_size)
		return
	}
	body, err1 := ioutil.ReadAll(resp.Body)
	if err1 != nil {
		log.Println("读取数据失败")
	}
	defer resp.Body.Close() //结束关闭
	f.Write(body)
}

func main() {
	flag.StringVar(&website, "url", "", "网址")
	flag.StringVar(&dir, "d", "", "保存目录,默认当前目录下")
	flag.Int64Var(&file_size, "fsize", 0, "文件大小 kb 默认0kb 表示不限制")

	flag.Parse() //一定要执行
	if website == "" {
		log.Println("未设置网址,使用-url 传参数")
		return
	}
	urls := getCatagreyUrls()
	for _, url := range urls {
		parseCatagrey(url)
	}
}


线程池方式执行

package main

import (
	"errors"
	"flag"
	"io/ioutil"
	"log"
	"net/http"
	"os"
	"runtime"
	"strconv"
	"strings"
	"time"

	"github.com/PuerkitoBio/goquery" // 解析html
)

//任务接口
type Job interface {
	Do()
}

//工人
type Worker struct {
	JobQueue chan Job
	Quit     chan bool
}

func NewWorker() Worker {
	return Worker{
		JobQueue: make(chan Job),
		Quit:     make(chan bool),
	}
}

func (w Worker) Run(wq chan chan Job) {
	go func() {
		for {
			wq <- w.JobQueue
			select {
			case job := <-w.JobQueue:
				job.Do()
			case <-w.Quit:
				return
			}
		}
	}()
}

type WorkerPool struct {
	WokerLen    int
	JobQueue    chan Job
	WorkerQueue chan chan Job
}

func NewWorkerPool(workerlen int) *WorkerPool {
	return &WorkerPool{
		WokerLen:    workerlen,                      //开始建立 workerlen 个worker(工人)协程
		JobQueue:    make(chan Job),                 //工作队列 通道
		WorkerQueue: make(chan chan Job, workerlen), //最大通道参数设为 最大协程数 workerlen 工人的数量最大值
	}
}

func (wp *WorkerPool) Run() {
	log.Println("初始化worker")
	for i := 0; i < wp.WokerLen; i++ {
		worker := NewWorker()
		worker.Run(wp.WorkerQueue)
	}
	go func() {
		for {
			select {
			case job := <-wp.JobQueue: //读取任务
				//尝试获取一个可用的worker作业通道 这将阻塞,直到一个worker空闲
				worker := <-wp.WorkerQueue
				//将任务分配给工人
				worker <- job
			}
		}
	}()
}

var website = ""
var dir string = ""
var file_size int64 = 0 //文件大于200kb则下载
var workpool *WorkerPool

func loadUrl(uri string) (*goquery.Document, error) {
	resp, err_resp := http.Get(uri)
	if err_resp != nil {
		return nil, err_resp
	}
	defer resp.Body.Close()
	log.Printf("resp.Status %v", resp.Status)
	if resp.StatusCode != 200 {
		log.Fatalf("访问 异常 %v", uri)
		return nil, errors.New("访问异常,code:" + resp.Status)
	}
	return goquery.NewDocumentFromResponse(resp)
}
func getCatagreyUrls() []string {
	var urls []string
	doc, _ := loadUrl(website)
	if doc == nil {
		return nil
	}
	doc.Find(".pagelist > .thisclass").Each(func(i int, s *goquery.Selection) {
		pageTotal := s.Text()
		log.Printf("共%v页", pageTotal)
		p_count, ee := strconv.Atoi(pageTotal)
		if ee == nil {
			var url string
			for i := 1; i < p_count; i++ {
				url = website + "/list_" + strconv.Itoa(i) + ".html" //网址信息
				urls = append(urls, url)
			}
		}
	})
	return urls
}

//分析栏目
func parseCatagrey(url string) {
	doc, err := loadUrl(url)
	if err != nil {
		log.Fatal(err)
	}
	if doc == nil {
		return
	}
	nodes := doc.Find(".w170img > a ")
	if nodes == nil {
		return
	}
	log.Printf("栏目分页 %v\t当前页共%v图片", url, nodes.Length())
	nodes.Each(func(i int, s *goquery.Selection) { //遍历整个文档
		item_url, _ := s.Attr("href")
		log.Printf("item_url:%v", item_url)
		if item_url == "" || item_url == "#" {
			return
		}
		// 启动协程下载图片
		if strings.Index(item_url, "//") == 0 {
			item_url = "https:" + item_url
		}
		parseImgDetail(item_url, true)
	})
}

//分析展示详情页的图片地址
func parseImgDetail(uri string, repeat bool) {
	uri = strings.Replace(uri, "/p/", website, -1)
	log.Printf("图片浏览页:%v", uri)
	doc, err_doc := loadUrl(uri)
	if err_doc != nil {
		log.Printf("%v,解析异常:%v", uri, err_doc)
	}
	if doc == nil {
		return
	}
	imgs := doc.Find(".imagebody > p > a > img")
	log.Printf("图片数量 %v", imgs.Length())
	img_src, _ := imgs.Attr("src")
	if img_src == "" {
		return
	}
	// go download(img_src)
	//使用线程池
	//创建任务
	sc := &DownloadJob{uri: img_src}
	//加入线程队列
	workpool.JobQueue <- sc

	if repeat == false {
		return
	}
	pageList := doc.Find(".pagelist > a")
	log.Printf("%v\t当前页共%v页", uri, pageList.Length())
	pageList.Each(func(i int, s *goquery.Selection) {
		href, _ := s.Attr("href")
		text := s.Text()
		if href == "" || text == "" || text == "下一页" || href == uri {
			return
		}
		parseImgDetail(href, false)
	})
}

type DownloadJob struct {
	uri string
}

//实现Job Do 接口
func (d *DownloadJob) Do() {
	download(d.uri)
}

// 下载图片
func download(img_url string) {
	log.Printf("图片:%v", img_url)
	file_name := strings.Replace(img_url, "https://", dir, -1)
	os.MkdirAll(file_name+"_", os.ModePerm)
	os.RemoveAll(file_name + "_")
	_, err_stat := os.Stat(file_name)
	if err_stat == nil {
		log.Printf("已存在:%v", file_name)
		return
	}
	f, err := os.Create(file_name)
	if err != nil {
		log.Panic("文件创建失败", err)
		return
	}
	defer f.Close() //结束关闭文件

	resp, err := http.Get(img_url)
	if err != nil {
		log.Println("http.get err", err)
	}
	log.Printf("resp: %s", resp.Status)
	ctLen := resp.ContentLength / 1024
	log.Printf("图片大小 %v", ctLen)
	if file_size > 0 && ctLen <= file_size {
		log.Printf("文件太小<%v", file_size)
		return
	}
	body, err1 := ioutil.ReadAll(resp.Body)
	if err1 != nil {
		log.Println("读取数据失败")
	}
	defer resp.Body.Close() //结束关闭
	f.Write(body)
	log.Printf("保存文件:%v", file_name)
}

func main() {
	var poolSzie int = 1000
	flag.StringVar(&website, "url", "", "网址")
	flag.StringVar(&dir, "dir", "", "保存目录,默认当前目录下")
	flag.Int64Var(&file_size, "file-size", 0, "文件大小 kb 默认0 表示不限制")
	flag.IntVar(&poolSzie, "pool", 1000, "线程池大小 默认1000")
	flag.Parse() //一定要执行
	if website == "" {
		log.Println("未设置网址,使用-url 传参数")
		return
	}
	workpool = NewWorkerPool(poolSzie)
	workpool.Run()
	urls := getCatagreyUrls()
	for _, url := range urls {
		parseCatagrey(url)
	}
	for { //阻塞主程序结束
		log.Println("=========\nruntime.NumGoroutine() :%v", runtime.NumGoroutine())
		time.Sleep(5 * time.Second)
	}
}

跑了4个小时下载的文件数量

由于目标网站的IP封锁,所以开设的线程数10个,耗时比较长。

原理是使用goquery分析页面,查找对应的链接地址,然后再访问该地址获取图片链接,再http.get获取并保存。

相关推荐

AI「自我复制」能力曝光,RepliBench警示:大模型正在学会伪造身份

科幻中AI自我复制失控场景,正成为现实世界严肃的研究课题。英国AISI推出RepliBench基准,分解并评估AI自主复制所需的四大核心能力。测试显示,当前AI尚不具备完全自主复制能力,但在获取资源...

【Python第三方库安装】介绍8种情况,这里最全看这里就够了!

**本图文作品主要解决CMD或pycharm终端下载安装第三方库可能出错的问题**本作品介绍了8种安装方法,这里最全的python第三方库安装教程,简单易上手,满满干货!希望大家能愉快地写代码,而不要...

pyvips,一个神奇的 Python 库!(pythonvip视频)

大家好,今天为大家分享一个神奇的Python库-pyvips。在图像处理领域,高效和快速的图像处理工具对于开发者来说至关重要。pyvips是一个强大的Python库,基于libvips...

mac 安装tesseract、pytesseract以及简单使用

一.tesseract-OCR的介绍1.tesseract-OCR是一个开源的OCR引擎,能识别100多种语言,专门用于对图片文字进行识别,并获取文本。但是它的缺点是对手写的识别能力比较差。2.用te...

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

号称“OpenAI迄今为止最强模型”,o3/o4-mini真实能力究竟如何?就在发布后的几小时内,网友们的第一波实测已新鲜出炉。最强推理模型o3,即使遇上首位全职提示词工程师RileyGoodsid...

使用Python将图片转换为字符画并保存到文件

字符画(ASCIIArt)是将图片转换为由字符组成的艺术作品。利用Python,我们可以轻松实现图片转字符画的功能。本教程将带你一步步实现这个功能,并详细解释每一步的代码和实现原理。环境准备首先,你...

5分钟-python包管理器pip安装(python pip安装包)

pip是一个现代的,通用、普遍的Python包管理工具。提供了对Python包的查找、下载、安装、卸载的功能,是Python开发的基础。第一步:PC端打开网址:选择gz后缀的文件下载第二步:...

网络问题快速排查,你也能当好自己家的网络攻城狮

前面写了一篇关于网络基础和常见故障排查的,只列举了工具。没具体排查方式。这篇重点把几个常用工具的组合讲解一下。先有请今天的主角:nslookup及dig,traceroute,httping,teln...

终于把TCP/IP 协议讲的明明白白了,再也不怕被问三次握手了

文:涤生_Woo下周就开始和大家成体系的讲hadoop了,里面的每一个模块的技术细节我都会涉及到,希望大家会喜欢。当然了你也可以评论或者留言自己喜欢的技术,还是那句话,希望咱们一起进步。今天周五,讲讲...

记一次工控触摸屏故障的处理(工控触摸屏维修)

先说明一下,虽然我是自动化专业毕业,但已经很多年不从事现场一线的工控工作了。但自己在单位做的工作也牵涉到信息化与自动化的整合,所以平时也略有关注。上一周一个朋友接到一个活,一家光伏企业用于启动机组的触...

19、90秒快速“读懂”路由、交换命令行基础

命令行视图VRP分层的命令结构定义了很多命令行视图,每条命令只能在特定的视图中执行。本例介绍了常见的命令行视图。每个命令都注册在一个或多个命令视图下,用户只有先进入这个命令所在的视图,才能运行相应的命...

摄像头没图像的几个检查方法(摄像头没图像怎么修复)

背景描述:安防监控项目上,用户的摄像头运行了一段时间有部分摄像头不能进行预览,需要针对不能预览的摄像头进行排查,下面列出几个常见的排查方法。问题解决:一般情况为网络、供电、设备配置等情况。一,网络检查...

小谈:必需脂肪酸(必需脂肪酸主要包括)

必需脂肪酸是指机体生命活动必不可少,但机体自身又不能合成,必需由食物供给的多不饱和脂肪酸(PUFA)。必需脂肪酸主要包括两种,一种是ω-3系列的α-亚麻酸(18:3),一种是ω-6系列的亚油酸(18:...

期刊推荐:15本sci四区易发表的机械类期刊

  虽然,Sci四区期刊相比收录在sci一区、二区、三区的期刊来说要求不是那么高,投稿起来也相对容易一些。但,sci四区所收录的期刊中每本期刊的投稿难易程度也是不一样的。为方便大家投稿,本文给大家推荐...

be sick of 用法考察(be in lack of的用法)

besick表示病了,做谓语.本身是形容词,有多种意思.最通常的是:生病,恶心,呕吐,不适,晕,厌烦,无法忍受asickchild生病的孩子Hermother'sverysi...