当前位置：网站首页 > 热门文章 > 正文

Python学不会来打我(34)python函数爬取百度图片_附源码

bigegpt 2025-07-28 15:23 5 浏览

随着人工智能和大数据的发展，图像数据的获取变得越来越重要。作为Python初学者，掌握如何从网页中抓取图片并保存到本地是一项非常实用的技能。

本文将手把手教你 使用Python函数编写一个简单的百度图片爬虫程序，能够根据关键词搜索并下载指定数量的图片，适合刚入门的新手学习。

文章内容包括：

爬虫基本流程分析
使用 requests 和 BeautifulSoup 抓取网页数据
图片链接提取与下载
数据保存技巧
完整可运行代码示例

注意：本文仅用于技术学习交流，请勿用于非法用途或违反网站协议的行为。

一、目标说明

我们要实现的功能是：

根据用户输入的关键词，在百度图片中搜索相关图片
指定要下载的图片数量
将这些图片自动保存到本地文件夹中

二、准备工作

1. 安装所需库

pip install requests beautifulsoup4

我们主要使用以下两个库：

库名	功能说明
requests	发送 HTTP 请求获取网页内容
BeautifulSoup	解析 HTML 内容，提取图片链接

三、百度图片页面结构分析

百度图片的搜索结果页面地址格式如下：

https://image.baidu.com/search/index?tn=baiduimage&word=关键词

我们打开这个页面后，会发现它返回的是一个包含大量 <img> 标签的网页，其中每个 <img> 对应一张图片。

但注意：百度图片页面中的 <img> 是预览图，并非原图地址。我们需要找到真实图片地址。

百度图片的真实地址通常在 JavaScript 中以 JSON 形式嵌入在网页中，例如：

"objURL":"http://example.com/image.jpg"

所以我们需要解析网页中的这部分 JSON 数据来获取图片链接。

四、爬虫流程详解

整个爬虫可以分为以下几个步骤：

构建请求 URL
发送请求，获取网页源码
解析网页，提取所有图片的真实链接
下载并保存图片到本地

我们将用函数的方式逐步封装以上步骤。

五、第一步：构建搜索 URL

def build_search_url(keyword):
    """
    构建百度图片搜索的URL
    :param keyword: 搜索关键词
    :return: 完整的搜索URL
    """
    import urllib.parse
    base_url = "https://image.baidu.com/search/index"
    params = {
        "tn": "baiduimage",
        "word": keyword
    }
    return f"{base_url}?{urllib.parse.urlencode(params)}"

六、第二步：发送请求，获取网页HTML内容

import requests

def fetch_html(url):
    """
    发送GET请求，获取网页HTML内容
    :param url: 要访问的网址
    :return: 返回HTML文本，失败返回None
    """
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) 
          AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0 Safari/537.36'
    }

    try:
        response = requests.get(url, headers=headers, timeout=10)
        response.encoding = 'utf-8'  # 设置编码防止乱码
        if response.status_code == 200:
            return response.text
        else:
            print(f"请求失败，状态码：{response.status_code}")
            return None
    except requests.RequestException as e:
        print(f"请求异常：{e}")
        return None

七、第三步：解析HTML，提取图片链接

from bs4 import BeautifulSoup
import re

def extract_image_urls(html, max_count=10):
    """
    提取网页中所有图片的真实链接
    :param html: 网页HTML内容
    :param max_count: 最多提取多少个图片链接
    :return: 包含图片链接的列表
    """
    if not html:
        return []

    soup = BeautifulSoup(html, 'html.parser')
    script_tags = soup.find_all('script')

    image_urls = []
    pattern = re.compile(r'"objURL":"(http[s]?://[^"]+)"')

    for script in script_tags:
        if script.string:
            matches = pattern.findall(script.string)
            for url in matches:
                image_urls.append(url)
                if len(image_urls) >= max_count:
                    break
            if len(image_urls) >= max_count:
                break

    return image_urls

八、第四步：下载并保存图片

import os

def download_images(image_urls, 
                    folder_name='downloaded_images'):
    """
    下载并保存图片到本地文件夹
    :param image_urls: 图片链接列表
    :param folder_name: 存储图片的文件夹名称
    """
    if not os.path.exists(folder_name):
        os.makedirs(folder_name)

    count = 1
    for url in image_urls:
        try:
            print(f"正在下载第 {count} 张图片：{url}")
            response = requests.get(url, timeout=10)
            if response.status_code == 200:
                ext = url.split('.')[-1]
                filename = f"{folder_name}/image_{count}.{ext}"
                with open(filename, 'wb') as f:
                    f.write(response.content)
                count += 1
            else:
                print(f"图片下载失败：{url}")
        except Exception as e:
            print(f"下载出错：{url}, 错误信息：{e}")

九、第五步：整合主函数执行爬虫

def main():
    keyword = input("请输入你要搜索的图片关键词：")
    num_images = int(input("请输入要下载的图片数量（建议不超过20）："))

    search_url = build_search_url(keyword)
    html_content = fetch_html(search_url)
    image_links = extract_image_urls(
                 html_content, num_images)
    
    if image_links:
        print(f"共找到 {len(image_links)} 张图片，开始下载...")
        download_images(image_links)
        print("图片下载完成！")
    else:
        print("未找到任何图片链接，请尝试其他关键词。")

if __name__ == '__main__':
    main()

十、运行效果展示

输入关键词如“猫”，数量设为5：

请输入你要搜索的图片关键词：猫
请输入要下载的图片数量（建议不超过20）：5
正在下载第 1 张图片：https://example.com/cat1.jpg
正在下载第 2 张图片：https://example.com/cat2.jpg
...
图片下载完成！

此时你会在当前目录看到一个名为 downloaded_images 的文件夹，里面包含了你下载的图片。

十一、注意事项与优化建议

推荐做法：

设置合理的超时时间，避免卡死
添加 User-Agent 防止被识别为爬虫
控制下载数量，避免频繁请求影响服务器
使用日志记录代替 print 输出

常见问题及解决方法：

问题类型	解决方案
图片无法下载	检查图片链接是否有效，添加重试机制
编码乱码	设置 response.encoding = 'utf-8'
提取不到链接	检查正则表达式是否匹配 objURL 字段
文件写入失败	检查文件路径是否存在，权限是否正确
反爬限制	使用代理 IP、降低请求频率

十二、总结

通过本文的学习，你应该已经掌握了：

百度图片爬虫的基本原理
如何使用 requests 和 BeautifulSoup 进行网页请求与解析
如何提取网页中的图片链接
如何下载并保存图片到本地
函数化编程思想的应用

本项目非常适合 Python 初学者练手，不仅涵盖了网络请求、数据解析、文件操作等核心知识点，还能让你直观地看到自己的成果 —— 成功下载图片！

后续你可以进一步扩展功能，比如：

支持多页爬取
自动命名图片标题
使用 GUI 界面交互
使用 Selenium 获取动态加载内容

希望这篇文章能帮助你在 Python 爬虫之路上迈出坚实的一步！

searchbyimage

上一篇：软网推荐:图像变变变一“软”见分晓
下一篇：有些人能留在你的心里，但不能留在你生活里。

Python学不会来打我(34)python函数爬取百度图片_附源码

一、目标说明

二、准备工作

三、百度图片页面结构分析

四、爬虫流程详解

五、第一步：构建搜索 URL

六、第二步：发送请求，获取网页HTML内容

七、第三步：解析HTML，提取图片链接

八、第四步：下载并保存图片

九、第五步：整合主函数执行爬虫

十、运行效果展示

十一、注意事项与优化建议

十二、总结

相关推荐

无缓存不行?例行升级的入门级阿斯加特AN2 SSD装机点评

Ceph运维手册(基于P版本)

Docker 命令大全（docker命令大全记录表）

替代Docker build的Buildah简单介绍

Docker Desktop安装使用指南:零基础教程

R语言学习笔记(七) -离散型数据的模型预测2

Tensorflow分类loss函数总结 tensorflow绘制loss曲线

服务器硬件RAID性能横评(2)（服务器常用raid技术）

Python教程:第9篇字符串基本操作

k8s中三种POD调度策略介绍 k8s pod间调用

Python学不会来打我(34)python函数爬取百度图片_附源码

一、目标说明

二、准备工作

三、百度图片页面结构分析

四、爬虫流程详解

五、第一步：构建搜索 URL

六、第二步：发送请求，获取网页HTML内容

七、第三步：解析HTML，提取图片链接

八、第四步：下载并保存图片

九、第五步：整合主函数执行爬虫

十、运行效果展示

十一、注意事项与优化建议

十二、总结

相关推荐

无缓存不行?例行升级的入门级阿斯加特AN2 SSD装机点评

Ceph运维手册(基于P版本)

Docker 命令大全（docker命令大全记录表）

替代Docker build的Buildah简单介绍

Docker Desktop安装使用指南:零基础教程

R语言学习笔记(七) -离散型数据的模型预测2

Tensorflow分类loss函数总结 tensorflow绘制loss曲线

服务器硬件RAID性能横评(2)（服务器常用raid技术）

Python教程:第9篇 字符串基本操作

k8s中三种POD调度策略介绍 k8s pod间调用

Python教程:第9篇字符串基本操作