百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

Python爬虫教程,采集bilibili弹幕并生成词云

bigegpt 2024-09-10 11:16 4 浏览

Python爬取bilibili弹幕并生成词云

目标网站:
我这里以 TES vs SN 第四场决胜局为例:

私信小编01即可获取大量Python学习资料

探索经历:

首先我们要找到我们想要爬取的弹幕都发在哪:
我们先播放这个视频,随便记住一条弹幕,到审查元素里面搜索


哎,可以找到,然后我们再查看一下网页的源代码,没有搜索结果。。。。。。这说明bilibili的弹幕是动态加载的,是js请求的数据,可能是json,也可能是XML

通常我们都会通过翻页等操作让网页进行js请求,我们在“后台”盯着,看有没有多出来的文件,依次翻看一下里面的东西,看看有没有存放弹幕的文件,于是我继续播放视频,列表里也确实多了很多文件


但很可惜并没有找到我想要的存储弹幕的文件

我觉得播放视频还是没能请求到弹幕文件,于是我找到了第二种方法:(需要先登陆一下)


如图,切换不同的日期可以找到我们想要的存储弹幕文件,是个XML文件:


这样,我们就找到了目标url,复制url打开就是我们想要的弹幕页面


同样,我们也找到了规律这里有两个可以更换的参数:
(1)oid:这个就是视频的id(这个可不太好找)


(2)date:这个很明显是日期

真正目标:

传送门:https://api.bilibili.com/x/v1/dm/list.so?oid=249509876&date2020-10-26

思路与方法:

(1)这个XML文件也是标签语言,用BeautifulSoup可以轻松爬取,存储到本地txt文件中
(2)利用jieba库对txt内容进行分词,再合并成一个空格分割的字符串(用于Wordcloud参数)
(3)使用Wordcloud生成词云并保存到本地

部分细节讲解:

弹幕标点符号和空格的去除:

这个是老生常谈了,我之前有一篇博客也说过:
SimHei字体:https://www.uslogger.com/details/3

完整代码:

 import requests
import re
import os
from bs4 import BeautifulSoup
import jieba
from wordcloud import WordCloud

def getHTMLText(url):
    try:
        kv = {"user-agent":"Mozilla/5.0"}
        r = requests.get(url,headers = kv)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        print("getHTMLText失败!")
        return ""

def fillbarrages(url,path_txt):
    html = getHTMLText(url)
    soup = BeautifulSoup(html,'html.parser')
    with open(path_txt,'a',encoding='utf-8') as f:
        for d in soup.find_all("d"):
            # 使用正则表达式去除空格和标点,\W 表示匹配非数字字母下划线
            barrage = re.sub('\W+','',d.text)
            f.write(barrage)
    f.close()

def getWordCloud(path_txt,path_jpg):
    barrages_cut = jieba.lcut(open(path_txt,'r',encoding='utf-8').read())   #jieba分词
    barrages = " ".join(barrages_cut)       #回拼成字符串并用空格分割
    wc= WordCloud(
        font_path=r"F:\Fonts\SimHei.ttf",
        background_color="skyblue",
        max_words=100,
        width=1080,
        height=720
    )
    wc.generate(barrages)
    wc.to_file(path_jpg)
def main():
    url = "https://api.bilibili.com/x/v1/dm/list.so?oid=249509876&date2020-10-26"
    path_txt = "TESvsSN第四场.txt"
    path_jpg = "TESvsSN第四场.jpg"
    fillbarrages(url,path_txt)
    print("fillbarrages成功")
    getWordCloud(path_txt,path_jpg)
    print("getwordcloud成功")
    
main()

词云展示:

相关推荐

Go语言泛型-泛型约束与实践(go1.7泛型)

来源:械说在Go语言中,Go泛型-泛型约束与实践部分主要探讨如何定义和使用泛型约束(Constraints),以及如何在实际开发中利用泛型进行更灵活的编程。以下是详细内容:一、什么是泛型约束?**泛型...

golang总结(golang实战教程)

基础部分Go语言有哪些优势?1简单易学:语法简洁,减少了代码的冗余。高效并发:内置强大的goroutine和channel,使并发编程更加高效且易于管理。内存管理:拥有自动垃圾回收机制,减少内...

Go 官宣:新版 Protobuf API(go pro版本)

原文作者:JoeTsai,DamienNeil和HerbieOng原文链接:https://blog.golang.org/a-new-go-api-for-protocol-buffer...

Golang开发的一些注意事项(一)(golang入门项目)

1.channel关闭后读的问题当channel关闭之后再去读取它,虽然不会引发panic,但会直接得到零值,而且ok的值为false。packagemainimport"...

golang 托盘菜单应用及打开系统默认浏览器

之前看到一个应用,用go语言编写,说是某某程序的windows图形化客户端,体验一下发现只是一个托盘,然后托盘菜单的控制面板功能直接打开本地浏览器访问程序启动的webserver网页完成gui相关功...

golang标准库每日一库之 io/ioutil

一、核心函数概览函数作用描述替代方案(Go1.16+)ioutil.ReadFile(filename)一次性读取整个文件内容(返回[]byte)os.ReadFileioutil.WriteFi...

文件类型更改器——GoLang 中的 CLI 工具

我是如何为一项琐碎的工作任务创建一个简单的工具的,你也可以上周我开始玩GoLang,它是一种由Google制作的类C编译语言,非常轻量和快速,事实上它经常在Techempower的基准测...

Go (Golang) 中的 Channels 简介(golang channel长度和容量)

这篇文章重点介绍Channels(通道)在Go中的工作方式,以及如何在代码中使用它们。在Go中,Channels是一种编程结构,它允许我们在代码的不同部分之间移动数据,通常来自不同的goro...

Golang引入泛型:Go将Interface「」替换为“Any”

现在Go将拥有泛型:Go将Interface{}替换为“Any”,这是一个类型别名:typeany=interface{}这会引入了泛型作好准备,实际上,带有泛型的Go1.18Beta...

一文带你看懂Golang最新特性(golang2.0特性)

作者:腾讯PCG代码委员会经过十余年的迭代,Go语言逐渐成为云计算时代主流的编程语言。下到云计算基础设施,上到微服务,越来越多的流行产品使用Go语言编写。可见其影响力已经非常强大。一、Go语言发展历史...

Go 每日一库之 java 转 go 遇到 Apollo?让 agollo 来平滑迁移

以下文章来源于GoOfficialBlog,作者GoOfficialBlogIntroductionagollo是Apollo的Golang客户端Apollo(阿波罗)是携程框架部门研...

Golang使用grpc详解(golang gcc)

gRPC是Google开源的一种高性能、跨语言的远程过程调用(RPC)框架,它使用ProtocolBuffers作为序列化工具,支持多种编程语言,如C++,Java,Python,Go等。gR...

Etcd服务注册与发现封装实现--golang

服务注册register.gopackageregisterimport("fmt""time"etcd3"github.com/cor...

Golang:将日志以Json格式输出到Kafka

在上一篇文章中我实现了一个支持Debug、Info、Error等多个级别的日志库,并将日志写到了磁盘文件中,代码比较简单,适合练手。有兴趣的可以通过这个链接前往:https://github.com/...

如何从 PHP 过渡到 Golang?(php转golang)

我是PHP开发者,转Go两个月了吧,记录一下使用Golang怎么一步步开发新项目。本着有坑填坑,有错改错的宗旨,从零开始,开始学习。因为我司没有专门的Golang大牛,所以我也只能一步步自己去...