百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

当我爬取了近十年的大乐透数据……

bigegpt 2024-09-02 16:27 3 浏览

最近在学习R爬虫,想找些格式简单的数据练练手,于是就想到了彩票数据,下面分享一波我爬取大乐透数据的经历。

首先,数据来源:http://datachart.500.com/dlt/history/history.shtml【超级大乐透历史数据】。

网页数据看起来很工整的样子,是个不错的练手对象。

然后,右键->查看网页源代码,搜索“期号”,很快就发现中奖信息所在的区域。但令人郁闷的是,这里只显示了最近30期的数据。于是,返回点击“最近100期”,再查看源代码,发现还是只显示了最近30期的数据。

因此,我们看到的网页并非数据的存储页,而是展示页。于是,右键->检查,在网页操作,查看00001期至19001期,在network下找到了真正存储数据的页面:http://datachart.500.com/dlt/history/newinc/history.php?start=00001&end=19001

点进去发现2007年至今的所有数据都在,真是太好了。

接下来就是抓取过程,我使用的是rvest包,代码如下:

## Get history Letto data
library(rvest)
library(stringr)
library(dplyr)
url <- "http://datachart.500.com/dlt/history/newinc/history.php?start=00001&end=19001" %>% 
 url_escape(reserved = "][!amp;'()*+,;=:/?@#")
page <- read_html(url) ## 读入网页内容
node <- html_nodes(page, '.t_tr1') ## 抓取节点
node <- node[grep('cfont', node)] ## 进一步筛选节点
trim <- function(x) {
 a1 <- unlist(strsplit(as.character(x), ' '))
 a2 <- gsub('>|<|,','',str_extract_all(a1,">.*<"))
 a3 <- a2[3:length(a2)]
 return(a3)
}
Leto <- as.data.frame(do.call('rbind', lapply(node, trim)), stringsAsFactors = FALSE)
for(i in 2:14) { Leto[,i] <- as.numeric(Leto[,i]) }
Leto[,15] <- as.Date(Leto[,15]) 
colnames(Leto) <- c('期号','红球1','红球2','红球3','红球4','红球5','蓝球1','蓝球2',
 '奖池','一等奖注数','一等奖奖金','二等奖注数','二等奖奖金',
 '全部奖金','开奖日期')

在读入网页内容,抓取并筛选节点之后,就要对数据进行修修剪剪了。我这里定义了一个trim函数,可以只留下数字的信息。结果如下:

从2007年001期到现在,一共进行了1734期,那么,群众们参与的热情度高不高呢?

可见,大乐透的奖池金额由2007年的不足1亿,增长到2018年的60多亿,增长了60多倍。尤其是2014年之后,群众们购买彩票的热情迅速膨胀。那么,派发的奖金金额在这十年间有什么变化呢?

10年间,派发的奖金由2000万近乎匀速地增长到2亿元,增加了10倍。

下一步,让我们看看大家比较关心的一等奖金额在这10年间有着怎样的变化呢?

2007年至今,一等奖的单注金额都稳定在500-1000万的区间内,只有极少数几期的奖金超出或低于这个范围。

只是利用大乐透的数据做了简单的分析,看官们如果觉得满意,就顺手点个赞呗,让我们互相学习。


“大乐透”系列文章传送门:

十年大乐透数据分析「1」大数规律

大数据告诉你,哪个省的人最喜欢买彩票?


文 | 招财喵zcm,全流程数据分析师,财经数据爱好者,原创不易,转载请注明版权。


相关推荐

一条命令搞定pip国内镜像源设置(pip install 指定镜像)

玩python的同学想必没有不用pip的吧,pip是python包管理工具,和Nodejs的npm、Java的maven类似,这些依靠开源力量建立起的庞大软件库极大提高了开发的效率,不过默认pytho...

Cadence Allegro在PCB中手动或者自动添加差分对属性

设计PCB过程中,若设计中有差分对信号,则需要将是差分的2个信号设置为差分对,设置差分对有2种方式:手动添加及自动添加一、手动添加差分对:1、点击Setup-Constraints-Constrain...

合亿 Gutab 三防|车载工业平板功能介绍,车载工业平板厂家推荐

在商用车队管理迈向智能化、特种车辆作业追求高效化的今天,车载工业平板早已突破传统“车载导航”的单一功能,成为连接车辆、司机与云端管理的核心枢纽。从物流运输的实时调度中枢,到矿山开采的无人驾驶控制器,再...

「探长分享-黑匣子」本田冠道 2020款

【品牌】探长360汽车黑匣子【产品型号】2TPro【安装车型】本田冠道2020款【功能特点】360全景安全辅助,行车录像,极致高清摄像头,模拟/数字高清/AHD多种信号格式输出,震动监控,一步标...

「探长分享-黑匣子」奥迪A6L 2019款

【品牌】探长360汽车黑匣子【产品型号】2TPro【安装车型】奥迪A6L2019款【功能特点】360全景安全辅助,行车录像,极致高清摄像头,模拟/数字高清/AHD多种信号格式输出,震动监控,一步...

探长360全景案例分享:奥迪Q7 2011款360全景效果展示

【品牌】DCT360汽车黑匣子【产品型号】3TPro【安装车型】奥迪Q72011款【功能特点】360全景安全辅助,四路行车录像,极致高清摄像头,模拟/数字高清/AHD多种信号格式输出,24小时停...

「探长分享-黑匣子」保时捷Cayenne 2015款

【品牌】探长360汽车黑匣子【产品型号】4TPro【安装车型】保时捷Cayenne2015款【功能特点】360全景安全辅助,四路行车录像,极致高清摄像头,模拟/数字高清/AHD多种信号格式输出,...

苍蝇再小也是肉,变态电路的大阳巧客S2差点难死大神

这台大阳巧客S2电动四轮车是我家第二台四轮俱全的篷车!哈哈!大阳巧客S2配置4.5Kw永磁同步电机,SVPWM矢量控制正弦波系统,车辆在加速、爬坡上性能有提升,效率高,操控灵敏。这台车前段时间刚更换了...

「探长分享-黑匣子」奥迪Q5L 2020款

360汽车黑匣子【产品型号】4TPro【安装车型】奥迪Q5L2020款【功能特点】360全景安全辅助,四路行车录像,极致高清摄像头,模拟/数字高清/AHD多种信号格式输出,24小时停车监控,一秒一...

「探长分享-黑匣子」丰田兰德酷路泽 2016款

【品牌】探长360汽车黑匣子【产品型号】3TPro【安装车型】丰田兰德酷路泽2016款【功能特点】360全景安全辅助,四路行车录像,极致高清摄像头,模拟/数字高清/AHD多种信号格式输出,24小...

驾驶室盲区是酿成重卡事故主因?后视系统:这个锅我不背

小时候家中长辈常常提醒:离大货车远一点!司机根本看不到你!早期的货车可能真的存在驾驶盲区,比如车辆正下方,因驾驶座过高,恰好是司机看不到的视野盲区。而如今的重卡在环视系统上已经非常完善,是否还存在驾驶...

前后双录,360 G580行车记录仪(360行车记录仪g580s)

相信每一位车主都会为爱车安装行车记录仪,行车记录仪的作用不仅能为交通事故还原证据,还能防止碰瓷。传统的单镜头行车记录仪只能拍摄车头方向的行车画面,如果遇到后方车辆故意碰瓷的事故时,没有监控和后摄画面则...

海康威视同轴录像机怎么使用,海康XVR配置说明

海康威视同轴录像机支持模拟、同轴以及数字IP摄像机接入,因此在使用多种类型摄像机、老久监控项目改造等场景广泛使用。首先,新录像机第一次使用需要设置管理密码激活,密码需由8-16位数字、小写字母、大写...

亿道三防2代工业级车载平板电脑震撼登场,农机矿车专用

亿道三防近日推出2024年全新2代车载平板电脑V12R,引领多项技术创新和升级,为农机、矿车等车载领域带来了超越期待与想象的震撼体验。V12R是一款从里到外,性能、功能全线拉满的工业级车载平板电脑!拥...

分析神州十八号返回舱内的摄像机最有可能是什么类型的摄像头

有没有发现,神州十八号返回舱内摄像机的图像虽然清晰度不是很高,但是画面非常干净,没有一点干扰,几乎看不到噪点。图像清晰度不高不太可能是镜头原因,很可能是图像传感器的分辨率比较低的原因,图像传感器分辨率...