当我爬取了近十年的大乐透数据……

最近在学习R爬虫，想找些格式简单的数据练练手，于是就想到了彩票数据，下面分享一波我爬取大乐透数据的经历。

首先，数据来源：http://datachart.500.com/dlt/history/history.shtml【超级大乐透历史数据】。

网页数据看起来很工整的样子，是个不错的练手对象。

然后，右键->查看网页源代码，搜索“期号”，很快就发现中奖信息所在的区域。但令人郁闷的是，这里只显示了最近30期的数据。于是，返回点击“最近100期”，再查看源代码，发现还是只显示了最近30期的数据。

因此，我们看到的网页并非数据的存储页，而是展示页。于是，右键->检查，在网页操作，查看00001期至19001期，在network下找到了真正存储数据的页面：http://datachart.500.com/dlt/history/newinc/history.php?start=00001&end=19001

点进去发现2007年至今的所有数据都在，真是太好了。

接下来就是抓取过程，我使用的是rvest包，代码如下：

## Get history Letto data
library(rvest)
library(stringr)
library(dplyr)
url <- "http://datachart.500.com/dlt/history/newinc/history.php?start=00001&end=19001" %>% 
 url_escape(reserved = "][!amp;'()*+,;=:/?@#")
page <- read_html(url) ## 读入网页内容
node <- html_nodes(page, '.t_tr1') ## 抓取节点
node <- node[grep('cfont', node)] ## 进一步筛选节点
trim <- function(x) {
 a1 <- unlist(strsplit(as.character(x), ' '))
 a2 <- gsub('>|<|,','',str_extract_all(a1,">.*<"))
 a3 <- a2[3:length(a2)]
 return(a3)
}
Leto <- as.data.frame(do.call('rbind', lapply(node, trim)), stringsAsFactors = FALSE)
for(i in 2:14) { Leto[,i] <- as.numeric(Leto[,i]) }
Leto[,15] <- as.Date(Leto[,15]) 
colnames(Leto) <- c('期号','红球1','红球2','红球3','红球4','红球5','蓝球1','蓝球2',
 '奖池','一等奖注数','一等奖奖金','二等奖注数','二等奖奖金',
 '全部奖金','开奖日期')

在读入网页内容，抓取并筛选节点之后，就要对数据进行修修剪剪了。我这里定义了一个trim函数，可以只留下数字的信息。结果如下：

从2007年001期到现在，一共进行了1734期，那么，群众们参与的热情度高不高呢？

可见，大乐透的奖池金额由2007年的不足1亿，增长到2018年的60多亿，增长了60多倍。尤其是2014年之后，群众们购买彩票的热情迅速膨胀。那么，派发的奖金金额在这十年间有什么变化呢？

10年间，派发的奖金由2000万近乎匀速地增长到2亿元，增加了10倍。

下一步，让我们看看大家比较关心的一等奖金额在这10年间有着怎样的变化呢？

2007年至今，一等奖的单注金额都稳定在500-1000万的区间内，只有极少数几期的奖金超出或低于这个范围。

只是利用大乐透的数据做了简单的分析，看官们如果觉得满意，就顺手点个赞呗，让我们互相学习。

“大乐透”系列文章传送门：

十年大乐透数据分析「1」大数规律

大数据告诉你，哪个省的人最喜欢买彩票？

文 | 招财喵zcm，全流程数据分析师，财经数据爱好者，原创不易，转载请注明版权。

相关推荐

一条命令搞定pip国内镜像源设置（pip install 指定镜像）: 玩python的同学想必没有不用pip的吧，pip是python包管理工具，和Nodejs的npm、Java的maven类似，这些依靠开源力量建立起的庞大软件库极大提高了开发的效率，不过默认pytho...

Cadence Allegro在PCB中手动或者自动添加差分对属性: 设计PCB过程中，若设计中有差分对信号，则需要将是差分的2个信号设置为差分对，设置差分对有2种方式：手动添加及自动添加一、手动添加差分对：1、点击Setup-Constraints-Constrain...

合亿 Gutab 三防|车载工业平板功能介绍，车载工业平板厂家推荐: 在商用车队管理迈向智能化、特种车辆作业追求高效化的今天，车载工业平板早已突破传统“车载导航”的单一功能，成为连接车辆、司机与云端管理的核心枢纽。从物流运输的实时调度中枢，到矿山开采的无人驾驶控制器，再...

「探长分享-黑匣子」本田冠道 2020款: 【品牌】探长360汽车黑匣子【产品型号】2TPro【安装车型】本田冠道2020款【功能特点】360全景安全辅助，行车录像，极致高清摄像头，模拟/数字高清/AHD多种信号格式输出，震动监控，一步标...

「探长分享-黑匣子」奥迪A6L 2019款: 【品牌】探长360汽车黑匣子【产品型号】2TPro【安装车型】奥迪A6L2019款【功能特点】360全景安全辅助，行车录像，极致高清摄像头，模拟/数字高清/AHD多种信号格式输出，震动监控，一步...

探长360全景案例分享:奥迪Q7 2011款360全景效果展示: 【品牌】DCT360汽车黑匣子【产品型号】3TPro【安装车型】奥迪Q72011款【功能特点】360全景安全辅助，四路行车录像，极致高清摄像头，模拟/数字高清/AHD多种信号格式输出，24小时停...

「探长分享-黑匣子」保时捷Cayenne 2015款: 【品牌】探长360汽车黑匣子【产品型号】4TPro【安装车型】保时捷Cayenne2015款【功能特点】360全景安全辅助，四路行车录像，极致高清摄像头，模拟/数字高清/AHD多种信号格式输出，...

苍蝇再小也是肉，变态电路的大阳巧客S2差点难死大神: 这台大阳巧客S2电动四轮车是我家第二台四轮俱全的篷车！哈哈！大阳巧客S2配置4.5Kw永磁同步电机，SVPWM矢量控制正弦波系统，车辆在加速、爬坡上性能有提升，效率高，操控灵敏。这台车前段时间刚更换了...

「探长分享-黑匣子」奥迪Q5L 2020款: 360汽车黑匣子【产品型号】4TPro【安装车型】奥迪Q5L2020款【功能特点】360全景安全辅助，四路行车录像，极致高清摄像头，模拟/数字高清/AHD多种信号格式输出，24小时停车监控，一秒一...

「探长分享-黑匣子」丰田兰德酷路泽 2016款: 【品牌】探长360汽车黑匣子【产品型号】3TPro【安装车型】丰田兰德酷路泽2016款【功能特点】360全景安全辅助，四路行车录像，极致高清摄像头，模拟/数字高清/AHD多种信号格式输出，24小...

驾驶室盲区是酿成重卡事故主因?后视系统:这个锅我不背: 小时候家中长辈常常提醒：离大货车远一点！司机根本看不到你！早期的货车可能真的存在驾驶盲区，比如车辆正下方，因驾驶座过高，恰好是司机看不到的视野盲区。而如今的重卡在环视系统上已经非常完善，是否还存在驾驶...

前后双录，360 G580行车记录仪（360行车记录仪g580s）: 相信每一位车主都会为爱车安装行车记录仪，行车记录仪的作用不仅能为交通事故还原证据，还能防止碰瓷。传统的单镜头行车记录仪只能拍摄车头方向的行车画面，如果遇到后方车辆故意碰瓷的事故时，没有监控和后摄画面则...

海康威视同轴录像机怎么使用，海康XVR配置说明: 海康威视同轴录像机支持模拟、同轴以及数字IP摄像机接入，因此在使用多种类型摄像机、老久监控项目改造等场景广泛使用。首先，新录像机第一次使用需要设置管理密码激活，密码需由8-16位数字、小写字母、大写...

亿道三防2代工业级车载平板电脑震撼登场，农机矿车专用: 亿道三防近日推出2024年全新2代车载平板电脑V12R，引领多项技术创新和升级，为农机、矿车等车载领域带来了超越期待与想象的震撼体验。V12R是一款从里到外，性能、功能全线拉满的工业级车载平板电脑！拥...

分析神州十八号返回舱内的摄像机最有可能是什么类型的摄像头: 有没有发现，神州十八号返回舱内摄像机的图像虽然清晰度不是很高，但是画面非常干净，没有一点干扰，几乎看不到噪点。图像清晰度不高不太可能是镜头原因，很可能是图像传感器的分辨率比较低的原因，图像传感器分辨率...

相关推荐

idea本地配置连接远程hadoop集群的一些网络问题解决汇总

无缓存不行?例行升级的入门级阿斯加特AN2 SSD装机点评

Ceph运维手册(基于P版本)

Docker 命令大全（docker命令大全记录表）

替代Docker build的Buildah简单介绍

Docker Desktop安装使用指南:零基础教程

大数据开发前要做什么准备?8台Hadoop服务器进行集群规划前配置

Tensorflow分类loss函数总结 tensorflow绘制loss曲线

R语言学习笔记(七) -离散型数据的模型预测2

iOS Runtime详解