百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

产品经理10大基础技能(3):读懂数据仓库

bigegpt 2024-10-26 08:22 102 浏览

一般产品经理需要懂到数据库,但数据产品经理不仅要懂得数据库还要懂到数据仓库!

本篇讲解产品经理为什么要懂数据仓库?数据产品经理如何构建数据仓库?构建数据仓库以后如何利用数据仓库赋能产品业务?最后讲解数据仓库产品的未来是什么样子?

一、为什么要懂数据仓库?

产品经理都知道做出能用的小程序几千几万块都可以做出来,做个能用的APP几万几十万也可以做出来,但是一个能用的数据仓库产品或者有点商务智能的数据仓库产品则至少要花费千万级。

动则花费数千万的数据仓库产品,它有什么作用呢?

最简单的数据仓库是用于存储和报告数据的系统。数据通常源自多个系统,然后将其移入数据仓库以进行长期存储和分析。该存储的结构使得组织内的许多部门或部门的用户可以根据他们的需要访问和分析数据。

数据仓库产品功能结构图如下:

从上图可见,数据仓库包含来自许多操作源的数据有APP应用的数据,也有Oracle的数据。经过数仓以后的结构它可用于分析数据,例如制作用户画像标签,推荐系统等。数据仓库不仅是分析工具,同时支持跨多个部门的用户的决策和报告。也是档案,包含未在操作系统中维护的历史数据。

小结:产品经理为啥要懂数据仓库呢?

  1. 因为需要我们产品经历设计的用户画像产品,推荐系统产品,自助报表产品,及其他可视化产品可以通过数据仓库产品和模型更方便的读取。
  2. 随着数据量从GB到TB再到PB甚至到EB、ZB的增大,如果不构建稳定干净能够快速可以利用的数据仓库,对任何企业来说都是资产的损失。
  3. 也许以后所以的产品经理都会成为数据产品经理,而对数据产品经理来说其核心技能是主导设计更加优秀的数据仓库产品。

二、数据产品经理构建数据仓库产品的步骤是什么?

笔者LineLian总结从0到1构建数据仓库模型产品为以下3步。

第一步:定位数仓需求

本处笔者以构建买菜类产品的数据仓库为例概述以点带面分析数据仓库的产品业务需求。

随着永辉买菜、叮咚买菜、盒马先生、多点生鲜、美团/饿了么买菜等对生鲜电商的冲击,想突出买菜生鲜类产品的竞争生存线,谁能拥有用户的数据,更懂用户的数据,更快速的为用户送达所需要的鲜菜品,谁家的产品就能占领用户心智。

故此决定构建以用户购买订单为核心主题的数据仓库先行建立起来,日后再逐步丰富数据仓库的主题库。

对先构建的订单主题数据仓库需求的各个功能拆解如下图:

对于卖菜生鲜类数仓需求来说,需要支持提供用户商品的需求的提早预判,及关联商品的实时推荐,配送人员的实时调度,物流的实时配送,支持用户的洞察用户画像,以及报表展示和各种决策支持。

为便于理解,先从上图以订单为主题的数据仓库构建开始数仓需求分析。

小结:生鲜买菜类产品的数据仓库用户订单需求分析如下:

  • 用户购买生鲜数采的通常日期是什么?
  • 用户买菜的时间段是什么?
  • 什么样类别的菜品销售最好?
  • 哪类菜品的销量,销售额大?
  • 什么样的用户倾向购买什么样的菜品?
  • 菜品的购买与客户的地理位置有什么关系?
  • 什么供应商的菜品用户更喜欢?
  • 对于供应商,销售靠前的10种生鲜菜品是什么?
  • 交易用,菜品订单的状态是什么样的?

第二步:多维数仓建模

我们都知道,一条用户访问的信息,可以看做一条日志数据,这条数据包含用户的访问路线,比如是从网址来,还是从第三方渠道跳转过来。还可以看出下单后选择的支付方式是银行卡还是支付宝微信等。

那么为了及时的向用户推荐商品实现订单销量的增加,我们采用什么样的模型呢?笔者经常用户的构建数仓产品的模型是多维建模的方式。

全面合理的设计用户维有助于准确的分析用户的行为。用户维的模型需要使用一些维来描述属性层次,例如用户的注册日期,时间需要通过日期维和时间维来详细描述,用户的居住地址需要通过地理维来进一步描述。

从上一步的用户订单需求分析,再此建立用户的订单多层次维度模型如下图所示:

小结:构建数仓多维模型时,鉴于数仓是个复杂的产品,里面需要涉及多个事实表和共享维表,同时维表中的某个属性指向另外的维度。因此采用星型模型或者雪花模型来显示一个事实表与多张维表的清晰对应关系。

第三步:数仓数据预处理模型

这一步是仓库中集成了几乎企业所有的可以获取到的数据以用于数据分析和决策支持。这些进入到数据仓库中的数据一般有三种,结构化数据、半结构数据和非结构化数据,它们经过转化后以某种形式统一的存储在数据仓库中,即需要ETL。

那么对于半结构化数据和非结构化数据,我们需要再数仓构建过程中准备好适合的算法模型来处理存入数仓之前的数据。

例如构建识别URL的算法模型:

  • 首先,数据预处理,从原始日志中提取数据信息存储到日志表中,计算当天页面停留的时间,设算法如下:先计算访问页面的顺序,访问的时刻,最终结算出页面的停留时间基数值。
  • 其次,要计算每个页面的停留时间,根据不同的URL类型计算影响因子,设计一套算法模型。最终算出接近现实的页面会话内容。

小结:在构建数据仓库的概略3步中,产品经理核心是输出需求分析内容,和构建以需求业务为主题的具体分析及对应的维度。

三、如何利用数仓赋能产品业务?

数仓几乎用于企业的所有数据,譬如销售数据、用户数据、页面浏览数据等,想以数仓来驱动业务发展,从而实现增长,才仅仅是搭建了第一步,剩下的是如何利用这些数据。

利用数据,就要引入数据分析的概念,数据分析就是对数仓积累多年的海量数据,进行挖掘分析,找出数据之间隐藏的关系以及逻辑,并以分析结论制定相应合理的决策,从而促进产品业务的增长。

那要怎样进行数据分析?如果要进行数据分析。

数据分析的工作一般流程有六个,分别是业务需求理解,数据对应业务理解,数据准备,建模,评估,部署。这就是数据分析工作的流程。

当然,数据分析对数据质量的要求非常高,而且对数据的理解也必须深刻。

所以说,要想理解数据就需要很长时间。而数据仓库的优点就是能够高效、快速地进行数据理解和处理,所以说利用数据仓库进行数据分析无疑能够给我们产品经理的工作带来很大便利。

利用数仓做数据分析的产品步骤是如下:

第一,数据分析要求理解数据背后对应的每条业务主题。

数据仓库本身是面向主题的,例如上文中我们以用户订单为主题构建数据仓库。所以其自身与业务结合就相对紧密和完善,更方便数据产品经理基于数据理解业务。需要做的就是拿到业务或者运营需求,理解数据仓库的模型,进而就理解了数据对应的业务。

第二,数据分析要求有较高的数据质量。

很难想象没有准确的源数据质量,例如,用户的手机号是错的,那么再好的推荐模型也将无法发挥作用,二数据仓库的数据是经过ETL层层从不同的数据库里进行清洗转换过的稳定的数据,以及对脏数据的清洗,这就为数据分析的数据质量做了较好的保障。

第三,高效的跨系统数据查询,数仓的数据经过ETL过程后流入数据仓库,当不同系统数据整合到数据仓库之后,能够解决两个问题,第一就是跨系统数据收集问题,第二就就是跨系统关联问题。

第四,构建数据仓库产品的功能时,也已经搭建了数据分析的算法和模型,例如上文中的对非结构数据的算法模型。

四、数据仓库产品的未来是什么样子?

再美好的事物不学习,不迭代也会落伍,而数据仓库相反,数据仓库一直在发展之中,其前世今生历程如下图:

故此笔者LineLian根据多年产品经理和处理数据分析的实践经历发现,未来的数据仓库基础上一定能够长出数据平台和智能数据中台,具体数据平台怎么搭建和智能数据中台怎么搭建,下次再撰写。

总结:本篇通过讲解最贵的产品之一数据仓库的重要性,然后分析拆解数据产品经理如何搭建数据仓库产品的流程,最后讲解产品工作中如何利用数据仓库。

#专栏作家#

连诗路,公众号:LineLian。人人都是产品经理专栏作家,《产品进化论:AI+时代产品经理的思维方法》一书作者,前阿里产品专家,希望与创业者多多交流。

本文原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自Unsplash, 基于CC0协议

相关推荐

AI「自我复制」能力曝光,RepliBench警示:大模型正在学会伪造身份

科幻中AI自我复制失控场景,正成为现实世界严肃的研究课题。英国AISI推出RepliBench基准,分解并评估AI自主复制所需的四大核心能力。测试显示,当前AI尚不具备完全自主复制能力,但在获取资源...

【Python第三方库安装】介绍8种情况,这里最全看这里就够了!

**本图文作品主要解决CMD或pycharm终端下载安装第三方库可能出错的问题**本作品介绍了8种安装方法,这里最全的python第三方库安装教程,简单易上手,满满干货!希望大家能愉快地写代码,而不要...

pyvips,一个神奇的 Python 库!(pythonvip视频)

大家好,今天为大家分享一个神奇的Python库-pyvips。在图像处理领域,高效和快速的图像处理工具对于开发者来说至关重要。pyvips是一个强大的Python库,基于libvips...

mac 安装tesseract、pytesseract以及简单使用

一.tesseract-OCR的介绍1.tesseract-OCR是一个开源的OCR引擎,能识别100多种语言,专门用于对图片文字进行识别,并获取文本。但是它的缺点是对手写的识别能力比较差。2.用te...

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

号称“OpenAI迄今为止最强模型”,o3/o4-mini真实能力究竟如何?就在发布后的几小时内,网友们的第一波实测已新鲜出炉。最强推理模型o3,即使遇上首位全职提示词工程师RileyGoodsid...

使用Python将图片转换为字符画并保存到文件

字符画(ASCIIArt)是将图片转换为由字符组成的艺术作品。利用Python,我们可以轻松实现图片转字符画的功能。本教程将带你一步步实现这个功能,并详细解释每一步的代码和实现原理。环境准备首先,你...

5分钟-python包管理器pip安装(python pip安装包)

pip是一个现代的,通用、普遍的Python包管理工具。提供了对Python包的查找、下载、安装、卸载的功能,是Python开发的基础。第一步:PC端打开网址:选择gz后缀的文件下载第二步:...

网络问题快速排查,你也能当好自己家的网络攻城狮

前面写了一篇关于网络基础和常见故障排查的,只列举了工具。没具体排查方式。这篇重点把几个常用工具的组合讲解一下。先有请今天的主角:nslookup及dig,traceroute,httping,teln...

终于把TCP/IP 协议讲的明明白白了,再也不怕被问三次握手了

文:涤生_Woo下周就开始和大家成体系的讲hadoop了,里面的每一个模块的技术细节我都会涉及到,希望大家会喜欢。当然了你也可以评论或者留言自己喜欢的技术,还是那句话,希望咱们一起进步。今天周五,讲讲...

记一次工控触摸屏故障的处理(工控触摸屏维修)

先说明一下,虽然我是自动化专业毕业,但已经很多年不从事现场一线的工控工作了。但自己在单位做的工作也牵涉到信息化与自动化的整合,所以平时也略有关注。上一周一个朋友接到一个活,一家光伏企业用于启动机组的触...

19、90秒快速“读懂”路由、交换命令行基础

命令行视图VRP分层的命令结构定义了很多命令行视图,每条命令只能在特定的视图中执行。本例介绍了常见的命令行视图。每个命令都注册在一个或多个命令视图下,用户只有先进入这个命令所在的视图,才能运行相应的命...

摄像头没图像的几个检查方法(摄像头没图像怎么修复)

背景描述:安防监控项目上,用户的摄像头运行了一段时间有部分摄像头不能进行预览,需要针对不能预览的摄像头进行排查,下面列出几个常见的排查方法。问题解决:一般情况为网络、供电、设备配置等情况。一,网络检查...

小谈:必需脂肪酸(必需脂肪酸主要包括)

必需脂肪酸是指机体生命活动必不可少,但机体自身又不能合成,必需由食物供给的多不饱和脂肪酸(PUFA)。必需脂肪酸主要包括两种,一种是ω-3系列的α-亚麻酸(18:3),一种是ω-6系列的亚油酸(18:...

期刊推荐:15本sci四区易发表的机械类期刊

  虽然,Sci四区期刊相比收录在sci一区、二区、三区的期刊来说要求不是那么高,投稿起来也相对容易一些。但,sci四区所收录的期刊中每本期刊的投稿难易程度也是不一样的。为方便大家投稿,本文给大家推荐...

be sick of 用法考察(be in lack of的用法)

besick表示病了,做谓语.本身是形容词,有多种意思.最通常的是:生病,恶心,呕吐,不适,晕,厌烦,无法忍受asickchild生病的孩子Hermother'sverysi...