当前位置: 主页 > 热点聚焦 > 精选推送 >

数据探索平台设计

时间:2018-12-05 13:41来源:科技讯 作者:seven 点击:
阿里云-高级数据产品经理 2. 规划产品的生命周期和交付形态,对项目结果负责 3. 关注用户体验负责,产出安全、稳

数据工具产品很重要,但是这方面的人才却很稀缺。本篇文章作者结合自己的数据产品经验,介绍了数据探索平台设计——“CheckStyle”。

数据探索平台设计

在产品的庞大家族中,有一类很重要的产品,他就是工具产品,工具产品具备强服务性,并且使用场景时效性极强,高效便捷的工具极大的方便了我们的生活。

随着大数据时代的带来,在工具产品中又衍生出了数据工具产品,随着数据的增长,数据的价值也亟待我们去挖掘,各大公司正在积极挖掘数据价值,并组建自己的数据团队,包括数据分析师、数据科学家、数据产品经理、数据工程师等等。

在这样的契机下,数据探索平台应运而生,作为一款数据工具产品,数据探索平台核心功能便是数据开放和探索,支持数据分析师、数据科学家和数据工程师等数据团队成员和咨询、BD等业务团队成员,用他们习惯和擅长的工具,协同进行数据科学项目。

数据工具产品很重要,与此同时,这方面的人才却很稀缺。

数据工具产品经理不仅仅要求传统产品经理的基本能力,还对技术背景和大数据架构有一定要求,这里我们不妨看一下业界领先数据产品阿里云对数据产品经理的要求:

阿里云-高级数据产品经理

级别:P7\P8

地点:北京、杭州均可

负责ApsaraDB数据库产品设计,ApsaraDB数据库服务是阿里云核心的数据类的产品,是阿里云最为重要的PASS平台之一。

工作内容

1. 完成市场调研与竞争对手分析,准确定义数据库/大数据具有市场竞争力的产品

2. 规划产品的生命周期和交付形态,对项目结果负责

3. 关注用户体验负责,产出安全、稳定、易用的产品

4. 组织研发、测试、运维、运营的高效沟通

5. 支持业务团队完成营收目标

要求

1. 计算机科学领域(CS)学士或硕士学位

2. 对大数据架构基本了解,有一定的大数据架构经验

3. 了解以下Hadoop\Spark\HBase\MongoDB\Redis优先

4. 了解数据库基本理论、大数据基本理论、云计算

5. 程序员/DBA出身优先

6. 了解大数据方案优先

类似于《Hadoop架构原理》以便于了解我们数据探索平台底层数据存储架构,从而更好的做数据开放和探索。

类似于《为什么Jupyter是数据科学家们实战工具的首选?》以便于了解我们数据探索平台用户的日常工作,以更好的迭代产品,让科学家们用起来更顺畅。

数据工具产品很重要,数据工具产品人才很稀缺,自然,数据工具产品文章也很少。

基于此,结合自己的数据产品经验,简单谈一下数据探索平台设计中的一个Feature,“CheckStyle”,和大家探讨,希望起到抛砖引玉的效果。

本文核心观点:

因为用户编写的代码可能存在质量差、性能低、不规范、语法错误等问题。CheckStyle将使用我们TD的规则库,通过平台和流程来保障代码质量,希望能尽早、尽快、无感解决故障隐患,以节约时间,提高效率,降低出错率。

短期内会通过代码样例,API半自动化实现,结合实践不断完善规则库形成闭环,最终实现自动优化。

同时在一定程度也可以提升用户的技能,这也是平台“自动化”的重要一步。

设计前的小故事

为什么想到设计“CheckStyle”这个Feature呢?

主要是昨天和一位数据分析师同学闲聊,听到她随口吐槽一件工作中的小事,见微知著,聊一下数据探索中的“CheckStyle”需求,和大家一起探讨哈。

对话大意:

“最近咋样啊?”省略N个字。

进入正题:

分析师:“实习生写的SQL真是令人痛心,一堆错。”

权:“一堆错?规范问题?语法问题?业务问题?性能问题?或者,都有?”

分析师:“都有,毕竟是实习生。”

果断先diss她几句,招人时咋不想清楚,有经验的好一点,没经验的就要做好培养的准备,而且必然是一段时间细致的培养,答复,虽然她也做了准备,但确实需要时间。

权:“那你现在咋办?”

分析师:“能咋办,遇到问题解决问题,一个个看呗!”

权:“那个人力量有限啊,你时间有限,而且我们也只能说熟练使用SQL,不能说精通,大多数场景能搞定,遇到一些问题也需要查,这种事最好交给机器做,产品化。”

分析师:“有意思,说说看。”

权:“我想想,写篇文章总结一下,大家一起探讨吧!”

对话基本结束。

一段简短的对话,一件工作中的常见的小事,但可以挖掘的点很多。

下面说一下我的想法,“CheckStyle”。

一、“CheckStyle”是什么? 1. 背景

工作中类似的问题太多了,用户编写的代码可能存在质量差、性能低、不规范、语法错误等问题。

这里的用户包括:咨询、分析师、工程师、科学家等。

这里的代码包括:SQL、Python、Scala、R等。(SQL、Python、Scala、R皆为编程语言)

2. 具体场景

这么一说大家感受可能不深。

我们再来看几个鲜活的例子,看一线中的具体场景:

1. 前段时间一位数据科学家同学因为输出数据集目录命名不规范,导致和DSS的时间分区功能冲突。

数据科学家在我们印象中已经比较专业了,但依然有可能发生偏差。

其实“是人就可能会出错”,因此需要相应的规则和流程来约束,减少出错率。

数据探索平台设计

2. 前天看到一篇Python性能提升的文章,大意如下:

(责任编辑:两度科讯)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
  • 科技
  • 热点
  • 数码
  • 绿色
  • VR
  • 智能
  • 人工
  • 软件
  • 极客
栏目列表
推荐内容