别小看数据科学家!挖掘他们的创新潜力
2024/11/5 21:03:31
本文主要是介绍别小看数据科学家!挖掘他们的创新潜力,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
这是作者用DALL-E / OpenAI生成的图片。
通过赋予数据科学家更广泛的职责,释放他们的潜在价值,不仅限于技术任务,从而推动创新并提供战略洞察。这篇文章来自O'Reilly Radar 这里。
介绍
现代组织将数据视为一种战略资产,它能够提高效率,增强决策能力,并为客户创造新的价值。在整个组织中——产品管理、营销、运营、财务等部门以及更多——团队都充满着利用数据提升业务的各种想法。为了将这些想法变为现实的行动,公司正积极招募具备技术专长(例如Python、统计分析、机器学习、SQL等)的数据科学家。
尽管有这种热情,许多公司仍然没有充分利用其数据科学家的潜力。组织仍然专注于雇用数据科学家来执行现有想法,并且没有认识到他们能带来的更广泛的价值。除了技能,数据科学家们还拥有独特的视角,能够提出新颖、战略性或差异化的企业想法——这些想法通常只能由数据科学家提出。
注:此处建议根据具体语境调整为更自然的表达,如“抽错了重点的技能和执行”或“技能和执行上的不当重视”。
遗憾的是,许多公司表现出对数据科学家的想法并不感兴趣的迹象。相反,他们将数据科学家当成只发挥其技能的工具。功能团队提供详尽计划的需求文档:“这是您为我们构建新系统的方案。感谢您的合作。”除了交付时间的估算外,没有提供任何上下文信息,也没有寻求任何意见。数据科学家还不断收到战术分析或操作仪表板的临时请求¹。积压的请求变得如此多,以至于工作队列需要通过类似Jira的工单系统来管理。这使得请求失去了任何业务背景(例如,“给我VIP客户最常购买的产品”)。一个请求引发另一个请求²,形成了一个像西西弗斯推石头那样徒劳无功的任务,使得数据科学家没有时间进行独立思考。此外,还有大量模糊的数据提取请求:“请帮我获取这些数据,让我来分析。”这根本不是一种合作;而是一种隶属关系。虽然执行任务可能会产生一些价值,但这并不能充分挖掘数据科学家的全部潜力。
数据科学家未被发掘的潜力不在于他们执行任务或请求的能力,而在于他们将业务转变的想法。这里所说的“想法”是指新的能力和策略,能够引导业务向更好的或全新的方向发展——从而增加收入、利润或客户保留率,同时提供一种竞争对手难以复制的可持续竞争优势(即,竞争对手难以复制的能力或策略)。这些想法通常以机器学习算法的形式体现,可以自动化生产系统中的决策。例如,数据科学家可能会开发一种算法,以更好地平衡过量和短缺成本来优化库存管理。或者他们可能会创建一个模型,以检测隐藏的客户偏好,从而实现更有效的个性化服务。如果这些听起来像商业想法,那是因为它们确实是——但它们不太可能来自商业团队。这些想法通常由数据科学家提出,他们独特的认知能力和在数据分析中的洞察使他们非常适合挖掘这些机会。
认知工具箱是指一个人可以用来思考、解决问题和处理信息的工具、策略和方法(Page 2017)。这些工具箱受到我们背景的影响,比如教育、经验、培训等。同一功能团队的成员往往因为有共同的背景,具有相似的工具箱。例如,市场营销人员学到工具如SWOT分析和ROAS等,而财务专业人士则学习模型如ROIC和Black-Scholes等。
数据科学家拥有独特的认知工具箱。尽管他们的学术背景可能各不相同——从统计学到计算机科学再到计算神经科学——但他们通常共享一个定量工具箱。这包括诸如“[新闻报童模型]”,“[旅行商问题]”,“[生日问题]”等广泛适用问题的框架,这些问题通常有易于理解的名字。他们的工具箱还包括对机器学习算法(如神经网络、聚类和主成分分析)的了解和应用,这些算法用于解决复杂问题的实用解决方案。此外,还包括启发式工具,如大O符号、中心极限定理和显著性阈值。所有这些工具都能用通用的数学语言来表达,使得它们可以轻松地应用到不同的领域,特别是商业领域。
数据科学家的知识库特别适用于商业创新,因为在许多行业中,从数据学习的条件几乎是最理想的,这些条件包括高频事件、明确的目标函数以及及时且明确的反馈。零售商每天有数百万笔产生收入的交易。流媒体服务每天记录数百万次观看事件,反映出客户兴趣。等等,都有数百万乃至数十亿的事件,其中的信号迅速显现。这些是归纳学习的基础单位,尤其是在借助机器的情况下。数据科学的知识库,凭借其独特的框架、机器学习算法和启发式策略,特别适合从大量事件数据中提取知识,尤其是在大规模数据集的情况下。
想法是在认知库与商业环境结合时产生的。当数据科学家参加业务会议时,她会经常经历灵感的涌现。当运营经理描述库存易腐问题并抛出“我们需要买足够的量,但又不能买太多”这句话时,她从笔记本电脑后面抬起头,眉毛上扬。“新Vendor模型,”数据科学家低声自语。产品经理问道:“随着产品数量的增加,这个过程如何扩展?”数据科学家不假思索地在便签上写下“O(N²)”,这是表示过程将按超线性扩展的大O表示法。当市场人员提到客户细分的问题时,抱怨道:“有这么多客户属性,我们怎么知道哪些最重要?”数据科学家立即发信息取消了她晚上的安排,今晚她将迫不及待地尝试对客户数据进行主成分分析。
没有人真的在要求想法。这仅仅是一次战术会议,目的是回顾业务的状态。然而,数据科学家几乎被逼着去想创意。“哦,哦。我有这个了,”她自言自语道。创意的想法有时甚至难以遏制。然而,许多公司似乎无意中抑制了这种创造力。实际上,我们的数据科学家可能根本就不会被邀请参加这样的会议。数据科学家通常不会被邀请参加日常运营会议。他们也不常被邀请参加创意会议,这些会议通常只限于业务团队。相反,会议小组会给数据科学家分配Jira任务来执行。缺乏背景信息,这些任务就无法激发创意。数据科学家的认知能力未被充分利用,这确实是一个错失的机会。
超出他们的认知范围,数据科学家带来另一个关键优势,这使得他们的想法具有独特价值。因为他们深入沉浸在数据中,数据科学家会发现意想不到的模式和见解,从而激发新的商业创意。这些想法新颖独特,以至于没有人会想到它们——例如产品经理、高管、市场人员,甚至是其他数据科学家。有些想法并不是能够构想出来的,而是通过数据中的观察揭示出来的。
公司数据仓库(如数据仓库和数据湖)中充斥着未被充分利用的信息宝藏。在他们的工作中,数据科学家常常会发现一些引人入胜的模式——奇怪的分布、不合直觉的关系等。这些意外发现让他们感到好奇,他们更深入地探究。
想象一位数据科学家正在做她的工作。她被要求编制一份特定客户群体购买的顶级产品的列表。令她惊讶的是,不同群体购买的产品几乎没有差异。大多数产品被所有群体以大致相同的速度购买。奇怪。这些群体是基于客户选择加入的个人资料描述,多年来,公司一直认为这些群体是有意义的分组,对管理产品非常有用。“一定有更好的方法来细分客户,”她心想。她进一步探索,进行了一次非正式的即兴分析。没有人要求她这么做,但她无法克制自己。她不再依赖客户用来描述自己的标签,而是专注于他们的实际行为,比如点击、查看、喜欢或不喜欢哪些产品。通过结合矩阵分解和主成分分析等定量技术,她找到了一种将客户放置在多维空间中的方法。在这个空间中相邻的客户群体形成了有意义的分组,更好地反映了客户的偏好。这种方法还提供了一种将产品置于相同空间的方法,从而可以计算产品与客户之间的距离。这可以用于推荐产品、规划库存、定位营销活动,以及其他许多业务应用。这一切都是从发现现有的客户细分对解释客户行为几乎没有解释力的惊人观察中得到的启发。像这样的解决方案必须由观察驱动,因为在没有数据表明其他情况的情况下,没有人会想到询问更好的客户分组方法。
顺便说一下,数据科学家使用的主成分算法属于无监督学习类别,这进一步体现了观察驱动的见解。与“监督学习”不同,在监督学习中,用户告诉算法要找什么,无监督学习算法让数据自我描述其结构。它是依据数据的;它量化并排序每个维度,提供相对重要性的客观衡量标准。数据本身在说话。我们常常试图让数据符合我们预先设定的分类体系,这些对我们熟悉的体系不仅方便,还能激发直觉反应和刻板印象。这虽然令人满意且直观,却往往脆弱且在实践中站不住脚。
这样的例子并不罕见。当沉浸在数据中时,数据科学家们很难不遇到一些意外的发现或惊喜。而当他们遇到这些发现时,更难以抗拒进一步的探究——好奇心是一个强大的驱动力。当然,她运用了她的认知完成了这项工作,但整个分析的灵感完全来源于对数据的观察。对于公司来说,这样的分心实际上是一种祝福,而不是麻烦。我见过这种无定向的研究导致了更好的库存管理、更优的定价、新的商品策略、以及改进的用户体验,以及其他许多意想不到的能力——这些都不是被要求的。
发现新见解难道不是数据科学家的任务吗?没错——这篇文章正是在讲这一点。问题在于,当数据科学家仅仅因为他们拥有高超的技术技能而被重视时,将他们视为一个仅能回答特定问题的支持团队,限制了他们在数据中深入探索新见解的空间。应对即时请求的高压环境常常导致他们忽视异常结果、非直观的数据以及潜在的新发现。如果数据科学家基于观察提出一些探索性研究的建议,通常得到的回答是“不行,你只需要专注于Jira任务队列”。即使他们在自己的时间,如夜晚和周末,研究出一个有前景的业务模式,也可能因为这个模式没有计划或不在路线图上而遭到抵制。路线图常常过于僵化,忽视新的机会,即使这些机会非常有价值。在一些组织中,数据科学家可能会因为探索新想法而遭受损失。数据科学家常常因为如何服务于功能团队、响应他们的需求和满足短期目标而受到评判。当探索新想法会影响绩效评估时,很少有动机去这样做。事实上,数据科学家往往是在工作之外而非因为工作本身找到了新的见解。
这两点——他们的认知范围和从数据中得到的观察——使得数据科学家的想法独具特色。这并不是说他们的想法一定更好,而是他们的想法和来自业务团队的人不同。而这种不同也有其好处。
即使有了一个看似不错的商业点子,也不能保证它会产生积极的影响。证据表明,大多数点子都会失败。在正确测量因果关系时,大多数商业点子要么没有显示任何影响,要么实际上损害了指标。(参见一些统计数据 here。)鉴于成功率不高的事实,创新型公司会构建一个点子组合库,希望其中至少有一些成功能够帮助他们实现目标。更加聪明的公司则使用实验(A/B测试)来尝试他们的点子在小样本客户中的反应,这使他们可以在决定是否更大范围推广这些点子前评估其影响。
这种投资组合方法结合了实验,从中受益于大量和多样的想法¹¹。这类似于多元化股票投资组合。增加投资组合中的想法数量可以增加获得积极的结果——一个对公司产生实质性积极影响的想法。当然,随着想法的增加,负面结果的风险也随之增加——无用甚至有害的想法。然而,许多想法是可以逆转的——正如亚马逊的杰夫·贝索斯所说的“双向门”(Haden 2018)。在对小部分客户进行测试之后,未达预期的想法可以剔除,减少负面影响,而成功的则推广给所有相关客户,极大地放大了影响。
所以,增加想法到投资组合中可以提升向上的空间,而下行风险较小——越多越好¹²。然而,有一个假设是这些想法是独立的(不相关的)。如果所有的想法都相似,那么它们可能会一起成功或失败。这就是多样性发挥作用的地方。来自不同群体的想法将利用不同的思维模式和不同的信息来源。这使它们各不相同,并且不太可能彼此关联,从而产生更丰富的结果。对于股票而言,多样化投资组合的回报等于各股票回报的平均值。然而,对于想法而言,通过实验可以淘汰不好的想法并放大好的想法,投资组合的回报可以更接近最好的想法所带来的回报(Page 2017)。
除了构建多样化想法的组合之外,单个想法也可以通过合作得到显著的增强¹³。当他们一起工作时,他们的专长可以弥补彼此的盲点(Page 2017)¹⁴。通过融合多个团队的独特专长和见解,想法变得更加坚实可靠,这就像在知识竞赛中,多样化的团队往往表现得更好。不过,组织必须确保真正的合作发生在创意阶段,而不是把责任分开,让业务团队专注于想法的生成,而数据科学家则专注于执行。
数据科学家远不只是具备执行现有想法技能的资源,他们更是创新思维的丰富来源。他们的想法之所以独特且有价值,是因为(1)他们的认知能力对那些具备良好学习条件的企业来说极为相关,(2)他们对数据的观察可以带来新的见解,(3)他们的想法不同于商业团队,为公司增加了想法的多样性。
然而,组织压力常常限制数据科学家充分展现他们的想法。被繁重的技能任务压垮,并且缺乏业务背景,他们被鼓励仅仅满足合作伙伴的要求。这种模式耗尽了团队的执行能力,同时极大地限制了他们的认知能力与见解。
这里有一些组织可以遵循的建议,以便更好地发挥数据科学家的作用,并将他们的角色从单纯的执行者转变为积极的想法贡献者。
- 给他们提供背景信息,而不是任务。 给数据科学家分配任务或提供详尽的需求文档会使他们完成工作,但不会激发他们的创造力。相反,给他们提供背景信息。如果机会已经明确,通过开放式的对话广泛描述它,让他们能够定义问题并提出解决方案。邀请数据科学家参加运营会议,让他们吸收背景信息,这可能会激发他们对尚未考虑的机会的新想法。
- 创造探索的空间。 公司常常给数据科学家分配过多的任务。乍一看可能有些矛盾,但让资源完全饱和其实是非常低效的。如果没有时间进行探索和意外学习,数据科学团队无法发挥出全部潜力。保护他们的时间用于独立研究和探索,可以使用像谷歌的20%时间这样的策略。
- 消除任务管理队列。 任务队列会创造一种以执行为中心的交易型关系。如果优先级是由上级指派的,应该以一般、未定义的机会形式给出,需要通过真正的对话提供背景信息,目标、范围和组织影响。优先级也可能由数据科学团队内部提出,需要职能合作伙伴的支持,由数据科学团队提供必要的背景信息。我们不会给产品或市场团队分配Jira任务,数据科学团队也不应例外。
- 让数据科学家对真实的商业影响负责。 度量数据科学家对商业成果的影响,而不仅仅是他们支持其他团队的程度。这给他们自主权去优先处理高影响力的想法,无论来源。此外,将表现与可测量的商业成果挂钩,可以明确低价值临时请求的机会成本。
- 招聘适应性强、技能全面的数据科学家。 寻找那些在模糊、不断变化的环境中茁壮成长的数据科学家,这种环境中角色和责任可能不总是明确。优先考虑那些有强烈商业影响愿望的人,他们将技能视为驱动结果的工具,并擅长识别与广泛公司目标一致的新机会。招聘具有多样技能的数据科学家可以构建端到端系统,减少交接和协调成本,特别是在创新的早期阶段需要频繁迭代和学习时。
- 招聘具有成长心态的职能领导者。 在新环境中,避免那些过于依赖在成熟环境中成功经验的领导者。相反,寻找那些热衷于学习并重视协作的领导者,利用多元化的观点和信息来源来推动创新。
这些提议需要一个拥有正确文化和价值观的组织。这种文化需要拥抱实验可能失败,来衡量想法的影响,并且要认识到许多实验会失败。它需要将学习视为一个明确的目标,并理解对于某些行业而言,大部分知识仍待发掘。组织必须愿意放弃传统命令与控制模式以促进创新。虽然在初创公司中实现这一点较为容易,但这些提议可以指导成熟组织通过积累经验并增强信心来发展。将组织的焦点从执行转向学习是一个具有挑战性的任务,但其回报可能巨大,甚至对生存至关重要。对于大多数现代企业来说,成功将取决于他们利用人类在学习和创新方面的潜力的能力——而不仅仅是执行(Edmondson 2012)。数据科学家未被充分利用的潜力不在于他们执行现有想法的能力,而在于他们能够提出尚无人想象的新颖且创新的想法。
-
虽然仪表盘确实能为业务操作提供可见性,但它们提供可操作性见解的能力有限。聚合数据通常包含大量混杂因素和系统性偏见,因此很少适用于决策。构建和维护仪表盘所需的资源应该与数据科学团队可以实施的其他更具影响力的任务相平衡。
-
数据相关的查询通常会引发更多问题,这是一个众所周知的现象。
-
我用“增加”代替了“增量”,因为后者常与“小”或“边缘”相关。数据科学项目的成效可以是相当大的。在这里使用这个术语是为了表示影响作为改进——尽管没有对现有商业模式进行根本性的改变。
-
与用于人类消费的数据(如简短摘要或仪表盘)相反,后者确实有其价值,因为它们可以告知我们的员工,但通常在直接可操作性方面是有限的。
-
我不倾向于将各种算法的知识称为“技能”,因为我感觉强调它们在特定情况下概念上的适用性比训练或实现任何特定方法的实践性更重要。
-
电子商务、社交网络和流媒体内容等行业的学习条件与医疗保健等领域相比有利得多,在后者中,事件发生的频率较低,反馈的时间也较长。此外,在医学的许多方面,反馈可能非常模糊。
-
通常,目标可能是收入、利润或用户留存率。然而,对于一家公司来说,确定单一的目标函数可能具有挑战性。
-
出于好奇心、影响的欲望或经验的追求,数据科学家常常自发地进行探索性尝试。
-
实际上,关于商业创意成功率的数据可能带有偏见,因为大多数数据来自科技公司在线服务的实验。然而,至少从个人经验来看,较低的成功率似乎在其他类型的商业功能、行业和领域中是一致的。
-
并非所有想法都适合实验,因为样本量可能不足,无法分离实验组,或者存在伦理等问题。
-
我有意排除“想法质量”这一概念,因为我发现组织通常难以辨别出更好的想法。
-
开发和尝试一个想法的实际成本通常涉及人力资源,如工程师、数据科学家、项目经理和设计师等。
-
参见杜克大学马丁·鲁夫教授的研究,他研究了创新的咖啡馆模式(将不同的人聚集在一起聊天的类比)。多样化的网络比线性网络的创新性高3倍(鲁夫 2002)。
-
数据科学家会欣赏这种类比与集成模型的相似之处,其中个体模型的误差可以互相抵消。
-
维持高于当前需求水平的资源可以使公司利用突发的需求增长,从而获得超过投入的成本效益。这一做法对于人力资源同样适用。
-
通过随机对照试验进行因果关系测量是最理想的,而算法在这方面表现得非常好。
-
提交一个Jira工单太容易了。如果一个主题足够重要,它将通过会议传达背景和机会。
-
如果你阅读到这里,发现自己怀疑那个把时间花在勤勉回应Jira工单上的数据科学家是否能提出一个好商业创意,你可能是对的。那些乐于接单的人可能不是创新者,或者已经被培养成了支持角色,失去了创新的意愿。
- 随着系统的成熟,可以添加更多专门资源以使系统更稳健。这可能导致资源短缺。然而,通过首先找到成功,我们更谨慎地使用宝贵的发展资源。
- Page, Scott E. 2017. 多样性的红利. Princeton University Press.
- Edmondson, Amy C. 2012. 团队合作:组织如何在知识经济中学习、创新和竞争的方法. Jossey-Bass.
- Haden, Jeff. 2018. “亚马逊创始人杰夫·贝佐斯:成功人士是如何做出明智决策的。” Inc., 12月3日. https://www.inc.com/jeff-haden/amazon-founder-jeff-bezos-this-is-how-successful-people-make-such-smart-decisions.html.
- Ruef, Martin. 2002. “强联系、弱联系和孤岛:组织创新的结构和文化的预测因素。” Industrial and Corporate Change 11 (3): 427–449. https://doi.org/10.1093/icc/11.3.427.
这篇关于别小看数据科学家!挖掘他们的创新潜力的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-12-23Fluss 写入数据湖实战
- 2024-12-22揭秘 Fluss:下一代流存储,带你走在实时分析的前沿(一)
- 2024-12-20DevOps与平台工程的区别和联系
- 2024-12-20从信息孤岛到数字孪生:一本面向企业的数字化转型实用指南
- 2024-12-20手把手教你轻松部署网站
- 2024-12-20服务器购买课程:新手入门全攻略
- 2024-12-20动态路由表学习:新手必读指南
- 2024-12-20服务器购买学习:新手指南与实操教程
- 2024-12-20动态路由表教程:新手入门指南
- 2024-12-20服务器购买教程:新手必读指南