数据科学正在消亡；这是原因

2024/9/20 21:03:38

本文主要是介绍数据科学正在消亡；这是原因，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

为什么85%的数据科学项目失败

在阅读之前，这里有一个快速声明。除了我提到的统计信息外，其余内容只是我的个人看法。请谨慎对待。否则，希望您能享受阅读！

数据科学项目的失败率是一个众所周知的挑战。根据Gartner，超过85%的数据科学项目失败。

Dimensional Research 发布的一份报告显示，只有4%的公司成功地将机器学习模型部署到了生产环境中。我最近发现，Kaggle竞赛中的最佳结果并不总是能转化为实际应用的效果。

Kaggle竞赛是用于练习的

在最近我参加的一次竞赛中，获胜者通过将互联网上的真实世界数据整合到提供的数据集中作弊。任务是根据历史数据预测从2024年5月22日到2024年6月4日这一周的美元-奈拉汇率。这位不愿透露姓名的获胜者在那些日期到来后，收集了真实世界的数据，将其整合到训练集中，并基于更新后的数据集构建了滞后特征（7个滞后）和多步目标（13个步骤）。

这是明显的作弊；当然，他会赢得比赛。你怎么能用真实世界的数据来训练你的模型、预测真实世界的结果，然后又故意不提这一点呢？你不应该用实际的未来数据来训练你的模型，去预测同样的未来数据。你是不是时间旅行者啊？我一点也不佩服😤。我其实一直关注他的工作，所以现在很心痛。阅读他的解决方案，如果你觉得我在夸大其词。如果你要作弊，就大大方方地作弊。

至于第二名的获奖者，他之所以能获得这个位置，唯一的原因是他是在Kaggle上训练了他的模型。Kaggle上的模型是民主化的，所以这并不算什么。他可能只是在平台上尝试了不同的随机种子，直到超过了最佳分数。这是他的解决方案。

他甚至自己也承认了。至少他的方法比第一个更实际。他值得获胜；可惜他没有作弊。

这并不是说我们应该开始欺骗自己。“敌不过就加入他们”在这种情况下并不适用。Kaggle竞赛和其他大多数数据科学竞赛的主要问题在于，它们经常跳过了任何数据科学项目中最关键的部分：获取和清洗数据集。通过我的深入研究，我发现，在现实世界中，建模并没有那么重要。让我解释一下。

在实际场景中，一旦公司有了清洗过的数据集，他们只需将其输入到一个自动机器学习系统中，该系统就会为该数据集生成最佳模型。此外，大多数现实世界的问题都涉及分类和回归，对于这些问题，梯度提升模型被广泛认为是最好的模型。如果你对此有所怀疑，可以查证一下！

大多数研究都是垃圾

抱歉用词不当，但当我们已经知道哪些模型最适合食品需求预测等问题时，为什么还要做研究来确定哪些模型更好呢？这就像在跑步机上跑步一样，完全无用的研究。相信我，那些声称“证明”相反的论文，它们的数据集是特意收集的，甚至对数据集进行了操纵，并展示特定的可视化结果，以强化他们预先设定的偏见。大多数这些项目在实际生活中根本无法应用。

我最近实现了一篇证明我观点的研究论文。我推荐你看看这篇文章。研究人员创建了许多基于目标变量的特征；我的意思是，当然，从目标变量衍生出来的变量与目标变量会有很高的相关性。

这非常作弊，因为在预测未见过的数据时，这些特征是如何创建的？这些特征是基于你想要预测的目标创建的。当然，正如你所预料的，他基本上用一个用他想要预测的数据训练的模型来做预测。作弊！

前进的道路

那么“solulu”相对于“delulu”是什么呢？对我来说，从现在开始，我将回到磨练我的数据获取和数据清洗技能。我将回到仪表板和SQL。即使我仍然使用Python，我也会专注于数据准备和分析部分。只有在你拥有干净的数据集时，对未来进行预测才有意义，而从Google或其他网站下载干净的数据集并不能反映真实世界的数据经验。这就是我最近一直在做的事情。

我仍然相信重新实现研究项目，尽管大多数项目都有很大的偏见。我想我得更好地挑选这些项目了。

所以请跟随我提升数据技能的旅程。我想学习数据在现实世界中是如何运作的，而不是通过作弊来赢得比赛。

我的看法显然有些偏颇，再加上我是个输不起的人😭😒，所以我想听听你对此的看法😏。否则，敬请期待！

这篇关于数据科学正在消亡；这是原因的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

数据科学正在消亡；这是原因

相关编程文章