数据科学项目需要大量耗时的迭代。在处理数字和数据解释时, 毫无疑问, 你必须相当聪明和主动。

如果迭代需要定期更新, 那么迭代可能会令人沮丧, 这并不奇怪。有时, 该模型已有6个月的历史, 需要当前信息或错过某些数据的其他时间, 因此必须重新进行分析。在本文中, 我们将重点介绍数据科学家和业务分析师如何在不需要花费太多时间进行不健康的迭代的情况下提高生产率。

数据科学家的提示和技巧

记住更大的画面

在进行分析时, 应将长期目标视为优先事项。可能会出现许多小问题, 不应该掩盖较大的问题。在决定将在更大范围内影响组织的问题时, 要有观察所的观察。关注这些更大的问题, 并寻找稳定的解决方案。数据科学家和业务分析师必须有远见才能体现解决方案。

了解问题并保持手头的要求

数据科学不是实现幻想复杂的算法或做一些复杂的数据聚合。数据科学更多的是为手头的问题提供解决方案。所有工具 (如 ml、可视化或优化算法) 都只是指通过这些工具可以找到合适的解决方案。永远理解你试图解决的问题。在获得数据后, 不应直接跳转到机器学习或统计信息。我们应该分析什么是数据, 以及你需要知道和执行什么来解决你的问题。另外, 在实施方面, 始终关注解决方案的可行性也很重要。一个好的解决方案总是容易实施的。始终知道您需要什么来解决问题。

更真实的世界化方法

数据科学涉及为实际使用案例提供解决方案。因此, 一个人应该始终保持一个面向现实世界的方法。我们应该始终关注当前问题的域业务用例和要实现的解决方案, 而不仅仅是从技术方面来看待它。技术方面的重点是解决方案的正确性, 但业务方面的重点是解决方案的实现和使用方面。有时, 您可能不需要一个复杂的不全面的算法来满足您的要求, 而是, 您更喜欢一个简单的算法, 它可能不会像以前的算法那样给出正确的结果, 但它的准确性可以用它可理解的属性来交换。技术方面的知识是必须的。

不是所有的东西都是 ml

最近, 机器学习在各种业务应用中的应用有了很大的进步。借助强大的预测能力, 机器学习可以解决各种业务场景中的许多复杂问题。但人们应该注意的是, 数据科学不仅仅是机器学习。机器学习只是其中的一小部分。数据科学更多的是为给定的问题找到一个可行的解决方案。应该关注数据清理、数据可视化等领域, 以及广泛探索数据和查找各种属性之间关系的能力。最重要的是要有能力破解有意义的数字。一个好的数据科学家更专注于上述所有的品质, 而不仅仅是试图将机器学习算法适合于问题陈述。

编程语言

至少掌握一种在数据科学中广泛使用的编程语言是很重要的。有很多可以帮助你学习 python 和 r 中的数据科学

数据清理和 eda

探索性数据分析是数据分析过程中的重要步骤之一。在这里, 重点是了解手头的数据–例如制定正确的问题来询问您的数据集, 如何操作数据源以获得所需的答案, 以及其他问题。这是通过使用可视化方法详细查看趋势、模式和异常值来完成的。假设您正在为语言处理任务清理数据, 简单的模型可能会给您带来最好的结果。清理是数据科学中最复杂的过程之一, 因为几乎所有可用或提取用于语言处理任务的数据都是非结构化的。事实是, 高度处理和结构化的数据将产生比嘈杂的数据更好的结果。我们应该尝试使用简单的正则表达式来执行清洁任务, 而不是使用复杂的工具

始终开放学习越来越多

“数据科学是一个旅程, 而不是一个目的地。这条线让我们深入了解数据科学领域的巨大程度, 以及为什么不断的学习和建立智能模型同样重要。让自己了解每天开发的新技术的从业者能够更快地实施和解决业务问题。 有了像 mooc 这样的互联网上的所有资源, 人们可以很容易地利用这些资源进行更新。此外, 在您的博客或 github 上展示您的技能是一个重要的黑客, 我们大多数人都不知道。这不仅有利于他们的 “年龄太大, 无法学习的人可能总是太老, 无法学习”。

评估模型和避免过度匹配

将数据分成两组-训练集和测试集, 以获得更有力的结果预测。交叉验证是在不过度拟合的情况下分析数值数据的最方便的方法。它检查样本外的适合。

将结果转换为操作

同样, 这听起来可能是一个简单的提示, 但你会看到初学者和先进的人都在上面动摇。初学者将执行 excel 中的步骤, 其中包括复制粘贴数据。对于高级用户, 通过命令行界面完成的任何工作都可能无法重现。同样, 在使用笔记本时, 您需要格外谨慎。您应该控制返回并更改以前使用在流中稍后计算的数据集的任何步骤的冲动。笔记本非常强大, 可以保持流程。如果我们不保持流量, 也会非常滞后。

休息

我什么时候工作得最好?当我为自己提供一个2至3小时的窗口来处理一个问题/项目时。作为数据科学家, 你不能多任务。你需要一次关注一个问题, 以确保自己得到最好的结果。2到3小时块最适合我, 但你可以决定你的。

结论

数据科学需要不断学习, 它更多的是一个旅程, 而不是一个目的地。人们总是不断地学习越来越多的关于数据科学的知识, 因此, 人们应该时刻把上面的技巧和技巧放在他的武库中, 以提高自己的生产力, 并能够为复杂的问题提供更多的价值, 这些问题可以用简单的方法来解决解决 方案!请继续关注更多有关数据科学的文章。

Comments are closed.