我最近想出了一系列截屏的想法:
我考虑过在#rstats中记录示例数据分析的截屏。我会在一个不熟悉的数据集上这样做, 这样我就可以展示和叙述我的真实思维过程。
要使用的有趣数据集的任何建议?
-罗宾逊 (@drob) 2018年10月6日
哈德利韦翰有一个很大的建议, 分析一个整洁的星期二数据集。整洁星期二是一个梦幻般的项目运行由 R 为数据科学在线学习社区 (特别是托马斯模拟), 发布一个有趣的数据集每周。
我现在发布了我的第一个这样的截屏, 探索本周的整洁星期二数据集 (经济指南背后的数据选择大学专业)。你也可以找到我在这里生产的 R 降价。
我制作了一小部分我觉得很有趣的数字。我看过每类专业毕业生的收入分配情况。
我花了一些时间观察各专业之间性别分布的差异, 这也包括在数据中。
最后, 我用plotly 包建立了一个交互式散点图, 将女性在一个领域中的比例与工资中位数进行比较。
一些注释和观察:
- 这不是 R 教程:如果我在教 R, 我早就准备好了, 并通过材料慢慢地移动。这是一个案例研究, 我如何潜入一个数据集, 并从中学习, 包括步骤, 我想出声, 并决定采取什么路线。如果有的话, 它更接近“speedrun”。
- 我喜欢显示我工作的顺序:我写博客帖子有点 “内而外”: 我从几个数字开始, 然后找出什么预处理我应该开始了, 我总是移动无趣的数字从文章或附录。很高兴地展示了分析是如何成形的, 最终看起来就像一个有组织的成品。
- 我遇到的 bug 比我预想的要少:现场截屏的兴奋部分是, “任何事情都可能出错” (部分原因是我提前录制了这首视频, 而不是现场练习, 压力更小!)我非常精通本次会议中使用的工具 (dplyr 和 ggplot2), 所以我只卡在少数几个 bug 上 (尽管我确实走了几条非生产性路线)。
我有足够的乐趣, 我想我会再次做 (虽然可能不是每星期)当我在听众面前讲话时, 我可以看着人们的面孔, 提高自己的节奏, 但是当我 “独自一人” 时, 记录它是困难的。我知道这是特别困难的非母语的听众, 我会尽量提高意识, 说慢一点!
我期待听到您的反馈, 并记录到下一个!