在现成的数据集和复杂的加密代码之间隐藏着大量不易被发现的信息。我们称之为“隐藏数据”。这些信息不一定是故意隐藏的,甚至不难找到,但可能非常有价值。只需稍加搜索,您就可以找到启发性的评论、精确的搜索结果甚至额外的数据集。以下是一些简单步骤的列表,可将您的数据侦查提升到一个新的水平。
检查元素
每个网页背后都有一系列代码,有时隐藏着一些有趣的细节。网站上的“检查元素”选项(在 Chrome 上按住 Control 键并单击 >“检查元素”)可让用户直接查看其代码。为什么要查看代码?程序员经常会给自己留一些注 加拿大移动数据库 释(注释以绿色文本显示)或其他启发性的背景数据,例如图像标题。例如,皮特·胡克斯特拉 (Pete Hoekstra) 备受争议的超级碗广告让那些认为它是种族主义的人更加愤怒,因为一名 Twitter 用户通过代码发现这位中国女演员的图片名为“ yellowgirl ”。 (来源)
蜜蜂
是否曾经尝试过在 Facebook 或 Twitter 上查找旧帖子?忘掉它吧。查找过去的帖子非常耗时而且很容易遗漏。使用给定站点的 API 或应用程序编程接口,您可以搜索特定参数内的信息,包括关键词和日期。许多社交网络和数据集都有 API,使搜索相对容易。API 允许 Tweetdeck 等应用筛选 Twitter。Visual.ly 还使用它们来生成社交媒体数据可视化。使用 Facebook Graph API查找来自特定人物、日期、主题等的帖子,您再也不必忍受不断点击“更多故事”的痛苦。我们最近发布了一份API 和其他开放数据源列表来帮助您入门,而《纽约时报》还提供了一份出色的 API 列表,可帮助您快速启动任何数据新闻查询。
Excel
虽然将数据文件转换为简单的 CSV 格式很诱人,但有时 Excel 或 XLS 可能更有用。您不仅可以轻松地以细微的方式对数据进行排序,还可能找到隐藏的数据。Excel 中的隐藏注释可以深入了解数据背后的想法。此外,有时这些文档包含隐藏的数据行,而数据来源可能不希望您看到这些数据行。通过突出显示整个数据集、右键单击并选择“取消隐藏”来找到它们。
内部文件
作为《华尔街日报》“他们知道什么”系列的一部分,数据记者了解到,一家名为RapLeaf的公司正在常用网站上安装 cookie,以收集用户从收入到兴趣等深入信息。为了弄清楚 RapLeaf 知道什么,《华尔街日报》必须破解密码。政府数据不必如此紧张。如果他们的信息以某种方式被编码,政府机构有责任提供一份关键或内部文件,你可以将该文件与数据本身一起提交 FOIA。(请记住,你必须非常非常有耐心:FOIA 请求可能需要数月才能完成。记者新闻自由委员会在此处提供了 FOIA 信函表格,你可以使用它来生成并向任何联邦或州政府机构发送 FOIA 请求。)
维基百科
ScraperWiki是一款出色的数据查找工具,但它需要的编程知识比上述建议的要多一些。但是,如果您熟悉 Python、PHP 和 Ruby,那么您很幸运。ScraperWiki 允许数据记者收集或抓取可能仅能零碎获取的整套数据。在最近于《华盛顿邮报》举办的美国新闻数据营中,程序员和记者都“解放”了各种不同的数据,从爱荷华州波尔克县的嫌犯照片到华盛顿特区外学区的考试成绩 。Rani Molla是哥伦比亚新闻学院的数字媒体硕士生。她是一名新闻读者、作家、摄影师、摄像师、数据可视化师和实干家。