《大数据时代》读书笔记

数据已经成为一种商业资本,一项重要的经济投入,可以创造新的经济利益。事实上,通过对海量数据进行分析,我们可以获得巨大价值的产品或服务,或者深刻的洞见。

大数据时代的思维变革:

(1)不是随机样本,而是全体数据:在大数据时代的第一个转变就是利用所有数据,而不再仅仅依靠一小部分数据。采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。因此样本选择的随机性比样本数量更加重要。大数据的方法不采用随机分析法,而是采用所有数据,即样本=总体。

(2)追求数据的混杂性而不是精确性:大数据为了扩大数据规模允许不精确。大数据的简单算法比小数据的复杂算法更加有效。大数据要求我们接受纷繁性,放弃对精确性的追求,在大数据时代我们无法获得精确性。

(3)大数据追求相关关系而非因果关系:通过监控一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。大数据的相关关系分析法更加准确、更快,而且不易受传统思维模式和特定领域里隐含的固有偏见的影响。建立在相关关系分析法上基础上的预测是大数据的核心。

大数据时代的商业变革:

(1)一切皆可量化:量化是数据化的核心。我们要的是数据化而不是数字化。数据化是指一种把现象转变为可制表分析的量化形式的过程。数字化指的是把模拟数据转换为0和1换算表示的二进制码。

有了大数据的帮助,我们不再会将世界看作世界是一连串我们认为或是自然或是社会的现象,我们会意识到本质上世界是由信息构成的。将世界看作信息,看作可以理解的数据海洋,为我们提供了一个从未有过的审视现实的视角。它是一种可以渗透到所有生活领域的世界观。

(2)数据的绝大部分价值都隐藏在表面之下:数据的价值不仅限于特定用途,它可以为同一目的而被多次使用,也可以用于其他目的。数据的基本用途是为信息的收集和处理提供依据。不同于物质的东西,数据的价值不会随着它的使用而减少,而是可以不断地被处理。

数据的创新包括:数据的再利用(采集用户的搜索数据判断用户的偏好或发展趋势)、重组数据(多个数据集的总和重组在一起时比单个数据集更有价值)、可扩展数据(使得某种方式收集的单一数据集有多种不同的用途)、数据的折旧值(随着时间推移,大多数数据都会失去一部分基本用途但潜在价值依然强大)、数据废气(使用用户在网上留下的数字轨迹,如在线交互痕迹,来改善旧服务)、开放数据(开放政府数据让私营部门和社会大众访问)。

公司所持有的数据可视为公司的无形资产。

(3)数据、技术与思维的三足鼎立:大数据价值链的构成为大数据采集掌控、大数据挖掘技术、大数据思维。现今我们处在大数据时代的早期,思维和技能是最有价值的。但最终大部分的价值还是必须从数据本身中挖掘。大数据公司的多样性表明了数据价值的转移。随着数据价值转移到数据拥有者手上,传统的商业模式也就被颠覆了。

未来行业专家和技术专家的光芒都会因为统计数学家和数据分析家的出现而变暗。因为后者不受旧观念的影响,能够聆听数据发出的声音。

大数据决定企业的竞争力。规模很重要,大规模的公司拥有大量数据以及采集更多数据的能力,而小规模公司则更加灵活,因此中型企业将会逐渐消亡。

大数据时代的管理变革:

(1)让数据主宰一切隐忧:大数据的核心思想是用规模剧增来改变现状,这会给我们带来更多威胁。

在大数据时代,不管是告知与许可(很多数据在收集时并无意用作其他意图,而最终却产生了很多创新的用途)、模糊化(有意识的模糊化可能起到反作用)还是匿名化(大数据促进了内容的交叉检验),这三大隐私保护策略都失效了。

大数据被滥用于因果分析可能导致罪责的判定是基于对个人未来的预测。进行个人罪责推定需要行为人选择某种特定的行为,他的选择是造成这个行为的原因。而大数据并不是建立在因果关系基础上的,而是相关关系!所以大数据绝不可以用来进行罪责推定!

不能盲目信任数据的力量和潜能而忽略了它的局限性。

(2)责任与自由并举的信息管理:大数据时代要借助限制信息滥用的规范而不是最初的审查来防止其泛滥。要想保护个人隐私就需要个人数据处理器对其政策和行为承担更多的责任。

个人隐私保护从个人许可到让数据使用者承担责任:为了实现数据二次运用的优势与过度披露所带来的风险,监管机制可以决定不同种类的个人数据必须删除的时间。再利用的时间框架则取决于数据内在风险和社会价值观的不同。公司可以利用数据的时间更长,但相应的必须为其行为承担责任以及负有特定时间之后删除个人数据的义务。我们还可以开发新的技术促进隐私保护。如“差别隐私”:故意将数据模糊处理,促使对大数据库的查询不能显示精确结果。

大数据时代,个人可以并应该为他们的行为而非倾向负责。

在依据大数据技术作重大决策时必须保证特定防护措施的到位:(a)公开原则。用来进行预测分析的数据和算法必须公开。(b)公正原则。具备由第三方专家公证的可靠、有效的算法系统。(c)可反驳原则。明确提出个人可以对其预测进行反驳的具体方式。(d)确保对人的评判依据真实行为而非大数据分析。

大数据的运作超出我们正常理解范围。为了防止大数据的预测、运算法则和数据库变得不透明、不可解释、不可追踪,大数据需要被检测并保持透明度,当然还有使这两项得以实现的新型专业技术和机构,大数计算法师将会崛起。

为了保护极具竞争力的大数据市场,必须防止垄断。政府也应该公布其数据。

结束语:

凡事过去,皆为序曲:大数据意味着我们永远受困于过去的行为,这些行为在预知我们下一步动作的预测过程中与我们作对,即我们将永远无法逃避已经发生的事。

如果所有人都诉诸数据和工具,那时人类的无法预测性直觉、冒险精神、意外和错误等反而可能发挥出重大作用。在大数据时代,包括创意、直觉、冒险精神和知识野心在内的人类特性的培养显得尤为重要,因为进步正是源自我们的独创性。

大数据提供的不是最终答案,只是参考答案,为我们提供暂时的帮助,以便等待更好的方法和答案出现。这也提醒我们在使用这个工具的时候,应当怀有谦恭之心,铭记人性之本。