您正在使用IE低版浏览器,为了您的FUTUREAI账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
FUTUREAI 业界
发私信给FUTUREAI
发送

什么是大数据?如何理解?

本文作者:FUTUREAI 2018-07-10 16:19
导语:大数据仅仅一个空泛的商业术语,就跟所谓的商业智能相同空泛无物。当然,这并不是说大数据没有意义,仅仅关于不同的人有不同的含义。 A. 关于出资人和创业者而言,大数据是个抢

大数据仅仅一个空泛的商业术语,就跟所谓的商业智能相同空泛无物。当然,这并不是说大数据没有意义,仅仅关于不同的人有不同的含义。

A.

关于出资人和创业者而言,大数据是个抢手的融资标签。就和前几年盛行的 SoLoMo,这几年火爆的 P2P 相同,大数据是资本泡沫的催化剂。现在任何一家(移动)互联网公司都忙着把自己标榜为大数据公司,或许爽性说自己是一家数据公司。惋惜的是,大多数我国的互联网公司都是流量驱动的企业。与其说这些公司是大数据公司,不如说它们是数据收集公司。是的,每一家互联网公司都是数据公司,由于数据(Data)是比信息(Information)要狭窄得多的词汇。换句话说,任何一家 IT 职业的公司天然地都是数据公司。但对错 IT 公司相同能够是数据公司,例如房地产企业和轿车出售公司——究竟他们优质低价地将顾客的信息转卖给任何感兴趣的个人或实体。惋惜的是,我国并没有几家 Pure-Play 的数据公司,因而我国不太可能呈现 Palantir 这样巨大的企业。我不幸见过一两家国产独角兽企业的技能/数据负责人,他们好像并不了解这家 CIA 出资的创业公司,但这并不阻碍他们把自己的公司定位为世界级的大数据公司。我能够臆测,国内这些独角兽企业的道德底线远远低于(为美帝情报机构效劳的) Palantir,仅仅它们还没有满足的人才和技能来充沛发掘数据中的有效信息。

关于大多数互联网公司或许工程师而言,大数据实践上只需一个意思,就是把一堆乱七八糟的数据扔到 HDFS 上面然后进行核算。核算的东西有许多,最常见的是 Map-Reduce,可是技能一直在演进,现在还盛行 Impala、Spark、Presto 什么的。关于这些搞大数据的工程师而言,这是一个十分好的作业,由于要把这么多异构的数据和体系跑起来,需求许多人写许多代码,还需求有人来做运维。这么一个部分总得需求几十台机器不然还不如单机核算才能强,工程师也得有十来人。然后可能还需求数据分析师,不然这部分跟铺排也没什么差异。假如体系做得不错数据量也有了,总得配个数据科学家搞点数据发掘或许机器学习什么的吧。所以大数据这件作业能够处理许多就业问题,究竟许多上了规划的互联网公司都想搞大数据。

可是关于消费者或许互联网所谓的“用户”来说,大数据却是别的一个意思。大数据的意思就是尽可能地收集跟终端消费者相关的隐私,然后进行营销。从理论上说,大数据公司通过收集用户行为,能够更好地了解消费者的需求,增强用户体验。可是在实践上,这些所谓的智能引荐还停留在很初级的阶段,因而会有人在淘宝上查找棺材结果在微博上不停地看到跟丧葬相关的广告。关于微博这样的公司,还意味着它会倾向于通过直接或许间接地露出你的隐私来取得商业利益。听说,点评一家国内公司的大数据才能是跟被查水表的频频程度正相关的。就现在而言,大数据关于终端消费者更多的是“被实名”。举一个比如,假如你在 Android 手机上运用 Facebook 账号拜访某个 App,那么对不住,你在这个手机上的一切行为都有可能被 Facebook 相关到你实在的身份上。在这种才能上,国内的三巨子排序大概是 T > A >> B。所以终究这家公司的 App 特别流氓乃至逾越了数字公司,假如你想帮帮这家公司就多用用他家的地图或许订点外卖。

B.

关于大数据和隐私,最中心的问题在于标识(Identity),尤其是所谓的 PII (Personal Identifiable Information)。可是要对用户进行追寻并不一定需求 PII,任何一个强度满足高的随机数都能够用来追寻单个用户。在 Web 年代,由于 Cookie 的生命周期问题,对用户进行长时刻追寻并不是很容易。可是最近几年,越来越多的公司运用 Flash 来进行追寻,终究演进成一种叫做数字指纹的技能。要解说这些技能需求一些运用数学布景,知乎上应该能够找到相关的问答,我就不赘述了。我很想体系地叙述在运用桌面浏览器上如何维护自己的隐私,可是好像离题太远了。可是我仍是想提醒一句,在桌面浏览器上最有效的安全习气就是禁用 Flash(当然,假如你出于安全装了数字公司的软件,那么你能够伪装我说的都是废话——究竟数字公司连你开机时刻这种信息都不放过,更何况这家公司可是以所谓的“厚数据”而出名的)。

身份到底有多重要呢?我能够说说我自己的一些非理性的习气。大多数地铁一卡通都是不记名的,可是我曾经会定期地损坏一卡通,然后防止在一卡通里积累过多的数据。可是由于我并不能很频频地换卡,所以我这样的非理性行为是毫无用处的——你只需求读读我的卡就知道我住在哪里又在哪里上班,差错不会逾越两公里。从技能上说,任何一张非触摸卡都能够可能用于追寻我的身份,以及我所在的时空坐标。尽管我知道现在的技能并不能在逾越一米的间隔上读出我随身携带的卡片,可是我仍然把我身上一切的非触摸卡放在一个金属的名片盒中。作为一个满足偏执的人,我更信赖物理阻隔。惋惜的是,这些非理性的习气在移动年代都是白费的。

在移动年代,身份问题变成了最严峻的问题,由于智能手机在很大程度上是私家设备。大多数人都随身携带这些设备,这就意味着设备的标识和个人简直是一一对应的。在这个问题上,就连苹果公司都没能意识到其严峻性,以至于在前期的苹果设备上有一个挨近完美的仅有硬件标识(UDID)。这就意味着一切的 App 开发者都能够运用这个标识来追寻设备和交流数据。换句话说,只需你在一个 App 中运用了 Facebook 账号或许提交了电话号码,那么你在这个设备中的一切行为都有可能被相关到你的 PII。苹果直到两年曾经才堵上这个缝隙,并通过所谓的 IDFA 来替代 UDID。我并不喜爱苹果公司,可是我在这里提这个事例并不是为了降低苹果公司。事实上,苹果公司是一切的智能手机制造商中最尊重用户隐私的那一家,没有之一。原因很简单,苹果公司并不是一家互联网公司,它是通过向消费者出售手机来获利的。苹果公司的硬件赢利十分高,它不需求通过 App Store 和广告来获利,因而 Tim Cook 才会有底气地谈论消费者的隐私问题。而 Google 则不同,它是一家广告公司,它乃至会通过分析用户的邮件来进行精准广告投进。我并不想把 Google 妖魔化成一个侵略消费者隐私的寡头,可是 Google 的不作为让 Android 成为了地球上最巨大的监控途径。Android 上确实没有 UDID 这么高质量的标识,可是它答应开发者直接获取 IMEI——运用 IMEI 理论上能够通过运营商获取手机号码,并且进行实时的监控。此外 Android 还答应开发者获取 MAC 地址和 Android ID 这些标识,而前者能够用于依据 Wi-Fi 的地理方位定位。这些看起来很糟糕,但还不是最糟糕的,由于 Android 还答应开发者获取装置运用列表、正在运转运用列表。换句话说,Android 不只答应开发者监控自己的 App 运用状况,还能够监控其他的 App 的运用状况,这可是字面上的情报作业。这些在技能层面上都是 Android 答应的,关于已 Root 设备或许能够运用缝隙提权的 App 而言,Android 供给的幻想空间简直是无限的。

有些读者谈论扯 Google 的 IDFA 对应物,那我举个 Google 途径上的栗子吧:

近日,多个与TalkingData协作的厂商表明在Google Play发布的产品于2016年5月25日清晨连续被下架。且下架的阐明邮件里称:“违反了开发者条款”并指出是TalkingData的SDK的问题所导致。
TalkingData回应SDK导致下架:GooglePlay审核调整

这家公司更是毫不掩饰地展现自己侵略隐私的才能:
TalkingData-行为地图

那么问题来了,我们觉得他们的数据是哪里来的呢,是苹果用户仍是安卓用户呢?

为了防止引起惊惧,这家公司的客户主要是某些银行和游戏,商场掩盖率并不是特别高。BAT 任何一家具有的隐私数据都能秒杀这家公司,所以我们请坚持心里的安静,睡觉前多玩玩手机。

C.

幻想有这么一家智能手机厂商,它以极低的价格出售 Android 智能手机,它还宣称自己是一家互联网公司,并且标榜自己是一家大数据公司。那么,这样的公司为什么会出售无线路由器呢?其实我说的不是国内的公司,而是 Google。当然这并不是什么隐秘,有一段时刻一切的互联网公司都想为用户供给所谓的智能路由器。

理由很充沛,Wi-Fi 技能是以兼容以太网为意图局域网组网计划,它从来没有考虑过隐私和所谓的大数据带来的问题。以太网供给了一个高强度的网卡标识(即所谓的 MAC),理论上能供给 48 位的地址空间,从实践来说也满足一切的网卡制造商仅有地标识每一张网卡。开端这个网卡标识的规划意图是为了区别不同的设备,将抵触降到最低,因而关于给定的网卡,这个标识应该是永久不变的。这个标识在有线网络年代从来都不是一个真实的问题,由于 MAC 仅用于局域网通讯,任何设备在互联网上只会露出 IP。为了无缝地兼容以太网,Wi-Fi 设备承继了这个标识,并且在扫描无线接入点的时分播送这个标识。换句话说,你随身携带的智能手机有一个简直绝无仅有的永久标识,并且倾向于播送这个标识。因而关于许多大数据公司而言,这比你在脸上写着自己的名字还要好得多。所以,苹果在最近的一次晋级中改变了策略,一切的苹果手机在扫描热门的时分都会运用一个暂时的 MAC。苹果这样做关于维护消费者的隐私很有协助,可是离处理这个问题还很远。当苹果设备连接一个热门(例如咖啡厅里的免费热门)的时分,它依然会运用一个固定的网卡标识。

一个普通的无线网卡标识为什么会跟大数据扯上联络呢?出乎标准规划者的预料,Wi-Fi 现已成为了一种干流的互联网接入方法,并且成了一种重要的辅佐定位技能。不同于智能设备,大多数无线热门都是固定不动的,并且掩盖了都市的大多数区域。运用无线热门的 SSID 和 MAC,加上从智能手机收集的 GPS 信息,地理信息效劳商能够运用这些信息完结差错在百米以内的定位。在 GPS 不能掩盖的室内,Wi-Fi 定位简直是首选的处理计划。从这个视点来看,Wi-Fi 定位是一个便利消费者的福音。可是 Wi-Fi 的技能规划决议了它不是一个匿名的定位技能,在定位的过程中 Wi-Fi 热门相同能够取得智能手机的无线标识。因而从另一个视点来看,Wi-Fi 热门的运营商能够取得智能手机的一个时空坐标。这样第三方就有可能追寻智能手机在城市中的轨道,其作用乃至能够逾越运营商的监控手法。可是这并不是最糟糕的,出于核算的需求,许多 Android App 还会收集手机的 Wi-Fi 网卡标识。这些数据有可能将用户的行为和时空轨道联络在一起,然后形成严峻的隐私危险。正如 Facebook 相同,智能手机的遍及是 CIA/NSA 做梦也想不到的功德。现代人进入了一个自愿监控自己的巨大年代,A Brave New World

Snowden 在谈论 XKeyscore 的时分,其实提到过 NSA 十分喜爱这一点: 

EDITED TO ADD (9/18): Marcy Wheeler comments on the second story, noting that the NSA uses this capability to map MAC addresses.
Two New Snowden Stories

当然,得益于 Palantir 的支撑,NSA 的 SIGINT 才能现已不再是 Snowden 能够幻想的了。

D.

让我用一个思想试验来展现一个
Android 用户在这个大数据生态链中的方位吧(当然任何一个读者都能够亲自测验,用 iPhone 手机作用会大打扣头)。某个周末,你来到了某个商场,在一个咖啡厅里边点了一杯咖啡,然后开端用智能手机上网。咖啡厅供给了免费 Wi-Fi 网络,由于法规要求需求你供给手机号进行实名认证,你毫不犹豫地输入了手机号。所以免费 Wi-Fi 的效劳商知道了你的信息:你的手机号和智能手机的 MAC。然后你开端刷微博,由于微博的 API 一般不运用加密信道,所以 Wi-Fi 热门通过偷窥 HTTP 恳求取得了你的微博账号。通过你的微博,Wi-Fi 效劳商有可能了解你的性别年纪作业等信息。此外通过该热门恳求的许多元信息都会被效劳商保存,尽管它们未必知道怎样发掘这些元信息,可是它们会尽量将你的身份和这些信息相关在一起并长时刻保存。喝完咖啡,你开端逛街,这时分你的手时机开端扫描热门,商场能够通过 Wi-Fi 探针追寻你的方位。假如商场运用的 Wi-Fi 效劳商和咖啡厅是同一家,或许与效劳商树立了数据交流的协议,那么商场有可能实名地追寻你的轨道。商场的 Wi-Fi 效劳商相同会十分有耐心肠存储你的信息,以备不时之需。在逛街的过程中,你打开了一些购物 App 用于比价,趁便拍了一些相片发给老友。其中一些 App 会把你的 MAC 地址和通过 Wi-Fi 完结的定位信息也发送出去。假如存在一个齐备的数据交易网络,任何对你感兴趣的人都有可能取得以下信息:你的电话号码、手机的 MAC、微博账号,何时呈现在这个商场,在商场停留了多久,其间运用了哪些 App,在咖啡厅拜访了哪些网站。而这一切都离不开 Wi-Fi 和 MAC。假如更极端一点,你运用了专车软件来这个商场,并且你经常来这家商场,那么你很可能现已在商场的常客数据库里了,你的家庭住址也不再是个隐秘。

这个思想试验当然是虚拟的,由于利益抵触无关公司之间很难达到信赖,它们很少进行实质性的数据交流。可是寡头们能够通过收买和战略出资将第三方变成第二方,乃至亲自介入 Wi-Fi 热门的效劳。运用这些数据和技能,大数据公司事实上能够将营销做到无孔不入。例如,运用上述信息,商场中的餐厅能够针对最近到过商场的用户推送扣头信息,并且依据状况选择短信或微博作为送达途径。当然实际社会中的餐厅并不会走得这么远,它们更倾向于运用微信效劳号一类的技能来树立会员机制。各种 P2P 金融公司、讨债公司对数据愈加饥渴,它们会情愿为你的信息(尤其是方位信息)付大价钱。所以从某种意义上说,数据寡头更可能垂青你的隐私的长时刻价值。



正由于如此,我国的三大寡头都参加了商业 Wi-Fi 的布局。除了微信 Wi-Fi,信赖大多数人都没有留意过相关的报道。事实上新闻报道披露的仅仅是冰山一角。

本报讯公共交通范畴最大的WIFI建造运营商16WIFI日前宣告,已完结由百度领投、荣之联等跟投的A轮融资,融资金额逾越1亿元。这也标志着在商业WIFI范畴,BAT(即百度、阿里、腾讯)再次到齐。
百度战略出资杀入商业WIFI_新浪新闻


E.

仍是来点轻松的吧,看看 Google 是怎样运用大数据投进精准广告的:



难道喜爱 Fallout 的死宅更容易接受某教?我并不是想挖苦 Google 的算法或许宗教布道者的 SEM 策略,仅仅觉得这关于下面谈论的核算神学而言,是一个绝佳的隐喻。

核算神学是一种对核算的肯定崇奉,其底子教义派系乃至认为整个世界都是一台量子核算机,能够用 Universal Wave Function 来齐备地描绘。在大数据盛行起来之前,核算神学归于边缘学科(或许说伪科学),简直无人问津。可是在大数据年代,核算才能和数据量都不再是问题,核算神学一下就成了干流的意识形态。通过大数据修正过的核算神学摒弃了科学的实证主义传统,企图将一切问题简化成数据处理。吊诡的是,许多核算神学的信徒取得了数据科学家的称号,这无异于将占星师当作天文学家,或许将炼金术士称为化学家(sadly, it was true before we had hard science)。

这些年我还真见过不少核算神学的布道者,他们开端张口就是大数据和机器学习,后来开端扯深度学习和人工智能。可是有一次我问某个信徒,他用的模型对性别的预测精度有多高,他竟然诚实地答复挨近 60%。假如需求考虑 Facebook 那么多种十分规的性别,这 60% 仍是适当不错的,比扔硬币强不少呢。我之前的公司不幸跟某寡头有非普通的协作,有幸跟对方的祭司阶层聊了几句,我发现这帮人对数据的理解连频率主义者都不如,连什么是信号什么是噪声都分不清楚。当然这圈子里边也有聪明人,并不是真诚地信赖这些鬼话——听说某公司做了两三位数样本的问卷攒了份陈述就卖了许多钱。

大数据是个体系工程,从收集数据到核算到运用到决策有很长的流水线。在这个流水线上的每一个环节,都存在严峻的人才空缺。当然,更稀缺的是搞清楚整个流水线的综合性人才。核算神学的信徒们底子没有意识到这一点,或许他们也不关心。走运的是,官僚们欣赏这些人的盲目乐观。所以这是个让人宽慰的好消息,这些个大数据公司里边仍是以蠢货和官僚为主。

短期来说上述判别应该是靠谱的,至于更长时刻的我就不杞人忧天了。究竟某位大师说过,in the long run, we are all dead.

所以,天朝把 Google 挡在外面是多么的英明神武啊。假如国内的公司都有了 AlphaGo 这样的暴力核算体系来搞大数据,我也该洗洗睡了改行做水管工算了。整体来说我仍是一个失望的存在主义者,要不了多久一切的 CCTV 都会成为面部辨认算法的数据源。我感觉,核算神学训练出来的 AI 都是些反社会的自闭症患者,而不再是充满浪漫主义气味的面盲症患者。

我毫无痕迹地插入了一条原生公益广告:什么是自闭症?(请不要被我的修辞手法误导,自闭症患者简直不可能反社会,而任何互联网广告体系都是天然反社会的。)。

Z.

谈论里边有人问大数据有什么不侵略隐私的用途,我觉得有必要弄清一下,我并不是在写一篇征伐大数据的檄文。数据和分析能处理许多实践的问题,并且并不总是需求以隐私作为价值。可是技能简直总是双刃剑,危险与机会并存。说个相对远一点的,假如新的基因测序技能能将全基因组测学本钱降到满足低,运用大数据技能将有可能定量地丈量许多遗传疾病的基因危险,这可是造福人类的善举。可是,这也意味着保险公司能够愈加精确地估量投保人的健康状况,换句话说能够运用这些信息来进行轻视(美国现已有相关的立法,制止保险公司运用基因相关的隐私)。再说一个相对近一点的,某公司垄断了天朝的查找商场,简直是躺着在挣钱,可是为了追求赢利什么骗子广告都情愿打,还会往用户的电脑上装简直无法卸载的全家桶。简直一切的人都在说大数据是一座金矿,可是很少有人意识到提炼金子是个技能活,并且现在许多矿山的黄金生产本钱现已高于期货价格了(写于黄金价格低点 $1000 左右)。运用数据变现仍是颇有技能含量的,用常理就能够揣度守着金矿不能挣钱是个什么样的感觉。至少在天朝,真实的问题在于有许多没有技能的公司守着很多的数据干着急——它们其实也很想卖点假药什么的,可是它们能卖的也仅仅是用户的隐私。

听说,某些输入法会把你一切的输入都送回效劳器,这样你也为大数据工作做出了奉献。现在我们应该很清楚,这些大数据都是从哪里来的了吧。

搜狗和百度输入法被爆走漏用户隐私

本文转自知乎

分享:
相关文章
最新文章