博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
《写给程序员的数据挖掘实践指南》——1.1欢迎来到21世纪
阅读量:6136 次
发布时间:2019-06-21

本文共 1472 字,大约阅读时间需要 4 分钟。

本节书摘来自异步社区出版社《写给程序员的数据挖掘实践指南》一书中的第1章,第1.1节,作者:【美】Ron Zacharski(扎哈尔斯基),更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.1欢迎来到21世纪

进入21世纪,有限的选择已经成为历史。如果想购买音乐,iTunes提供了1100万首歌曲供你选择。这可是1100万!截止到2011年10月,iTunes已经出售了160亿首歌曲。如果需要更多的选择,那么可以访问Spotify6,它上面有超过1500万首的歌曲可供选择。

image

想买书?亚马逊上有超过200万的书名可供选择。

想看视频?可以有如下多种选择。

image

想买一台笔记本电脑?当在亚马逊网站的搜索框中输入laptop时,会返回3811条结果。

而如果输入rice cooker(电饭锅),则可以得到超过1000条结果。

在不久的将来,我们的选择还会更多:数十亿首在线音乐、大量视频节目以及可以通过3D打印定制的产品,等等。

寻找相关对象

面对这么多选择,问题在于寻找相关对象。在iTunes的所有1100万首歌曲中,我非常喜欢的可能有不少,但是问题在于如何找到这部分歌曲。今晚我想从Netflix上观看一部流媒体视频,那么到底应该看哪一部?我想使用P2P下载一部视频,但是到底应该下载哪一部?并且,上述问题正变得更加糟糕:每分钟都有数T字节的媒体加入到网络中,每分钟Usenet上就有100个新文件,每分钟都有24小时时长的视频上传到YouTube,每小时都有180种新书出版发行。实际上,每天真实世界中都有越来越多的物品可供购买。在所有可选对象组成的“海洋”中,寻找相关对象变得越来越困难。

如果你是媒体制作人,比如马来西亚的季小薇(Zee Avi),那么风险并不在于有人非法下载你的音乐,而在于你自己默默无闻。

但如何寻找对象?

在前面提到的多年以前的小镇上, 我们通过朋友来寻找相关对象。通过朋友,我们知道那款布料的纹样非常符合我们的要求,那本新小说能在书店找到,还有能够在唱片店找到那款 新的33 1/3 LP唱片(黑胶唱片)等。即使今天我们还依赖朋友来寻找相关对象。
image

我们也通过专家来寻找相关内容。多年前Consumer Reports7可以对出售的所有20种型号的洗衣机或者所有10种型号的电饭锅进行评估,从而对顾客进行推荐。现在,在亚马逊网站上有数百种型号的电饭锅,不太可能单个专家就能对所有这些电饭锅进行评级。多年前,Roger Ebert8几乎能够评论所有的影片。但是现在全世界一年会制作大约25000部影片。此外,我们还可以从多个片源来访问影片。不论是Roger Ebert还是任意单个专家,都无法评论我们能观看的所有影片。

我们也使用对象本身的信息来寻找它们。例如,在长达30年的时间里我使用了一台Sears洗衣机,现在我想换另一台Sears洗衣机。我喜欢披头士乐队的某张唱片,那么很可能会购买他们的另一个唱片,这是因为我有很大的可能也会喜欢这个唱片。

上述通过朋友、专家或者对象本身的信息寻找相关对象的方法到今天仍在使用。不过,我们需要一些计算上的辅助才能满足21世纪的要求,因为我们现在有数十亿的选择可能。

本书将会探讨聚合人们的喜好、购买历史及其他数据的方法,也将利用社会网络(朋友)的威力,挖掘出相关的对象。例如,我喜欢Phoenix这个乐队。系统可能知道Phoenix乐队的属性包括使用电声摇滚乐器、有朋克效果、巧妙使用声乐等。于是,它可能向我推荐一个属性相似的乐队,比如The Strokes乐队。

转载地址:http://harua.baihongyu.com/

你可能感兴趣的文章
关于C#导出 文本文件
查看>>
使用native 查询时,对特殊字符的处理。
查看>>
maclean liu的oracle学习经历--长篇连载
查看>>
ECSHOP调用指定分类的文章列表
查看>>
分享:动态库的链接和链接选项-L,-rpath-link,-rpath
查看>>
阿里云企业邮箱 在Foxmail 7.0上POP3/IMAP协议设置方法
查看>>
Javascript一些小细节
查看>>
canvas学习总结
查看>>
Javascript的if判断
查看>>
spring cloud gateway 源码解析(3)记录请求参数及返回的json
查看>>
阿里云ECS数据盘格式化与挂载图文教程
查看>>
Flexbox响应式网页布局 - W3Schools视频02
查看>>
【手牵手】搭建前端组件库(二)
查看>>
怎么给视频添加音频或配乐
查看>>
怎么转换音乐格式
查看>>
Leaflet-Develop-Guide
查看>>
每隔1s打印0-5
查看>>
Angular6错误 Service: No provider for Renderer2
查看>>
聊聊flink的BlobStoreService
查看>>
洗牌算法具体指的是什么?
查看>>