智惠的幸福烦恼
一个小镇新开了一家图书馆。在这里做图书管理员的智惠,有了一个目标:让所有来图书馆的人都能找到属于自己的“人生之书”并满意而归。
但是,每个人的喜好都太不一样了。要推荐什么样的书才能让他们喜欢呢?智惠翻看着图书馆的借阅记录卡,陷入了沉思。就在这时,她发现了两个非常有趣的模式。这两种模式,就是我们今天要说的**协同过滤(Collaborative Filtering)**的核心原理。
第一次发现:寻找品味相似的“灵魂伴侣”
民俊和素拉的联系
智惠翻看借阅卡时,惊讶地发现,民俊和素拉借过的书单竟然惊人地相似。两人都喜欢奇幻小说,也爱看历史推理。
一天,民俊借走一本新来的奇幻小说,说:“这本书太棒了!”智惠听了,脑海里立刻浮现出素拉的身影。
“啊!民俊这么喜欢,素拉肯定也会喜欢!”
下次素拉来图书馆时,智惠毫不犹豫地向她推荐了那本书。素拉也成了那本书的忠实粉丝。
这就是“基于用户的协同过滤”
智惠刚才做的事,就是基于用户(User-based)的协同过滤的基本原理。简单来说,就是**“向你推荐和你品味相似的人喜欢过的东西”**。
- Netflix 应用案例:假设我喜欢《网络谜踪》这部惊悚片和《星际穿越》这部科幻片。Netflix 会找到很多像我一样,对这两部片子评价很高的人。然后,他们会看看这些人共同喜欢过的其他电影,比如《消失的爱人》,然后把它推荐给我。即使我从没听过这部电影,但“和我品味相似的人”都已经验证过,成功率很高,对吧?
- YouTube 应用案例:假设我经常看“猫咪”视频,也订阅了“游戏直播”频道。YouTube 会找到像我一样,同时喜欢“猫咪”和“游戏”这两个看似不同的类别的人群。如果这个群体最近开始大量观看“烹饪”相关的视频,那么某天我的 YouTube 主页上就可能出现“白钟元食谱”的视频。这就是基于用户协同过滤的力量,它能根据我的直接行为,以及和我相似的人的行为,来推荐新的兴趣点。
第二次发现:寻找互相吸引的“好搭档”书籍
《小王子》和《炼金术士》的秘密
这次,智惠的目光停留在书上。她发现,借《小王子》的人,过一段时间后,往往会去借《炼金术士》。反过来,《炼金术士》的读者,也经常会找《小王子》来看。
仿佛这两本书在说:“我们是绝配的朋友!”
之后,如果有人借《小王子》,智惠就会很自然地问:“您看过保罗·科埃略的《炼金术士》吗?如果您喜欢这本书,肯定也会喜欢那本。”这个推荐,惊喜地大多成功了。
这就是“基于物品的协同过滤”
智惠的第二次发现,展示了基于物品(Item-based)的协同过滤的原理。这次,我们不看人,而是关注内容,也就是物品之间的关系。这是一种**“向你推荐和你喜欢的东西相似的其他东西”**的方式。
- Netflix 应用案例:“与此内容相似的内容”列表是典型的例子。如果我追完了《怪奇物语》,Netflix 就会分析大量看过《怪奇物语》的人接着又看了哪些其他内容。结果发现,《伞学院》或《黑镜》这类剧集被一同观看的倾向很高。于是,它就把这些剧集推荐给我。这不是因为导演或演员相同,而是纯粹通过“消费模式”数据,找到了两件内容之间强烈的关联性。
- YouTube 应用案例:YouTube 上看完一个视频后,右侧出现的“下一个视频”列表,以及视频下方推荐的视频列表,都在积极使用基于物品的过滤。比如,我看了“IU的直播片段”视频,系统就会分析看完这个视频的人紧接着又看了哪些其他视频,比如“泰妍的直播片段”、“其他歌手翻唱的 IU 的歌”,然后推荐给我作为下一个要看的视频。这就好像“IU直播”这个物品和“泰妍直播”这个物品,在用户观看记录中成了好搭档。
我们身边的“看不见的图书管理员”
像智惠这样聪明的图书管理员,其实我们身边到处都是。Netflix 和 YouTube 精妙地混合使用了这两种协同过滤方式。有时,它们会找出和你品味相似的“灵魂伴侣”,借用他们的选择(基于用户);有时,它们会介绍你喜欢的内容的“好搭档”(基于物品)。
现在,听到“协同过滤”这个词,不妨想起一位友好的图书管理员“智惠”,她为你找到和你品味相似的人,或者找到你喜爱的书的搭档,怎么样?技术的名称听起来可能有点冰冷,但它的本质,却是始于想要连接人们的快乐和满足的温暖的心。