0

Tag处理:构建内容和用户侧写

2025.12.17 | 念乡人 | 4次围观


零售电商给你推荐喜爱的日用品、新闻阅读给你推荐合口味的知识、短视频软件向你推荐你最爱的娱乐视频……

自个性化推荐算法在各种软件广泛应用开来,千人千面的说辞已经被互联网用户熟稔于心。

可以说,这些被频繁使用的软件可能比消费者本身还要了解你的偏好。

但,你真的知道,这些软件是怎么把这些信息更有效率的推送到你面前的么?作为创作者和用户,如何利用推荐系统反哺自身?

本文将以B站为例,详细回答这些问题。

所谓千人千面,放在产品中,人指的是用户,面指的是内容。

一方面,用户因为年龄、性格、爱好、生活阅历的不同,对内容有不同的需求;另一方面,内容的种类和质量也影响用户的偏好。

用户和内容的高效连接和互相成全,是推荐系统,尤其是推荐算法的最高目标。

我们先来走一遍用户视角。

进入B站,有明确的动画、音乐、舞蹈、科技等按内容类型划分的一级导航区。

以科技区为例,又可以展开为科学科普、社科人文、演讲公开课等二级导航;当你选择科学科普栏目,又能看到环境、科学、生物、气象这些小分类。

我们以罗翔教授的这篇《为什么刑法要严格解释》为例,从科技>社科人文频道,进入视频详情页,可以在页面中部看到和视频相关的信息。

这里有三块重要信息:


第一,视频播放量、弹幕量、评论数和数据排行表现,分别为161.1万、2.6万、7967和全站日排行最高第七。

第二,点赞数、不喜欢数、投币数、收藏数和分项数,其中不喜欢数并不显示,其余可量化的数据为24.1万、10万、3.3万和7616。

第三,视频标签,这里区分了比较热门的罗翔、法考专辑标签,也有刑法、校园星UP、厚大等普通热度话题。

这样就可以得到一份有关视频内容的Tag标签:


Tag处理:构建内容和用户侧写

那这些标签是怎么来的?

我们从投稿流程看一下,哪些是可以由创作者控制的:

从投稿页面可以发现,用户上传视频后,可以填写的内容有五项,分别是分区、标题、类型、标签和简介,其中标签的选择可以是自定义、推荐来源和参与活动。

如果按照视频投稿前后来给一份内容画侧写,创作者相关信息和内容信息可以归为静态数据,而具体的数据表现随时间会随时间变化归为动态数据。

万物皆有联系,“你的气质里,藏着你读过的书和走过的路”告诉我们人格特质会受读书习惯和生活经验影响,而用户的浏览、消费等操作行为也隐藏着个人的偏好。

先来看一下B站用户会被记录哪些信息和行为数据。

历史浏览行为:

播放历史的记录使得用户可以方便的追踪到自己在什么时间看了什么视频。但用户往往并不会关注自己看到了哪里,而只在乎下一次点进去是否可以跳过已播放的部分。

但播放时长比是对视频质量评判的一个重要标准:



此外,用户在视频详情页对内容的点赞、收藏或不喜欢等操作,也反映出了个人偏好;评论作为文本数据,也可以从其长度、情感偏颇、可读性反映出用户对内容的喜好程度。

上述可以被用户明确感知到的行为被归为显式行为,而另一类包含屏幕操作轨迹、停留时长等不易被用户感知到的操作被称为隐式行为。

后者除了被用于构建用户侧写外,也可以用于激发用户的显式行为,如在B站视频详情页停留时间满足一定水平后,会触发分享图标转为颜色鲜明的微信图标。

关注和订阅:

关注和订阅的up主、话题等,也会暴露用户的兴趣。

例如,用户的关注列表里70%都是类似巫师财经、硬核的半佛仙人、财经药丸这类up主,那系统在评估用户爱好的时候大几率会给贴上金融爱好者的标签。

消费行为:

B站用户的消费除了会员外,还包含课程、演出展览、线下游戏等,而消费会留下交易金额、时间、地址、类型等痕迹。

B站数亿活跃用户中,移动游戏月均付费用户接近150万,直播季度付费用户120万,占比仅为1%左右;作为“金主”,他们不仅在权益享受上优于普通用户,也会因其出色的消费能力而被推荐系统“盯上”,贴上“消费能力佳”的标签。

身份信息:

用户的身份信息包含性别、年龄、教育水平、地理位置等,允许访问通讯录、上网记录后,平台还可以获取到社交关系和其他产品使用情况,来推算用户对产品的需求程度。

综上,本文得出一份有关用户信息和行为的Tag标签:

从B站首页,我们可以发现:目前基于兴趣的推荐视频一般可以分为这几种:已关注、高赞视频、新星计划、关注的人赞过、广告和互动视频,这些标签正是基于内容或用户的tag标签推送到了用户面前,但单一的tag处理,推荐精确度上还有可以优化的空间。

完成对内容和用户的tag处理后,这两者仍是个体,但个体间会因为标签的类似产生联系,从而多个个体能够进入同一圈子,权重和相似性通常被用作划分圈子内个体关联程度的标准。

内容和内容之间的相似度常用创作者相关信息(认证、关注)或内容信息(频道、话题活动、关键词)来计算,而数据表现则一般用于排序展示在排行榜或热门中。

这一算法通常用于热榜推荐场景。

比如动物圈下的热门标签汪星人、喵星人、大熊猫等,就是因为内容信息中关键词的相似而被划分为同一类视频,进而可以集中展示;或是搜索场景,依据关键词进行搜索,关键词用于和数据库内的创作者或内容信息进行匹配。


作者:  来源:人人都是产品经理(woshipm)


版权声明

本文系作者授权念乡人发表,未经许可,不得转载。

标签列表