算法设计|在可控运营成本下,如何高效清理UGC垃圾信息?

2017年02月17日 人人都是产品经理



产品最近上线了,初期产品因为UGC遇到了一些UGC的垃圾信息情况,作为PM是非常担心的,尤其是在BOSS关注下的情况下。那么,今天KEVIN通过整理,并探讨下:在有限的运营成本下,如何尽可能高效的做到UGC垃圾信息过滤?


— BEGIN —


你要知道UGC垃圾信息绝对不可能做到100%


我们的产品是如何发现UGC垃圾信息的?


1. UGC垃圾信息的一些案例


垃圾广告在应用中的出现


在UGC中(用户内容产出)中,UGC是一个能够为用户提供互动的地区,增加用户粘度,并吸引用户达到产品转化。


那么在我的产品中,目前的产品有类似QQ群 的一个用户群的交流UGC,以及与微信朋友圈的UGC分享广场。那么我们看看微信和QQ是怎么做的?


微信朋友圈


微信朋友圈是没有UGC相关的举报功能或发消息的审核步骤是不可见的。


在这里分析是因为如下:


微信UGC的机制


微信虽然作为社交的鼻祖,但可以看出微信不是以平台为主,反而是把UGC的相关权益都放在用户那里,你发广告、发垃圾,我可以拉黑你、不看你的,或者删除你,就算你要添加我,我不理你,你也不能发。


那么,我们看下QQ空间的UGC反垃圾的方法:


QQ空间用户权益


可以看出QQ空间对于用户来说:


  1. 通过发布的时候以腾讯UGC系统过滤

  2. 就是通过用户举报

  3. 就算举报了没有效果我也可以不看你的垃圾信息

  4. 当然和微信一样拉黑 删除好友等。


PS:这里说下,作为UGC的鼻祖,腾讯有相关的腾讯云安全策略算法,因此在UGC的过滤第一层下就有相关自家建立的UGC返垃圾系统机制,再通过对相应产品设定关键词 (第二层),最后通过产品形态来保证将垃圾信息降到最低。


作为其他公司来说,除了社交鼻祖或你用户以及达到了千万级别或者百万级别,UGC的系统需要单独考虑外,其余的产品往往需要做一些基本的反垃圾机制。


2. UGC反垃圾的机制从产品的角度考虑点


UGC反垃圾产品设计考虑点


以上是UGC的产品设计的出发点,从用户、浏览用户、产品本身来进行考虑。以下是细化后的内容:


  • 用户发布信息成本

  • 产品能够为用户提供过滤内容的权限(举报、隐藏)

  • 运营监管(特指人力)


以上3点是从不同角度出发,那么KEVIN继续细化。


逻辑考虑点:


首先是设置发布门槛,用户达到一定级别才能发布内容;发布内容进行审核,该屏蔽的还是要屏蔽,该举报的还是要举报。但是人工审核还是为主,举报应该是有奖励机制的;出台相应规则入口,根据规则来处罚。


细化后:


  • 敏感词库建立;

  • 人工审核机制;

  • 客服人工浏览内容,手动删贴;

  • 用户举报投诉。


但一定要切记,举报这种其实是亡羊补牢的做法,不健康信息已经发出了,再举报意义并不是很大了。


3. 我们可以怎么做?


第一个机制:


用户可以根据颜色、字体大小、展示方式甚至自定义的文本来进行屏蔽,同时,在视频右边还有专门的弹幕栏,也就是说,我可以弹幕内容当做评论一条条地看而不受其干扰


第二个机制:


主要做的屏蔽是广告过滤、黄赌毒、暴力恐怖、谣言排查等几种。不同的场合屏蔽的级别不同,而且基于传播时效性的不同,屏蔽方式分为同步过滤和异步召回。


4. 机制的技术说明和其他办法


01 关键词模糊匹配技术,实时过滤垃圾消息


  • 基于双数组字典树算法的高效模糊匹配技术

  • 可识别并处理简繁体、全半角、火星文、同义词、特殊字符等

  • 拥有庞大的敏感词库,同时支持用户自定义词库


02 基于用户内容检测,精准识别伪装型垃圾消息


  • 采用自然语言处理技术(NLP),对消息进行语义分析,识别消息内容

  • 结合语义分析与局部聚类检测技术,精准识别消息中的垃圾内容和干扰项

  • 实时机器学习,持续扩充垃圾消息语料库与识别能力


03 基于用户行为检测,准确定位恶意消息发送者


  • 用户行为智能分析,包括发送时间、频率、响应率等,构建用户行为模型

  • 通过聚类分析与行为模式识别,无论是单一帐号或是使用多个“马甲”帐号发送垃圾消息,均可准确定位

  • 敏感词、内容与行为识别三种检测技术协同工作,多道防线实时


04 最后,找供应商(腾讯云、阿里云等)


5. 最后,关于UGC


现在技术手段可以屏蔽暴露的色情图片、敏感词。但是敏感词会有很多替代的,微信这个词能编出N多种谐音,或者其他方式,所以敏感词屏蔽其实屏蔽不了的。


以下QQ群的垃圾广告就是一例(不能做到100%)


系统自身垃圾广告


UGC的系统屏蔽,虽然可以前期采用关键词和图片检索自动化来解决文字类和图片类的UGC不适合内容,但是还是需要一定的运营人员定期维护。


同时还需要从源头来控制,即需要注重用户群体的维护,对于不适合的用户进行及时的监控和处理才是最重要的。


— END —


点击“阅读原文”下载APP

收藏 已赞