截至2019年年中,全球月活跃用户已经突破22亿,也就是19亿,微信也突破了10亿。 可以说,互联网已经覆盖了世界上大部分人口,并且随着用户数量的同步增长,用户数量也在不断增加。 而内容的生产和消费水平也呈指数级爆发。 如此海量的内容给大平台和小公司带来了巨大的管理难度和审核挑战。
2018年,互联网上每天上传超过3亿张照片,每分钟发布51万条评论和30万条新状态; 每天有 9500 万张照片和视频在互联网上分享; 微信朋友圈每天的分享量达到10亿。 图片已上传。
截至 2018 年,每天大约创建 2.5 万亿字节的数据。 近两年产生的数据占全球数据总量的90%。 预计到 2022 年,全球互联网流量将达到每秒 7.2 PB。
在内容数量爆炸式增长的同时,内容的形式也在不断变化。 除了传统的图文内容外,音频、长短视频、直播等内容的占比也在不断增加。 这是针对那些既追求实时(发布速度和用户体验)又追求无问题(举报率和差评)的人。 事件)内容平台审核管理提出了巨大而严峻的挑战。
包括中国和中国在内的国际顶级UGC平台仍在努力应对此类普遍问题,尤其是发达国家最关心的问题,例如未成年内容、种族歧视、跨国文化/多语言化等。 事实上,他们一直无法沟通。 拿出一个让各方都满意的答案。
今年国内比较知名的互联网内容社区产品中,下架甚至关停的产品不下0个。 虽然它们各有各的问题,比如色情内容、微商、政治内容等,但归根结底,这也是用户激增带来的内容生产量不断增加与无法满足需求之间的矛盾。跟上审查措施和效率。
1.:利用AI和计算能力处理海量内容
整个2018年我们遇到了巨大的信任危机。除了数据接口和用户隐私处理不当之外,平台的内容审核政策也受到严重质疑。
但事实上,其背后的核心问题在于,这家公司是全球互联网内容吞吐量最大的平台。
而这些内容不仅在App内发布和消费,还在公司15亿、13亿、10亿的月活跃用户上进行传播和推广,这也是这家公司的内容审核压力如此之大的原因。
那么采取了哪些对策呢?
在去年著名的美国国会听证会上,扎克伯格在一小时内提及人工智能超过30次,坚称人工智能是平台内容审核的答案。 他的原话是:“未来五到十年,AI将是答案。” 2020年,人工智能将成为全球最大社交网络的冠军,解决全球范围内最紧迫的问题,同时帮助企业回答有关适度、公平和人类过剩的棘手问题。”
小扎声称,网络上99%与“伊斯兰国”和“基地”组织相关的内容都经过人工智能系统标记,在人们看到之前就被删除了。
但人工智能想要与内容审核结合并付诸实践,就必须使用一些特定的手段。 目前的评审分为文字评审、图片视频评审,还有大量的人工配合。
在文本审查方面,它推出了(深度文本)引擎,使用深度神经网络架构来理解这些帖子的内容。 据称,它每秒可以同时理解数千篇文章的文本内容,准确度接近人类。
与国内各大平台的审稿系统相比,它的优势不仅在于速度更快,而且作为全球社区,它可以审阅20多种语言的文本。
它甚至可以通过用户发送的内容实时分析用户的想法。 通过提取意图、情感和实体(人/地点/事件),将文本和图片结合起来,自动去除垃圾信息的干扰,这种能力已经实现了。 通过测试验证。 当然,这种AI技术不仅仅用于审查一些可能存在的危险(针对青少年的犯罪),还可以提高用户体验,帮助广告商进行有针对性的宣传活动。
对如此大量的实时信息进行编目并使其可搜索非常困难,因此他们转向了人工智能。
同时,News Feed作为短而高频的内容素材,恰好是开展深度学习活动的有效场所之一,因为每个Feed的背后,都有人们想看到的与他们相关的内容。
该图像视频审阅系统名为Image and Video ,采用光学字符识别系统处理图像和视频内容,每天从超过10亿张图像和视频帧中实时提取信息并识别多种语言背后的含义。
另外,他们在图像识别和视觉领域的最新模型上周刚刚开源: 这是一个在图像标签上预训练并在 上进行微调的模型。
它由著名人工智能专家李飞飞教授团队于2009年发布。 它包含超过 20,000 种对象,总共超过 1400 万张图像。 后来的很多计算机视觉任务模型都是在此基础上训练的。
更上一层楼,它使用了互联网上的35亿张图片(比1400万张多了200多倍)进行预训练,并使用人们为图片添加的主题标签(#)作为类别,并开发了具有超强特征提取能力的图像识别模型。
在这两大系统背后,真正发挥作用的是人工智能研究院FAIR()。
例如,其物体识别技术()基于数十亿参数和数百万案例训练的神经网络,为最具挑战性的图片和视频审查提供了有力支持。
此外,他们还使用自我监督学习(SSL)来探索大量数据,让机器通过分析未标记的图像、视频或音频来学习世界的抽象表达。 这也是 FAIR 扩展 AI 能力的努力之一。
FAIR还在研究用户头像的面部识别、上传照片的环境识别等,负责所有AI相关的基础研究、应用研究和技术开发。
例如,它推出了刚刚赢得国际视觉模型挑战赛的Mask R-CNN。 该系统可以将计算机视觉世界中的对象检测和语义分割结合起来。 它不仅可以检测劣质视频内容,甚至可以帮助视障人士自动替换文字。
然而,你千万别以为全球最大的社交网络和内容平台仅仅依靠人工智能和评论系统就能搞定一切。 到目前为止,已经聘请了2万多人(是的,你没看错)协助内容筛选,配合监控和删除争议内容。
2、升级版权审查制度
内容审核系统称为ID,会对涉及色情、低俗、暴力等违法内容进行监控并直接删除。 然而这个系统的诞生只是为了解决网络内容的版权问题。
早年是从草根内容开始的。 后来出现了大量的移植账号,主要集中在盗版电视台的优质内容上。 虽然平台数据因此暴涨,但也陷入了旷日持久的官司。
2007年至2009年,维亚康姆(美国第三大媒体公司)、(意大利媒体集团)、英超(英国最大的足球联赛)等组织提起诉讼,声称其侵犯了用户的隐私权。上传。 在内容上什么也没做。
维亚康姆要求赔偿 10 亿美元,声称其在互联网上发现了超过 15 万件受版权保护的内容,并且播放次数超过 15 亿次。 经过多年的漫长诉讼和公关斗争,直到2014年双方才最终通过谈判达成解决争端的方案,但具体条款并未公开。
因此,当年被收购后,从2007年开始,逐步投入巨资建立ID版权体系,逐渐帮助版权人识别平台上的侵权行为,让版权人直接在平台上获得收入。 截至2018年,谷歌已累计投入超过1亿美元用于该技术的研发。
后来ID的内容监控能力不断提升,比如利用哈希算法标记有风险的视频,防止二次上传,也取得了显着的效果。 以2017年Q4为例,该平台删除了800万条“攻击性”视频,其中670万条被监控软件自动标记。 大约 75% 的标记视频在用户观看之前就被删除。
更人性化的是,2014年9月,前端增加了限制模式(Mode),用于过滤色情、暴力内容,但用户可以选择开启或关闭。 基于用户报告和其他识别规则,限制模式可以直接为用户过滤最不适当的内容。
当然,这些内容审核能力都依赖于谷歌的深度学习技术Brain作为支撑。 Brian 有一个收集用户信息(例如观看历史记录和用户反馈)的神经网络,以及一个用于对显示的一些视频进行排名的神经网络。 通过引入机器学习工具,可以自动标记暴力、色情、低俗等极端视频。 并将违规内容报告给人工审核人员进行核实。
同样,即使有各种技术支持(包括资金、人才、算法、云和服务器等),AI标签、内容审核和识别技术也并不完善。 2018年,CEO苏珊·沃西基(Susan )承诺未来将雇佣至少10,000名人类审稿人,以弥补算法的局限性。
由于英国政府和一些广告公司早前发现其广告被推荐在极端分子上传的视频内容旁边,造成不少负面影响,多国政府和广告商联合宣布将因此下架。 您帐户上自己的内容。
然而,帮助不仅限于内容审查。 Brain的技术已应用于系统的语音识别、+图像搜索、智能推荐等。
因此,它已经从一个视频UGC社区,发展成为一个海量内容的综合搜索驱动视频网站,再发展成为一个具有视频推送能力的应用。 如今,用户在互联网上观看视频的总时间中有 70% 是由推荐算法引擎驱动的。
3、今日头条:审计制度对外开放将带来哪些变化?
如今的今日头条已经拥有大量的用户和形式多样的UGC内容。 虽然在体量上还是相当逊色,但它在内容审核上遇到的挑战与和非常相似。
今日头条在这方面的一个创举是,经过多年的技术储备和经验积累,开放了其内部反低俗系统的简化版“灵狗反低俗助手”,希望普通创作者和公众能够更好地了解并注意反低俗。 庸俗。 截至2019年6月,灵狗除俗助手外部用户数已突破300万。
用户只需在灵泉小程序中输入一段文字或一篇文章链接,灵泉就可以帮助他们检测内容的健康指数并返回识别结果。 对于用户输入的内容(文本或图片),“灵狗”首先会进行提取、分词和语义识别,然后根据相关规则输出相应的分数、评级和结论。
在文本识别领域,今日头条同时应用了“伯特”技术和半监督技术。 训练数据集包含920万个样本,准确率提升至91%。 在图像识别领域,“灵狗”以深度学习为解决方案,在数据、模型、算力等方面进行了针对性的优化。
近日,灵狗3.0新版本发布,重点拓展反低俗识别类型和模型能力。 现在涵盖图像识别和文本识别。 未来,灵狗还将支持最难的语音识别和视频识别。
不过,今日头条人工智能实验室王长虎也提到,AI暂时还存在缺陷。 今日头条目前拥有近万人的审核团队协助审核AI。
例如,低俗内容的定义比较笼统,难以精确。 这项工作即使对人类来说也不容易,交给机器就更难了。
例如,裸体女性经常出现在世界名画中。 如果完全交给机器判断,机器会识别画中人物裸露的皮肤区域,认为这幅画色情、低俗; 还有一些芭蕾舞的照片,从机器的角度看,从外观上看,其实和裙子上的偷拍照片很像。
一张著名的越南战争新闻照片因“裸露”被意外删除。 照片中,一名小女孩被汽油弹炸伤,赤身裸体奔跑。 事件发生后,在美国媒体引起巨大争议。
然而,在当前内容创作和消费大规模增长的趋势下,如果所有问题仍然纯手工解决,效率低下,无法满足用户需求。
因此,AI+人工的内容审核方式将在很长一段时间内成为常规方式。 这也是中国、中国等国际领先内容平台采用的处理方式。
4。结论
未来,随着用户数量和内容的不断增长,内容审核的挑战将越来越严峻,政策相关监管也将越来越严格。 虽然图文的内容识别问题已逐渐被攻克,但语音、视频的内容理解将变得越来越严峻。 还有很长的路要走,人工和机器检测都比较困难。 尤其是当需要联系特定的用户使用场景和政治社会背景时,难度会成倍增加。
比如,邓丽君的歌曲早年被认为是粗俗的情色歌曲,但现在却被广泛接受并在街头传唱; 例如,如果内衣和内衣模特出现在购物平台上,则默认会被认为是正常的,但如果频繁出现在新闻资讯平台上,则可能会被认为是庸俗的; 而正常的热舞内容是供成年人观看的,符合正常标准,但如果开启青少年模式,这些内容就不应该出现。
这是一个审查标准可能会因时代背景、使用场景、用户群体不同而发生较大变化的情况。
海量数据的产生和不断变化的标准要求大公司在这一领域投入越来越多,而这本质上变成了资本雄厚的对手之间的军备竞赛。
今年,与卡内基梅隆大学(CMU)合作开发的XLNet模型在Bert模型的基础上更进一步,在完整的512个TPU上进行了两天半的训练。 按照Cloud的定价标准,XLNet模型训练一次就需要160万元以上。
如果再考虑到整个模型开发过程中不断的试错和参数调整验证过程,XLNet的成本简直就是天文数字。 未来中小型球队将很难竞争。 这是一个由巨头统治的竞技场。
幸运的是,随着人类进入社会并越来越数字化,新一代移动互联网原住民在享受技术带来的便利的同时,也增强了对技术可能带来的负面影响的容忍度和适应能力。 提升。
毕竟,自工业革命以来,无数人对技术将对社会产生的影响抱有极其消极和悲观的预期,认为技术可能会加速人类数万年自然形成的社会结构的崩溃。 但哪一次呢? 人类社会已经成功顺利转型,发展出与科技相匹配的职业和生活模式,并且越来越好?
#专栏作家#
刘胖胖,微信公众号:胖子的世界。 我从2011年开始有两年O2O创业实践经验,现在从事互联网金融社区的产品。 我长期观察互联网产品,对商业模式和实际案例有自己独特的见解。