浅谈百亿规模的内容审核业务
趋势一:内容审查监管力度逐步加强
从2018年大家就应该能感受到网络内容审查力度越来越大。感兴趣可以自行百度查询下最近2年的监管翻车触发的相关事件;
趋势二:内容态互联网公司审查人力成本逐步加大
需要大力投入内容审核的产品,大部分是:新闻资讯、视频直播、社区、IM聊天、低频法布类等;
尤其是直播最容易翻车!时效性越快,越容易翻车!
从网络公开资料看,字节跳动 2019审核人员1w人。快手 2019审核人员0.8w人;了解到dau 1000w的一个产品,审核人员2020目前是1100+人。
假定
dau 2-3亿+,审核人员0.8w-1w+;
dau 1000w+,审核人员1000+;
dau 100w+,审核人员500+;
从全网APP榜单分布看,dau 100w+产品,共计417个,其中和内容相关产品占比42%;
从内容审核行业打听到,目前审核人力成本6.5k~7k每人月,取中位数6.75k,即年薪8.1w; (Google内容审核人员换算人民币是26w每人)
取APP dau100w+的榜单中位数,按照dau 1000w+预估,互联网内容审核大盘为 1000人*8.1w*417*42%=141亿
内容审核,也许是个百亿大盘的行业;
趋势三:AI辅助人工审核是趋势
内容审核集中类型:涉政、色敏低俗、暴恐、舆情等;
信息载体暴恐:文本、图片、视频、音频等;
涉及到技术包括:词表+视觉,最常用;
AI模型判断,会遇到的挑战:
人-低头、侧脸、PS特征、漫画、光线角度等,难度极大;需要数据持续迭代模型;
OCR-字体、水印各种变体、深浅不一,需要富集样本;
语音-音频合成,模拟某些人的声音;
长线看机会:
1、AI模型准确率越来越高,可以逐步解放人力;
预期AI模型可以准确解决掉80%-90%的审核case,剩余10%-20%的内容需要全人力审核;
2、AI模型标准的高标准化、可复用性;
相关模型的标准基本在国内是可以统一维护、迭代的;样本量越大,准确率越高,服务更稳定,门槛越高;
单独公司去维护迭代这一套东西,成本是很大的;比如某社区产品的色敏模型,据说研发人员30人团队进行维护;这个模型的研发维护成本每年720w-1000w;
好了,大概先盘了几点看法。大家有啥新的发现和坑,欢迎留言交流哈;