梅林发布的M语言一公布,迅速引发了整个互联网行业的地震。
“太谦虚了,岂止是在某些方面优秀,是在所有方面都优秀。
虽然我还没搞懂,但是我总觉得这玩意比蓝星现在的主流人工智能框架要先进多了。”
主要这玩意太专业了,太专业的东西跟主流群体注定是绝缘的。
即便是专业的算法工程师,都需要一段时间的钻研。
网友们的议论大多停留在对于自己是否会失业的担忧:
“感觉梅林不是魔法师,而是程序员,各种想方设法的推动人工智能的大规模落地。
先是在狮城使用人工智能取代人力,然后是发布开源的AI编程语言和框架。
我严重怀疑魔法师使用魔法是不是就跟编程有点类似?”
“梅林收了神通吧,我好不容易才找到工作,尼玛不会又把我给优化了吧,我不想从微博毕业啊。
这可是我好不容易才找到的理想工作。”
发下面这条微博的是一个鉴黄师。
确实存在这种职业,而且待遇还不错。
不过对于他来说,属于是一语成谶了。
这帮互联网大厂们在梅林发布AI语言和配套的框架以及工具包之后,让下面的算法工程师放下所有手上的活:
“大家这段时间唯一的工作,就是把M语言以及M框架和配套的这一系列包,学会怎么用。
然后结合我们的工作,看有哪些地方可以利用M语言来进行重写的。”
其中最先被利用到的就是AI鉴黄。
AI鉴黄一直都是内容安全的核心诉求,基本上从猪厂、鹅厂到微博、字节,全部都在研究这玩意。
属于经典的入门容易精通难。
早期的鉴黄基本上是人工审核,属于劳动密集型工种。
后来上网人数多了,内容也多了,人工审核成本越来越高,因此采用AI+人工的方式鉴黄就成为了主流。
AI+人工的方式一般是先通过机器过滤出大部分一定正常和一定有问题的图像,剩下的再交给人工进行审核,这样可以大幅度降低人力成本,而且机器识别效果越好,人工审核成本越低。
AI鉴黄其实是比较宽泛的概念,可以是通过规则系统来实现,比如基于MD5、基于用户的IP等信息设置黑名单库,直接基于规则进行拦截。
大部分还是会采用算法模型,也就是用算法模型判断一张图像中是否包含sq信息,本质上就是图像识别。
图像识别目前在部分任务上的效果甚至超越了人类。
图像识别中最常见的就是图像分类算法,从Alex到VGG,从Res。
目前的图像分类算法可以较为准确地区分Image的1000类数据,鉴黄本身也是对输入图像做分类,因此采用图像分类算法就是顺其自然的事。
而且目标检测算法可以用来检测sq图像中的露点部位,也是比较可靠的手段。
此外,还有基于业务层面构造的特征和逻辑,比如是否有人、皮肤的面积等,用来辅助判断,在一些情况下确实是有效的。
AI鉴黄的难点主要在于不露点的软sq,特征小的sq、非通用sq以及卡通动漫sq等等。
这是图片ai鉴黄的难点,视频和音频鉴黄的难点就更多了。
而且对于这帮互联网大厂来说,即便能够做到百分之九十九的拦截率,剩下百分之一的内容都不得了。
以微博为例,每天产生的数据都是以T为单位。
即便是几十个T,百分之一的拦截失误率,都足够把来总整的够呛。
而且更重要的是华国的内容审核行业,不仅仅局限于鉴黄,OCR审查这帮互联网大厂更是很早就在做了。
点到为止。
同样的道理,百分之九十九的拦截率,对他们来说都是无法接接受的。
所以一直到了2031年,依然是AI加人工的鉴黄方式。
只是说2021年的时候像微博这个体量的,可能需要上千名鉴黄师,到了2031年只需要上百名。
四位数变三位数。
至于微信,你在一遍,然后丢到后端的审查接口。
通过权重算法来判断你是否有违规行为,触发特定规则之后,会决定你倾向的权重,权重超过阈值之后你会被重点关注。
将会有人工来对你进行审核。
当然这种审核不仅仅是国内的大厂,fb、ins、youtube、Google和推特都有大量的人工审核团队。
他们的审核团队放在菲律宾。
在2018年的时候,关于这件事,PBS放过一个纪录片。
对于国内外的互联网巨头们来说,他们在文字识别上能够做到接近百分之百,但是在图像分类测试中,只能做到98%左右。
而且对算力有非常
『加入书签,方便阅读』