当前位置:首页 > 午夜 > 在中国的县城里,有一群教人工智能做人的年轻人

在中国的县城里,有一群教人工智能做人的年轻人

关键词:   发布时间:2019-06-12 10:00:01



来源|VICE(ID:vicechina)



中国,民权县 —— 周俊凯(音)的公司坐落在东沙河边上,这条古老的河流将民权县分为旧区和新区。民权县 位于中国河南省,城镇人口31万多。也就是在这里,19岁的周俊凯在今年夏天和26岁的表哥一起创建了属于他自己的数据标注公司。 

俊鹏科技公司租了一座带庭院的农村老房做办公场地。不同于中国随处可见的公寓楼,这种老房子的场地很大,有两三层楼高。房子后面,一个男人正在一小块地里耙枯叶,周俊凯告诉我们,这块地依然要种庄稼。 

屋子里头唯一有供暖的房间就是办公室。在这里,十几个年轻人正坐在闪闪发光的巨大显示器前工作。11月的民权县空气污染指数居高不下,太阳被挡在了厚重的雾霾背后,纵然有成排的显示器和荧光灯,办公室里依然显得很昏暗。

周俊凯(右)和他的表哥陈瑞(音)站在办公室门口。照片由作者提供

这些年轻人就是所谓的 “数据标注员”,他们每天在电脑前坐上八个小时,点击各种照片,在上面框出背景、前景以及一些特定目标,具体要看他们人工智能领域的客户的要求。一些员工负责标注医学扫描图像,一些员工负责标注各种景观和树木的照片,还有一些员工负责为无人驾驶车处理路况图片。把这些标注好的数据交给人工智能算法,能让它学会如何 “看东西”。人工智能产业依赖于这种廉价的人工作业,因为很多算法和所谓的 “机器学习” 都是靠人工训练来完成的。 

人工智能需要大量的数据来学习和识别模式,这其中包括图片、音频、文本等等,因为它们对媒体的解读和人类是不一样的。为了教会算法如何精确识别一个苹果是苹果,就需要提供数千张甚至到数百万张的苹果图片。另外,人工智能很容易被愚弄。在其中一个实验中,安全研究者发现对一张校车图片进行扭曲处理后,虽然人一眼就能看出来,但是 人工智能系统却无法判定其为一辆校车。 

资金正源源不断流入中国的人工智能领域,河南省是再好不过的例子。在几年前,河南省还是靠富士康(负责生产苹果产品)和各类电子产品工厂闻名全国,而现在,这里的城镇已经冒出了大量的办公室,坐在里面的都是为了让电脑变聪明而费力从事输入工作的员工。 

根据 ABI 研究机构的报告,2017年,风险资本家往中国的人工智能初创企业投入了50亿美元,标志着 中国首次在该领域的融资超过美国。中国政府高度重视人工智能领域的发展,17年夏天,他们宣布了一项宏图壮志:将在2030年打造出1500亿美元规模 的人工智能产业。 

人工智能也是 “中国制造2025计划” 十大领域中的一环。“中国制造2025” 是政府主导推行的一个经济总体规划,力求推动这个国家从大规模生产、低端经济向高科技、高价值、高端经济发展。中国现在有着全球估值最高的人工智能公司 —— 商汤科技。这家公司专注人脸识别和图像识别技术,并为中国各地方政府提供监控技术服务。根据研究机构 CB Insights 的报告,商汤科技估值约45亿美元。 

千禧年初,中国出现了大量的生产制造工厂,推动了中国的经济发展,而现在,另一个劳动密集型产业 —— 数据标注公司在中国蓬勃兴起。这些公司为算法提供并处理海量的数据。除了 小部分知名公司 设在中国的主要大城市之外,大部分数据标注公司都散落在小型城市、县城以及农村地区。 

周俊凯之所以想到创办自己的数据标注公司,是因为他在距离民权县以西几小时车程的平顶山市见到了许多这样的公司。这对表兄弟把两家多年的存款(约30万人民币)凑在一起买了几十台电脑,租了一个办公场地。就他们所知,他们是民权县唯一的一家数据标注公司。 

周俊凯毕业于一所职业院校,在校期间学的是汽修专业。毕业后他也曾找过其他工作,但是就业的机会非常有限。

19岁的周俊凯来自民权县郊外的一个村子,他说从职业院校毕业后工作并不好找。照片由作者提供

“如果你不知道将来要做什么,那你可以去大城市当白领,每天上班下班挤公交,” 他说,“至于其他行业,如果你想当第一,就需要大量的知识、经验和教育。但这些我们都没有。” 

他告诉我们,要找一个汽修工的工作很难。他在一家工厂里上了一段时间班,但很快就辞职了。工厂里的工作太辛苦,每天都要工作14个小时。 

“我觉得我受不了了,” 他说。但是 “这一行给人感觉很有市场潜力。” 

韩金浩(音)告诉我们,现在越来越多人正在涌入数据标注行业。一年前,韩金浩在河南省会郑州市创立了自己的数据标注公司。他的公司叫点我科技,公司里有一百多名数据标注师。 

“虽然数据标注是一个很低端的工作,入行门槛相对较低,但它依然属于人工智能领域,” 他说。“所以我们觉得,从这里开始,我们可以慢慢地,一步一个脚印向更加高端的业务迈进。” 

韩金浩创建了一个类似 Craigslist 的平台。根据他的计算,在这个平台上注册的数据标注公司超过了6000家。一些规模相对较小的数据标注公司都会在这里找外包工作或者招聘新人。 

18岁的赵梦瑶(音)是这一行的新人,她从十月份开始在周俊凯的公司上班。在我参观他们的办公室时,赵梦瑶正面对着一张停车场照片,沿着白线给一个停车位描边。这张照片有点扭曲,线条都是弯的,好像是用鱼眼镜头拍摄出的画面,但赵梦瑶握着鼠标操作非常熟练。20分钟后,赵梦瑶已经开始了下一张照片的处理,那是另一张从不同的角度拍摄的停车场照片。

一位年轻女员工正在研究如何给汽车照片做标注。数据标注员需要按照客户的具体要求标注图片。照片由作者提供

在她旁边,一名年轻的男性员工正在给一位歌手的橙色裙子描边。毛蓬蓬的裙子轮廓很复杂,他一个像素接着一个像素地框图。完成之后,他又开始框一个打高尔夫球的男人。

赵梦瑶之前一份工作是在婚纱摄影工作室当化妆师,但是因为工作太累,她最终选择了辞职。做化妆师的时候,有时她早上四点就要起床,为客户当天的拍摄做准备,晚上七点才能回家。

但是现在,她说她早上八点才开工,下午六点就可以下班,中间还有一个半小时的休息时间。午休的时候,赵梦瑶和她的同事会在工作的电脑上一边打游戏,一边闲聊。 

“我觉得这工作挺好的,我有很多自由时间。” 她说。 

赵梦瑶说这里的待遇也不错。每标注一套20张照片可以拿到约20元人民币的薪酬。她每天可以完成四到八套照片,也就是80到160张照片。我问她知不知道这些照片会流向哪里,她说她也不知道。 

我采访的七个数据标注员月薪在2000元至4000元不等,这跟 中国居民人均可支配收入,或者说险后税后收入差不多。2017年,这个数是2164元。“在郑州,像这个薪资待遇水平的工作有很多。” 25岁的点我科技员工王玉双(音)说。

点我科技是一家位于郑州的数据标注公司,公司的大部分员工都是二十出头。照片由作者提供

教会人工智能学会照片识别的标准方式是使用 ImageNet 的图片。ImageNet 是由斯坦福大学教授李飞飞和她的团队打造的数据库,里面收录了超过1400万张图片。这个数据库依赖亚马逊的众包平台 Mechanical Turk 进行数据标注。Mechanical Turk 会以几美分的薪酬将标注照片这种劳动密集型任务外包给普通网民完成。

但是随着全世界从无人驾驶到医学诊断等各行各业都在比赛使用人工智能,ImageNet 和 Mechanical Turk 已经无法满足日益旺盛的需求了。

“你真的觉得我们会让这些没有生命的东西控制人类?” 

数据标注公司 “觉醒向量”(Awakening Vector)的创始人杨洋在电话上告诉我,比如说一家提供精准诊断的医疗公司要想让人工智能学会在一张 CT 片上区分肿瘤和眼球,就需要非常详尽的数据。如果不学习的话,人工智能是看不出眼球和肿瘤的区别的。它需要数据给他指出一张图片上的肿瘤是什么样子,并且需要大量的图片进行学习,这就需要通过人工对照片进行数据标注。

但是杨洋指出,大部分人工智能初创企业只有数量有限的全职员工,这些通常都是数据科学家。

“数据标注是一项很辛苦的工作,” 杨洋说。“你不能指望拿这么高工资的人去做这种劳动密集型工作,所以这种工作你只能外包出去。” 

另外,隐私和质量控制也是个问题,比如医疗图片就需要保密。但是负责 Mechanical Turk 上的数据标注工作的,是任何想赚钱的平台注册用户,而不是拿着专职薪水,从周一工作到周五的正式员工。

数据标注工作外包,催生了大量数据标注公司在中国各地如雨后春笋般涌现。杨洋的公司坐落于中国新疆维吾尔族自治区,中国最大的搜索引擎百度和跨国制药公司诺华都是他的客户。韩金浩的公司主要为做无人驾驶车的初创企业等中国公司提供服务,他在河南省内以及邻省山东的许多小城市都设有分部。

根据传统观念,科学技术越发达,从事低技术含量工作的人就越吃亏。大部分学术研究也支持这个观点。但这并不意味着先进技术会取代所有的工作。

波士顿大学技术与政策研究项目执行主任詹姆斯·贝森(James Bessen)告诉我,历史研究证明自动化将催生就业潮。他指出纺织业就是一个很好的例子。

本森说,19世纪初期,大部分人只有一套衣服,因为布料很贵。但是随着技术的发展,一些工作被自动化,织布的成本被降低,对布料的需求也开始增加。衣服需求量增大,工作机会就越多。虽然纺织业曾被认为是 “低技术行业”,但随着纺织业规模急剧扩大,吸收越来越多工人,这些工人都必须学会操作复杂的机器。虽然很多工作被外包给了发展中国家,但是工作数量并没有净损失。只有当需求饱和时,岗位数量才会开始减少。 

目前,中国的劳动力成本比美国更低,而且也有充足的劳动力。 

这项工作不仅仅局限于图片标注。许多公司还在雇人做声音识别、视频标注甚至是原始数据。周俊凯和他的团队就在收集儿童的语音录音以及河南方言录音。

对于一些员工来说,在一个新兴行业工作有着巨大的荣誉感。王玉双说:“我们做的是非常基础的工作,但是我们是这一行的重要组成部分,我们在帮助机器人学习和识别各种数据。”

如果有一天算法已经学会了独立识别,那么人工智能领域里面数以万计的低端技术工作者是否会失业呢?

韩金浩对此似乎并不担心。“如果真的到了这一步,人类可能都已经灭绝了。你真的觉得我们会让这些没有生命的东西控制人类?我们只会教导它们如何为我们服务。我可不会让它聪明到有一天我要变成机器的奴隶。”


延伸阅读

那些为人工智能打工的人



AI是近几年来颇为热门的技术。伴随着AI的兴起,四五线城市里出现了越来越多的数据标注工厂。


数据标注工厂,是AI产业体系里最末端的毛细血管,他们聘请AI数据标注工人,给计算机输入图像,为AI提供学习材料。


他们用着最原始的办法,一张图接一张图地手动标记。他们在人脸上标注几百个记号点,让计算机知道哪里是内眼角、外眼角,瞬间扩出大眼睛。


他们录入的语音信息,被拆分标注后,能让智能音箱懂得“关机”和“十分钟后给某某打电话”是什么意思。未来,自动驾驶的车辆之所以能在路口停下,就是因为工人们标注过红灯、斑马线和一帧一帧移动的行人。


数据标注工人们遍布在河南、山东、河北等地的四五线小城里,日以继夜地为世界领先的AI产品服务。


在媒体上,很多人都在讨论AI代替人工的可能性。但对AI数据标注工人来说,短期内,拉框的工作还不会被机器替代。


越来越多的人正在加入他们的行列,成为为人工智能打工的人。以下,Enjoy:



图文来源 / GQ报道(ID: GQREPORT

视频来源 / Aha视频(ID: ahavideos)

 采访、撰文 /  刘敏

编辑 / 何瑫

摄影 / 张博然Eric


在河南省平顶山郏县,有一家特殊的公司。


这里生产你美颜时“一键瘦脸”的尖下颌,你一起学猫叫时的动态胡须,生产张学友演唱会被实时识别的犯人,生产未来的自动驾驶,智能门禁……


这里是中国特色的数据车间,他们遍布在河南、山东、河北等地的四五线小城里,日以继夜地为世界领先的AI产品服务。


越来越多的人正在加入他们的行列,成为县城里为AI打工的人。



梯子(可以移动的)


马萌利面前出现一张欧洲户外咖啡馆的照片。她移动鼠标,绿色的画框浮现在照片上,显示备注“椅子”,她迅速在一瓶花束上补了一个绿框,标上“花(放在容器中)”。


下一张,一个日本花卉市场,几排密密麻麻的绿植中,马萌利检查了每一个标出的“花盆”。


下一张,一个美国孩子的卧室,“椅子”、“桌子”……她飞速删掉了“梯子”的画框——客户要求是能移动的梯子,这种高低床上已经焊死的梯子就不能算。


下一张、下一张、下一张,不管眼前是什么场景,马萌利手速不变,依次圈出“梯子”、“茶几”、“地毯”、“沙发”。


“梯子”、“茶几”、“地毯”、“沙发”。“梯子”、“茶几”、“地毯”、“沙发”……如此周而复始,不停重复循环。马萌利每天的工作从早晨8点钟开始,坐到工位,打开电脑,输入用户名和密码,移动鼠标开始标记,日复一日,每天持续9个小时。


屏幕上的图片很模糊,这些都是从全球社交网络上抓取的,角度混乱,像素也不高。那张韩国泡菜摊的照片,很明显来自一个角落里的摄像头。马萌利放大图片,在路人的脚边,圈出一个糊成一团的轮廓:“垃圾桶”。


旁边工位有人打开了音箱,活泼的流行歌响了起来:“燃烧我的卡路里!”


房间里有几百个屏幕,闪动着颜色不一的图片,每个人都在框选同样的内容:垃圾桶、梯子、茶几、地毯……这是河南省平顶山市郏县,一家叫千机数据的公司,房间看起来像一个网吧,在网络神曲伴奏下,年轻的员工们窝在柔软的沙发里,不停地拉框。马萌利是最后的审核员,她和同事要检查所有人拉的框,以保证每个画框都严丝合缝地贴着目标的边缘,图片里所有目标都要被框出来,不能有任何遗漏。



马萌利每天要检查至少1000张图。手头这个单子已经干了两个月,同事们标注了上万个垃圾桶、梯子、茶几、地毯……29岁的马萌利知道,这些标好框的图片汇总后,将发回北京一家AI独角兽公司,变成AI的学习材料。


她不知道的是,这几万个“梯子(可以移动的)”标注,展示了梯子的无数个样子,再经过深度学习算法加工,最终让计算机认识,这就是梯子,可以移动的那种。


她日复一日标注的数据来自各个科技大公司,全部应用于AI训练。一种行业说法是,任何人类能在5岁之后做的事,对机器人来说都很简单,但是5岁之前,人类用本能就能理解的实际信息,计算机要用最笨的办法学习。这时候,就需要数以万计的马萌利们为AI提供标注服务了。


计算机认识沙发、梯子又有什么用?


马萌利回答不了这个问题,转头去问老板刘洋锋。刘洋锋今年31岁,是他去北京竞标抢到的这批活儿。他搔了搔头发,想起甲方提过一次,9月8号他们要去国外参加一场世界级AI比赛。“这些是给那场比赛用的?”他不太确定。再往下说,他也不懂了。


为AI服务

我来郏县的第一顿饭,刘洋锋和合伙人刘磊带我去吃了本地一家网红饸饹面,面馆有位漂亮的女主播,靠拍餐厅各种日常,在一家短视频平台上有88万粉丝。中午,餐厅两层楼坐得满满当当,一半是食客,一半是慕名而来的粉丝。


我们正好遇到女孩做直播,我发现,主播本人跟视频不一样:屏幕上她皮肤变好了,眼睛大大的,下巴更尖,苹果肌更圆。


是短视频软件的滤镜把她变美了。跟自拍软件一样,直播平台的滤镜靠的是AI,可以实时瘦脸、大眼并磨皮。APP之所以能识别哪儿是眼睛、哪儿是下巴,正是此前有AI数据标注工人标记了那些人脸的五官。


一直到我们离开,女孩仍一刻不停地招呼新进直播间的观众,对着镜头羞涩地笑:“我是单身,没有男朋友。”


“她是那家老板的儿媳妇呀。”说起女主播,马萌利一边对着一张俄罗斯餐厅图片拉框,一边哈哈大笑。郏县很小,藏不住什么秘密。她比画了一下公司的员工们:“生拉硬扯,我们都能扯上关系。”


同在一个县城,几年前,马萌利和女主播的处境差别不大。但技术后来将她们塑造成了两类人:马萌利成了每天为AI打工的人,而女主播运用AI提供的便利赚钱致富。


马萌利今年29岁,一见面就热情地笑,问什么说什么。初中毕业她就出门打工,在制衣厂做过缝纫,也进过富士康,做了4年线外流动员:流水线制造惠普电脑屏幕,她要随时给人做替补,前面做组装,把显示器的面板、外壳、支架都装好。后面做测试,用数据线测屏幕上有没有亮点,往屏幕上贴标签。


回乡后,她开过网吧,做过超市收银员。去年,她应聘了这份“电脑操作员”,每个月收入3~4千,比收银员高,比富士康低。她觉得工作环境不错:坐着用电脑,有空调,下班早,晚上回家还能陪孩子玩一会儿。而且,3个老板都是熟人,“我们村子都挨着,打小就认识”。


过去一年里,马萌利见过各种稀奇古怪的图片,她给人体标注过关节点,从头顶、脖子、膝盖到脚踝,一共打17个关节点;给道路图里的汽车、摩托车、自行车拉过边框,黑夜里的照片要比白天难一倍;她还录过一下午音,对着手机,念了300句话,有的短,就两个字、五个字,有的是十几二十几个字,具体内容,公司不让往外说。



2012年,谷歌大脑做了一个著名的实验:1000台计算机组成了超过10亿个“突触”连接的神经网络,研究者输入了1000万个静态图像,通过3天的密集寻找重复出现的模式后,谷歌大脑终于可以识别出一些特定的重复类别:人类面孔和人类身体,或者是一只猫。


马萌利这样的AI数据标注工人,就是给计算机输入图像,为AI提供学习材料的人。他们用的是最原始的办法,一张图接一张图地手动标记。他们在人脸上标注几百个记号点,让计算机知道哪里是内眼角、外眼角,瞬间扩出大眼睛;他们录入的语音信息,被拆分标注后,能让智能音箱懂得“关机”和“十分钟后给我老公打电话”是什么意思。未来,自动驾驶的车辆之所以能在路口停下,就是因为工人们标注过红灯、斑马线和一帧一帧移动的行人。


关于这项技术,最为人所熟知的一个例子是,在张学友南昌、赣州、嘉兴、金华4场巡回演唱会上,警方用安检时的人脸识别系统,一共抓获了5名在逃犯人。


我一提到这个新闻,刘洋锋立刻讲出了背后公司的名字。虽然没合作过,但知道他们是如何运转的:当逃犯们兴冲冲地拿着票走过摄像头时,他们的面部信息已经被抽取,实时传到云端,与后端数据库飞快地做比对。


这是一种无差别的信息比对,如果用传统人工,在几万人的演唱会安检现场找到一名在逃犯,需要成百上千名安防人员。现在,只要几秒钟,比对完成,系统发出警告,警察按图索骥,拿下案犯。


太简单了,就跟QQ截图差不多


千机数据公司只有一年历史,从设想到成立,一共才花了3天时间。


第一天,刘洋锋和另外两名创始人聚在一起,琢磨以后要干点儿什么。他翻出一个文件,一家江苏的数据标注公司在转卖一个单子,提到一个新鲜的概念:数据标注


刘洋锋试验了一下软件,在一张马路的照片上,他给一个行人圈了一个框——太简单了,就跟QQ截图差不多。


第二天,三个人就去买了网线,去平顶山买了20个格子间卡位,旧货市场买的,90块钱一个。


第三天,面试。刘洋锋有个开手机店的老表,在乡镇里混了七八年了,“他有微信群,认识的人多,一发朋友圈就有人来。”招工唯一的要求是,年龄不要太大。招20个,去掉几个四十多岁的应聘者,正好招满。


2007年,普林斯顿大学助理教授、计算机视觉专家李飞飞第一次试验做数据标注时,她以10美元/小时的价格,雇佣了一批普林斯顿的本科生。10年后,这项试验已经演变成产业,在郏县这种中国的三、四线城市,以工厂、车间、质检员的形式落地生根。



刘洋锋的公司是在县城郊区一个农民楼里成立的。第一批员工是初中刚毕业的学生、三十多岁在家带孩子的妇女、前手机店店员和前服装店的销售员们。已经经过了江苏来的业务一道盘剥,算下来每拉一个框3分2厘钱,公司再抽成,到员工手里,变成了2分5。


一个星期之后,所有人都已经能熟练地在电脑上操作,这份工作的门槛几乎为零。电脑从20台扩充到40台、100台,一年后,已经到了500多台。员工都是本地人,马萌利的村子今年来了7个人,她骑电瓶车载我回了一趟家,10公里的村路,她小时候骑自行车,碾着泥坑,一上午都骑不到,现在变成水泥路,20分钟就到家了。马萌利家刚贷款买了一台哈弗SUV,下雨天就拉着村里人一起去上班。


夏末天气变凉,晚风吹过小河和玉米地,叶子窸窸窣窣作响。家里7岁的儿子马上要开学,趴在空调房里看恐怖片,一见马萌利回来,跳起来扑到了妈妈身上。


刘洋锋最近天天忙到后半夜,直接在办公室里睡了,一觉醒来,想起又忘了给儿子买书皮,顿时懊悔起来。他1987年出生,中专读了一半就不念了,他学的电脑专业,讲了3年,才从电脑的起源讲到怎么配置服务器。


2005年,刘洋锋跑到重庆的工地上开挖掘机,一个月就能赚五千多块钱。他买了个二手IBM ThinkPad,拿着一个蛇皮袋子装计算机教材、软件杂志,走到哪儿带到哪儿,晚上在宿舍里自学。此后,他在全国跑过饮料瓶推销,在云南红河卖过进口高档葡萄化肥,还去智利待了一个月。当时有老板想把深圳华强北的山寨机推销到南美去,让他先学了一个月西班牙语,手机生意黄了,他唯一的收获是记住了hola (你好)和gracias(谢谢)。


刘洋锋回郏县之前,还在珠海做过一段单片机,用上了自己的计算机知识。小公司攒出来一台自动化设备,能精确地拿起来、放下,专门给手机做WiFi、主板测试,这正是马萌利过去在流水线做的活儿。


单片机速度快,24小时不眠不休,花几万块买一台,一个10人的流水线小组就全被替代掉了。


而大公司做AI标注的结果,也会是大规模替代人力。李开复曾撰文表达过对AI技术快速发展的担忧,“这种转变将为开发AI以及运用AI的企业带来大量利润……我们由此将面临两种无法和谐共存的新情况:大量财富集中到极少数人手中,大批人员失业。”


但处于产业链末端的人,不思考这些问题。这离他们太遥远了。北京一位AI数据标注公司老板告诉我,“工人只是打开人家的网页,用人家的软件,在上面把人家的数据,按人家的格式给人家处理好,交给人家,公司接触不了AI任何东西,这个数据自己也保留不了。”“我们没有研发能力,纯粹也就是一个(代工的)富士康。”



在郏县,这还是个新兴产物,今年8月,刘洋锋在“郏县之窗”公众号上发了一篇招聘广告,文章把AI标注员的工作捧得很高:“在这个岗位上,其实你的一些想法就代表了AI的想法,AI会根据你加工的数据进行深度学习,

相关内容
分享 2019-06-12 10:00:01

0个评论

文明上网理性发言,请遵守新闻评论服务协议