文/陈匿 今日头条的跨年并不是在兴奋与喜悦中度过。12 月 29 日,北京市互联网信息办公室针对今日头条持续传播色情低俗信息、违规提供互联网新闻信息服务等问题,责令其立即停止违法违规行为。 这是官方在抛出算法有没有价值观、机器有没有温度等系列命题之
文/陈匿 今日头条的跨年并不是在兴奋与喜悦中度过。12 月 29 日,北京市互联网信息办公室针对今日头条“持续传播色情低俗信息、违规提供互联网新闻信息服务”等问题,责令其“立即停止违法违规行为”。 这是官方在抛出“算法有没有价值观”、“机器有没有温度”等系列命题之后的最后一次“强干预”。虽然,今日头条的平均用户停留时长已比肩 Facebook、微信等黑洞级应用,但其 “琳琅满目”的信息呈现与用户的期待依然有不小的落差。如头条所倡导的“算法没有价值观”,用脚投票的用户也没有价值观,只有好恶。 在六个“重危”频道被整顿 24 小时并将“新时代”这一“价值观频道”设为默认后,今日头条的开年第一件大新闻是:在天津招聘 2,000 名内容审核编辑岗位,加强内容审核。该职位要求热爱新闻,关心时事,具有良好的政治敏感度和鉴别力,要求本科及以上学历,党员优先。而此前今日头条的审核团队已逾千人规模。 其中的被动式应战意味显而易见,透露出的一个重要的信息就是:包括今日头条在内的个性化推荐引擎的算法在性能调优、千人千面这件事上貌似失效了。大家都看到了脏的东西,只是内容不一样而已。于是,我们不由得去思索一个问题:这些个性化资讯提供商真的是黑灯工厂吗?在“下一代搜索引擎”面前,人与机器的关系是怎样的? 我们先从即将为今日头条工作的 2,000 名“内容审核编辑”入手,猜猜看他们的工作是什么。落点在编辑,核心却在审核,甚至是在数据标注。毕竟一个号称没有编辑的推荐系统怎么可能需要 2,000 多名编辑?审核的含义就显而易见了,头条号的内容(数据)能不能分发、发出去的能不能展示、怎么展示,被迫务实的今日头条需要紧急解决的就是减少“低俗色情”内容了,机器不行人来凑。 今日头条已经越来越离不开繁重的人力劳动了,这家“高举高打、向 BAT 全面开战、作战半径越来越长”的小巨头正在通过更多的、更底层的人力劳动来夯实地基,完善数据标注和分类,弥补低水平人工智能的缺陷。当然,需要这么做的不仅仅是今日头条,还有整个人工智能领域。 人工智能的核心是机器学习,它涉及了算法、统计、概率等多学科,那些看似简单甚至笨拙的语音反馈、图像搜索和个性化内容推荐,都基于无数繁复单调的人力劳动。就像苹果公司带动的智能手机产业链一样,人工智能这一辉煌的朝阳产业,依然离不开三四线城市的劳动力、在校大学生以及大量社会兼职人员的工作,今日头条此次在天津释放的 2,000 个审核编辑名额正是瞄准了这一群体。 人力劳动与人工智能的关系最直观的体现正是由今日头条所掀起的新闻客户端“个性化推荐革命”了,在此类产品中,内容的多级分类、垃圾内容的清洗及过滤、用户行为画像都涉及复杂的机器学习,而需要人工标注数据去喂养机器的可以是分词、关键词,也可以是文章分类、文章中图文的比例。如果将一整套算法比作一个健全的有机系统,每一个维度的数据都是构建这套系统的神经元,它们或多或少会影响用户展现层,可谓是差之毫厘谬以千里。 那么,那些你喜欢的、你不喜欢的内容是如何从数百万级的内容库里被选择推荐到你的信息流里?我通过与几位个性化算法工程师、今日头条的前产品经理和从事这个“内容审核编辑”工作运营人员聊天,了解到了密集的人力劳动是如何喂养机器智能的。 分词标注:理解你的兴趣之前,先理解汉字的意义 众所周知,英文是以词为单位的,词和词之间靠空格隔开,而中文是以汉字为单位,把中文的汉字序列切分成有意义的词,就是中文分词。中文自然语言处理(Natural Language Processing)中,分词是必不可少的一个过程。 个性化推荐引擎,最重要的就是把有意义的信息前置,其核心是相关度排序。分词准确与否直接影响排序,影响你的信息流列表里是否都是你个人感兴趣的东西。 |
2018-12-24
2018-06-21
2018-05-18
2018-08-22
2018-08-23