大数据的海洋背后掌舵的仍是人类

邮箱网 0条评论 6770次浏览 2013年03月22日星期五 16:42

【中国邮箱网电子邮件频道】3月22日，交易股票、定位广告受众、指导政治宣传、安排约会、在电视问答节目《危险边缘》(Jeopardy)中击败对手，甚至是选择胸罩尺寸：计算机算法正在包揽所有这些工作，甚至还覆盖到了更多领域。

但在幕后，一位老帮手无疑正在发挥越来越重要的作用，那就是人类。

虽然算法正变得前所未有地强大，快而精准，但计算机本身却往往只懂字面义，它们通常无法理解不同语境和词义的微妙差别。尽管这些机器如此强大，但它们也并非总是能解读人类语言的含糊性和人类逻辑的神秘性。然而如今，它们却被要求得出更符合人类的习惯的结果。

“虽然电脑十分聪明，但它们仍然可能会愚不可及，”卡内基梅隆大学(Carnegie Mellon University)的计算机科学家汤姆·M·米切尔(Tom M. Mitchell)说。

因此，虽然编程专家们还在编写计算机代码一步步的操作指令，但还是需要额外的人力进行一些更细致的工作，因为计算机所处理的工作正变得越来越复杂。人们要评估、编辑或者校正算法完成的工作。或者，人们也会集合起在线知识的数据库，并对其进行检查、核对，实质上是建立起一个让计算机快速查找答案的备忘录。人类可以将信息解释、调整成电脑和其他人都可以理解的内容。

像苹果(Apple)的Siri和IBM的沃森(Watson)这样的问答技术，尤其需要依赖这种新兴的人机合作。单靠算法本身是不足够的。

计算机算法和工程师主导着谷歌(Google)的业务和文化。但即使是在这样的公司，人对搜索结果的介入也越来越多。谷歌需要在两个方面借助人力的帮助。从几个月前起，如果用户键入一个著名人物或地点的名字，如“奥巴马”或“纽约市”，谷歌就会在搜索结果的右边显示信息概要。这些概要取自存储知识的数据库，如维基百科(Wikipedia)、中情局世界概况(World Factbook)，以及Freebase，谷歌在2010年收购了Freebase的母公司Metaweb。这些数据库都是由人编辑的。

当谷歌的算法发现一个搜索关键字有匹配的概要信息存在，搜索引擎会按指令抓取信息，而不仅仅是显示网页链接。

谷歌负责搜索质量的技术总监斯科特·赫夫曼(Scott Huffman)说，“我们的想法发生了变化。人类对我们的部分信息资源进行了更多的整理。”

其他的人类助手有评估员和打分员，他们帮助谷歌对其搜索算法做微调处理。谷歌的搜索算法自动运行、能力强大，每月能处理1000亿条搜索请求。谷歌公司的赫夫曼说，“我们的工程师逐步调整算法，之后，真人帮手会帮助我们判断所提出的变动是否真的是对程序的改善。”

23岁的凯瑟琳·扬(Katherine Young)是谷歌的一名打分员。她是一名合同工，也是乔治亚州梅肯的一名大学生。她会看到一条含糊的搜索关键字，如“国王举着什么”，以及两组谷歌搜索的结果。她要做的是给结果的相关性、准确性和质量打分。这条不精确的关键字得出的搜索结果中，排在前面的一些网页链接都说，国王通常拿着仪式权杖，这是一个合理的结论。

扬说，她的判断“并非完全非黑即白，其中一些是主观的”。她补充说，“你得尽量站在查询这条关键字的人的角度考虑。”

IBM的沃森(Watson)是一款强大的问答型电脑，它曾在两年前击败了《危险边缘》节目的冠军，人们近期正在训练它协助医生诊断疾病。但它也需要人类的帮助。

为了帮助沃森准备好协助医生的工作，人们给它输入医学文献、科学报告和去掉了患者身份信息的数字病例。沃森并不回答问题，而是向克利夫兰医学中心(Cleveland Clinic)的临床医生和医学院学生提问。他们会通过一项叫“教导沃森”(Teach Watson)的功能给出答案，并纠正电脑的错误。

FindTheBest是加州圣巴巴拉的一家快速成长的初创企业，25岁的本·泰勒(Ben Taylor)是该公司的一名产品经理。这家公司自称是一部“对比引擎”，可以找到并对比超过100个主体和产品，包括从大学到养老院、从智能手机到狗的品种的各种话题。网站于2010年上线，该公司现在有60名全职员工。

泰勒帮助设计和编辑该网站的教育板块。他学的是英语专业，并非工程师，而是自学成才，成了从教育部门及其他领域的研究中发掘隐秘数据的专家。他的研究方法包括通过谈话和电子邮件与教育者交流。他是一名信息侦探。

在FindTheBest网站上，根据地理位置、科目和学费等不同标准，人们可以迅速找到超过8500所学院的信息。打开一所大学的页面，摘要、图表和图片也会展示出丰富的信息，甚至包括全体师生的性别比例和种族构成。

泰勒及其团队撰写了这些摘要，并设计了最初的图表和图片。例如，他们会从有关大学费用的数百个数据中，选出对大学生及其父母最相关的那些。但他们的大部分信息是放在模版中，并标注计算机能够读取的代码。因此整个过程已经变得更加自动化，泰勒和其他人基本上只需给算法下达“抓取”命令，算法就会执行。

计算机算法正在不断改进，但单靠算法还是不够的。

“这其中需要判断，要能够凭感觉辨别出，哪些较小的数据集合最重要，”泰勒说，“为了做到这一点，必须有一些人力的参与。”

翻译：曹莉、林蒙克

文章来源：纽约时报中文网

大数据的海洋 背后掌舵的仍是人类

热门文章

推荐阅读

大数据的海洋背后掌舵的仍是人类