王小川：今年的人工智能仍然有许多局限性

邮箱网 0条评论 4028次浏览 2017年03月27日星期一 23:55

分享到：更多

中国邮箱网讯 3月27日消息，搜狗CEO王小川今日在在洪泰基金CEO春分大会上做了关于人工智能技术思考的分享。在开场，王小川首先调侃着澄清近日因搜狗即将上市而流出的关于自己恋爱时间的传闻，“我从来没说过搜狗不上市我不谈恋爱这种话”。

关于人工智能，他认为在往三个阶段走：1,将传统规则教给机器；2,将答案教给机器记忆学习；3,将目标给机器自我学习。而目前正处于第二阶段的高级阶段。同时，他也认为今年的人工智能还是有很多的局限性。比较难点的是在自然语言的处理，在翻译系统现在有大的发展，机器做翻译能把中文翻译成英文，英文翻译成中文，这个能翻译的很流畅，因为现在的机器人的学习，不是基于理论方法。（锡安）

以下内容根据王小川在现场分享整理：

简单讲，我们讲人工智能是往三个阶段走，我们还处在第二阶段的高级阶段，人工智能这个话题不是新课题，在上个世纪60年代、80年代就在做人工智能，那时候做人工智能的教授其实很不幸，那时候人工智能的水平是远远不够的，当时人们把对自己世界的认知变成了规则，转成了机器人，就是把这个规则告诉机器，这是那个时代的工作，那是60年代到80年代，人们对规则的表达是偏离这个目标的，就是做不好。

80年代基于统计方法来做的人工智能，不要尝试把人对于世界的认知告诉机器，就是让机器学，让你看答案是什么。一方面是把原始的问题，看到问题之后把答案给他，这是走上了让机器人学习的道路，这搞了几年。这个答案很清楚，很多经典案例的是人脸识别，怎么描述呢？胖一点的、瘦一点的等等，我知道这个人是谁，但是没有办法描述。到2000年之后的突破点，我们发现用更粗暴的方法，我们不要尝试在这个问题上找特征，把特征告诉机器，把原始的问题原始的数据交给机器，我给他更多的机器，我给他两千多张照片，让他自己去找特征，最后得出答案。2000年之后的爆发是跟这个相关的，阿尔法狗就是这么出来的，他不是靠原来的方法做的。

今天局部开始走到第三个阶段了，阿尔法狗属于是第二阶段加上一点点第三阶段，给它一些答案，给它每一个局面下人是怎么走的，让机器学，这样可以发现机器很难追上顶尖的人。到最后我告诉机器说，你走对，你赢了，或者是输了，这个也可以做了根据我看到的媒体报道。

在工业里面我们在第二个阶段，一定要用大数据。好处是我们不需要工程师对原有的行业有特别深度的理解，我举个例子，医生他是懂得怎么看心脏病的心电图，但是他很难把这个规则明晰的描述给工程师，从去年开始工程师得到很重要的体验，我不需要医生去学习他细节的技术经验，只要医生告诉我这个代表什么，工程师数据量大，就可以建立这样的模型，这跟选择人工智能的行业之间有天然的沟通鸿沟就消失掉了，这个很快就可以在人工智能里面得到突破的应用。未来的两三年里已经有成功工作经验得到了巨大的升级，今年在智能领域里面有一个很大的发现。

我今天就不讲了这个深度学习的意义和突破了，今年的人工智能还是有很多的局限性。核心问题是有一个前提的条件，要很安静的环境里，如果这个环境里还有背景音乐，同时两三个人一块说话，人是很清楚能分辨出来的，但是机器做不到，这个对机器而言，如果是声音里混了声音，人工智能是对见过声音的处理，如果两个人一起说话就不行了。一种做法是我们用麦克风做，我们在汽车里面，汽车里有胎噪和风噪，把这个录下来，然后在混到这个训练里面去，不是在识别里面做，而是他见过这样的声音。还有就是去噪音。

比较难点的是在自然语言的处理，在翻译系统现在有大的发展，机器做翻译能把中文翻译成英文，英文翻译成中文，这个能翻译的很流畅，因为现在的机器人的学习，不是基于理论方法。人如果流畅，机器也就可以流畅。

我去年6月份去了一个剑桥顶尖语言的实验室，他们在演示一个人机对话的系统，演示的非常清楚，我想吃辣的，我想吃什么样的，机器就帮你找。当我找到餐馆的时候机器问我问题，你需要停车位吗？我说我没有车，它就没有说的了，因为它不知道车和停车位是什么关系。语音图像里有大的发展，语言上现在是非常的不够。

另外一个很好的视角，跟投资相关的地方，我想看到人工智能的分类，像理解讲了一大堆的理论，但如果从产品上分类从功能上分类，我把人工智能分成这么三类。叫级别、判断和创造，创造叫生成。相信大家会看到一个语音能转化过来，或者是图像里面可以看到大象在做一个什么事情。今天做的第一个事情就是把物理世界的东西建模，语音识别、图象识别这都叫识别，像人脸识别，这是一类。还有是创造生成，语音的合成和图象合成是在这一类，所以一和三能干什么事呢？我们可以提升人机交互，就是在机器里可以看到这么一个东西，能把他合成出来做交互，相对而言就是在安防领域里面做人脸识别，在我心中这个东西有用，但是商业的价值不大。

现在有一个个人的观点，就是让机器做判断和决策，这个是里面唯一有巨大商业价值的东西，把人的劳动取代，让机器产生更高的工作，比如像金融里面是这个例子，阿尔法狗也是，它是在做判断和决策，一旦让机器有这样功能了，他就有很高的效率。我也看一个指数，1和3是在交互，不能构成一个商业品牌的核心成本，但是做判断，或者做决策，这是商业判断的核心部分。

前面讲了一个人工智能的判断，我给大家分享一点搜狗在这个里面的思考，大家开始思考人工智能了，这就是一个错误，人工智能现在的基本做法是要学习，其实对于搜索引擎公司，不管是百度还是搜狗大部分还是在学习。现在有了深度学习以后我们可以想像的更多，比如在网页搜索里面，以前靠我们的工程师怎么是高品质的，让这个机器去学，或者是图象识别这个里面如何更好的发现人脸，发现这个特征。深度学习之后需要更大的数据量才能做提升。

第二个是对于2C很重要的是图像和语音，应该叫做深度学习让我们有了很大的进步，我想表达的是，搜狗从2011年开始做，80%有语音的收入，就是一下子会使得一天产生了两亿次的，每天20万的语音数据我们对了一下，比其他家做的语音识别的识别价值还要大，这个有清晰的应用场景。TO B和TO C的公司是有区别，这个要有数据、场景。因为自己不能成为一个闭环，没有场景，就要依靠别人，其他的公司也数据和场景，这是一种合作的方式，这不是我们的基因所在。我们是用这样的技术首先为自己服务，因为我们有足够大的数据场景做支撑。

还有一个深度的思考，我看到这个是微软的医院，语音识别是不是人工智能的核心，或者是人工智能未来很重要的一个部分，我跟他们的观点是一样的，我说不。语音识别之后机器不知道你在说什么，未来的搜索是不是叫语音搜索，这个东西是一个毛皮，因为当我们提到说，王老师这三个字用文字去搜索，本质上具有不大。只是把我的新闻、百度、微博推给你，比如你这句话，王小川是不是说过不上市就不结婚，这个是语音的理解，在人工智能的应用里面，在金融、医院里面的应用都会很有用。语音在里面今天是没有功课的事情，语言跟这个都有关系，因为你用语音做识别的时候就把他变成语音，语言变语音我们也在做，但是我们考虑的是以个为核心做周边的发展。包括两个语音的转化是翻译，最后是语音的理解，这是我们to C公司里面思考的，叫自然交互和知识计算，自然交互是以语音为中心，还有是怎么建立对语音的分析和理解，这是我们的一个图。

行业中会有共识，未来很重要的事情，语音在于是对话、翻译、问答，这几个都是最前沿的工作。我们为什么考虑呢？今天是词的搜索，未来是给机器提问题，让他有一个精准的答案，我们在这个工作里面也做了很多的积累，我们认为在1年以内会有突破，不代表是机器理解了，而是在很多问题里面可以直接的回答。以前是靠拼音，敲汉字进去，未来我们是希望别人问，今天我们的上午什么时候举行，他不用拼拼音了，他就可以直接表现出来。

翻译是在去年开始的，是一个有大突破的事情，翻译的解决会使世界格局带来变得变化，我对他有这样的期待，不光我们在做，这是全人类的事情。如果人类做好了，这个是非常有意义的事情。因此不同的人说不同的语音，这是中间的过程。

文章来源：网易科技

王小川：今年的人工智能仍然有许多局限性

热门文章

推荐阅读