AI算法实现与云平台应用

陈迪豪,第四范式先知平台架构师 。个人兴趣广泛,在开源社区比较活跃,维护了1600+ star的容器Web管理平台 。大二加入了小米做移动端开发,然后有幸学习到后端基础架构技术,参与了HBase、等社区开发,并且开源了依赖的全局严格递增服务,对分布式存储有一定了解 。后来加入云服务创业公司,负责存储、容器、大数据业务,参与了、、Ceph等开源项目,在上分享了多后端存储相关的技术,期间也获得了AWS认证 。目前从事云深度学习方向,负责深度学习平台的架构和实现,对容器调度系统和深度学习框架有一定了解 。
我是第四范式的架构师陈迪豪,我们从14年就开始做机器学习,现在机器学习特别火,让我们也感到很困惑,因为大家把跟计算机有关的都说成是智能,或者是AI 。根据我的经验,标题里有AI的分享,10个可能超过8个都有点忽悠人 。但是昨天于老师的“小诗机”和洪强宁教授的都讲得特别好,根据8/10原则我是有点压力的 。今天给大家介绍一下AI相关算法实现,希望大家理解它的实现,对真正的人工智能或者机器学习有一些新的理解 。
我是ECUG的新人,首先自我介绍一下 。我在13到14年参与了HBase和的开发,之后去做,也是社区的贡献者,大家看得出来我前两年做的是 。我最近在做和机器学习相关的东西 。我也是一个开源项目的作者,现在在第四范式做先知平台的架构师 。今天的议题有三个:
人工智能与机器学习介绍
图 1 这些是人工智能吗
机械自动化 。昨天洪教授讲到了第一工业革命就是蒸汽机,第二次是流水线 。其实很早以前我们就有机械自动化,我们就用电控制舵机做一些重复的操作 。但是最近我们看到了更多是把机械自动化描述成人工智能工厂 。然而很多工厂只是用到了机械,但是却被描述成智能工厂 。
字符串生成 。前一阵子还发生一个笑话,他们生成字符串的应用有个bug,导致生成乱码,却被媒体宣称为机器人自己发明的一种语言,它们在交流 。其实并不是,在那种模型里面他们用机器学习生成字符串,但生成字符串并不需要人工智能,还有很多别的方法 。
验证码识别 。还有比较可笑的验证码识别,这也是很多年前的技术了,但被某电视台的新闻栏目,宣称他们抓获了全球第一例人工智能黑客技术犯罪,其实是有人提供验证码自动识别的服务而已 。
作为我们行业内的人来看,这些都不是人工智能,只是满足PR或者行业投资的需求,从技术实现的角度,这些绝大部分都不是人工智能 。
图1的右边是我生成的一个Numpy数组,可以用表示一个的模型 。有人以为会自己跟自己下棋,并且自学了围棋的规则,甚至开玩笑说自己悄悄地用网络对战平台和别人下棋 。但从专业的角度来看,只是这样一个多维数组,里面有很多浮点数代表了模型的权重 。如果把打印出来,它就是一个数组,它的输入就是一个表示棋盘的,输出是下子的概率和赢棋的概率 。而且围棋的规则是程序员编码硬实现的,包括怎么判断游戏的输赢 。这些都是目前人工智能或者说机器学习不可能解决的 。
图2 机器学习定义
我们来看一下人智能它比较经典的定义,这是一本机器学习教材,作者被公认是机器学习之父 。它对机器学习的定义:一个计算机程序,它在某一个task里面,根据以前的经验,可以通过计算来提高 。总结一下就是:在一定的场景里面,我们定义一个指标,如果我们有标记好的数据,也就是样本,然后通过计算得到一个模型 。模型的输入是样本,输出是预测的概率 。所谓的机器学习就是一个计算的过程,无论是训练还是预测 。