什么是机器学习以及机器学习如今的社会现状！！_业界新闻

发布时间:2024-07-29 20:38

阅读量:0

👨‍💻个人主页：@开发者-曼亿点

👨‍💻 hallo 欢迎点赞👍 收藏⭐ 留言📝 加关注✅!

👨‍💻 本文由曼亿点原创

👨‍💻 收录于专栏：机器学习

⭐🅰⭐

—

文章目录

⭐前言⭐

人工智能是近年来非常火的话题，人们似乎看到了在某些领域内机器智能取代人力的可能性。之所以人们可以得到这样的判断，主要是基于以下几方面原因:随着互联网的发展，人类社会积累了大量的数据可供分析;机器学习的算法不断选代，特别是近年来随着深度学习的发展，人们从理论层面取得了实质性突破;随着分布式计算的成熟，云计算让计算资源不再成为瓶颈。我们可以把人工智能看作一个数据挖掘体系，在这个体系当中，机器学习的作用主要是学习历史数据中的经验,把这些经验构建成数学模型。人类利用机器学习算法生成的模型，就可以解决日常的一些问题，如商品推荐和对股票涨跌的预测等
以上谈到了机器学习的主要作用，我们再来了解机器学习在业务中的应用，其实机器学习算法正在逐步向“平民化”演变。早些时候，只有一些规模比较大的公司会投入资源在智能算法的研究上，因为这些算法需要大量的数据积象以及升算资源，而且整个业务框架跟算法的结合也需要耗费很大人力，所以只有少数数据业务量达到一定规模的公司会在这方面投入。但是随着各种开源算法框架的发展以及计算资源的价格走低，机器学习不再是“奢侈品”，很多规模不大的公司也开始尝试用机器学习算法生成的模型来指导自身业务，用数据来解决业务问题是代价最小的方式，而且效果会随着数据量的积累变得越来越明显。机器学习算法正在帮助越来越多的企业实现转型，从传统的商业智能(Busines[ntelligence，BI)驱动到人工智能(ArtificialInteligence，AI)驱动。通过平日里与客户打交道，我们可以了解到，现在不只是互联网公司，更多传统行业，如教育、地产和医疗等也在尝试把自己的业务数据上传到云，通过机器学习算法来提升自己的业务竞争力。

🎶 一、机器学习的背景

人工智能的起源应该可以追溯到 17 世纪甚至更早，当时人们对于人工智能的定义是基于推理的。人们畅想着如果两个哲学家或者历史学家的观点出现矛盾，两个人不必再进行无休止的争吵，世界上的所有理论会抽象成类似于数学符号的语言，人们只需要拿出笔来计算就可以解决矛盾。这种抽象逻辑给了后人引导，如今，机器学习在行业上的应用也是将业务逻辑抽象成数字来进行计算，从而解决业务问题。但是在远古时代，这些逻辑还只是科学家脑中的想法。实际上，直到有机器的出现，人工智能才真正作为一门学科而受到广泛关注。
随着第二次世界大战的爆发，越来越多的机械开始替代手工，人们开始幻想什么时候机器能代替人类来进行思考。在20世纪40年代，关于人工智能的讨论开始兴起。但是，机器做到什么程度才算人工智能、这通个保准来判定。图灵用了最直白的话语播迷下人工智能，这就是图灵测试。

1950 年，计算机科学和密码学的先驱阿兰·麦席森·图灵发表了一篇名为《计算机器与智能》的论文，文中定义了人工智能测试的方法，让被测试人和一个声称自己有人类智力的机器在一起做一个实验。测试时，测试人与被测试人是分开的，测试人只有通过一些装置(如键盘)向被测试人问一些问题，随便是什么问题都可以。问过一些问题后，如果测试人能够正确地分出谁是人、谁是机器，那机器就没有通过图灵测试，如果测试人没有分出谁是机器、谁是人，那这个机器就是有人类智能的。
人工智能的另一个重要标志是人工智能这一学科的诞生，故事发生在 1956 年达特茅斯会议。会议上提出了这样的理论:“学习或者智能的任何其他特性都能被精确地描述,使得机器可以对其进行模拟。”这个论调很像机器学习算法在今日的应用，我们需要提取可以表示业务的特征，然后通过算法来训练模型，用这些模型对于未知结果的预测集进行预测。这次会议对于人工智能在更广阔的领域发展起到了推动作用。在之后的20年里，人类在人工智能，特别是相关的一些统计学算法的研究上取得了突破进展，比较有代表性的如神经网络算法，就是在这个时期诞生的。有了这些智能算法作支撑，更多的真实场景才可以在数学层面进行模拟，人类慢慢学会通过数据和算法的结合来进行预测，从而实现某种程度上的智能化应用。

🎶二、发展现状

上一节中回顾了人工智能的发展历程，不考虑计算能力等硬件条件的限制，当今世界的人工智能可以总结为数据和智能算法的结合。通过对过往经验的分析得到实验模型，并且利用这种模型指导实际的业务。把人工智能看作一个人类大脑的话，里面的血液就是数据，而大脑里面的血管承载着数据的流转，可以看作是相关的机器学习算法。所以在介绍机器学习算法之前，大家不得不先了解一下大数据时代的特性，然后再针对当前数据爆炸的这种情况介绍机器学习算法的一些用途。

（1）数据状况

21世纪注定是属于互联网的，在这个数字时代产生了很多新名词，这里边有云计算电子商务和有共享经济。大数据也是互联网时代的产物，出现在报纸中、电视上、网页里“大数据”已经成为信息时代的代名词，乃至于好多人还来不及认识它，就已经开始被它支配。什么是数据?客观世界存在的那一刻开始，数据就已经出现了，从宇宙中天体运动的速度、角度及天体的质量，到人类文明的产生、更迭和演进。数据无处不在，但是数据的价值在于如何采集和利用。
正是受到互联网的驱动，人类开始采集和利用数据。对于大数据时代，我最深切的感触是大数据未来的版图清晰又模糊。清晰的是人们已经开始意识到数据是有价值的，并且已经开始采集数据，看看人们都做了什么?根据存储市场调研的最新报告，目前世界全年的数据保存量约合50EB，这些数据来源于互联网、医疗健康、通信、公共安全以及军工等行业。接下来，我们来看看这些数据是如何产生的。
以全球最大的 SNS服务商 Facebook 为例。Facebook现在的用户数达到 9.5 亿,这些用户的每一个行为，包括每一次通知、页面访问、查看朋友的页面，都会被 Facebook 的服务器追踪，并且产生历史行为数据。而全世界9.5亿用户平均每个月在 Facebook上花费的时间超过 6.5 个小时，产生的数据量大小超出人们的想象。Facebook 上每天可以产生 500TB左右的数据量，我们来看看这些数据具体包括什么。人们每天分享 25 亿个内容条目，包括状态更新、墙上的帖子、图片、视频和评论，每天有 27 亿个“like”操作，人们每天上传3亿张图片。
虽然诸如 Facebook、Google 和 Alibaba 这样的国际互联网巨头已经开始积累数据，并且将数据进行分析来反哺业务。但是截止到今天，全世界每年保存下来的数据只占到数据产生总量的百分之一不到，其中可以被标记并且分析的数据更是连百分之十都不到。这种现状造成了两方面的瓶颈，一方面是数据产生和数据收集的瓶颈，另一方面是采集到的数据和能被分析的数据之间的瓶颈。
针对数据产生和数据采集的瓶颈，其原因一方面是硬件存储成本的限制，但是随着硬盘技术的发展和产能的提升，这方面的缺陷正逐渐弱化。笔者认为，造成目前数据采集与数据生成失衡的主要原因是数据的采集缺乏标准。虽然，互联网公司对数据采集和标准制定方面已经形成了一套成熟的体系，如网站的点击行为、日志的收集等。但是对于更多行业，特别是传统行业来说，数据的采集方式还处于摸索当中，而且从目前来看，这样的摸索还将持续相当长的时间。尽管现在提倡互联网思维以及世界万物联网的思想，但是互联网对于采集数据的经验恐怕很难复制到传统行业。因为互联网行业对于数据采集存在天然的优势，互联网的数据都是托管在数据库里，以二进制的方式记录在硬盘中，只要稍作处理就可以形成一份质量较高的结构化数据。但是在传统行业，以建筑行业为例，数据产生于工地上一砖一瓦的堆砌，产生于工地的施工建设，这样的数据如何转成二进制来存储需要由新的标决来指定，而这种标准更多地受限于技术手段。如果我们的图像识别做得足够智能，拍一张照片就可以将工地的数据量化，这样可能就可以解决这种问题。对于传统行业的数据智能化进程可能还需要耐心的等待，
数据采集方面还需要制定更多的标准以及技术的支持，但是数据的应用方面也存在不小的缺陷。如果目前世界上采集到的数据能被充分利用是足够颠覆生活的，可惜的是目前可以供分析的数据还只占很小的比例。造成这样的困境主要有两方面因素，一个是目前比较主流的机器学习算法都是监好学习算法，监督学习需要的数据源是打标过的数据，打标数据很多时候是依赖于人工标记。比如我们需要一份数据来训练模型进行电影推荐，除了已知的电影的特征数据以外，还需要一份打标的数据来表示电影的好看程度，有点像豆的电影分数，这种数据很难通过计算机的计算直接生成，需要依赖于人工打标。人工打标的影响就是，一方面很难生成大量的标本(上千万样本的数据)，设想一下 1000万人坐到一个地方一起看一部电影再进行评分是多么浩大的一项工程。另一方面，人工打标的成本太高，目前有很多负责打标的第三方公司，打标服务往往在市场上可以卖到很高的价格。
另一个导致可分析数据比例较低的因素是对于非结构化的数据处理能力较低。非结构化数据指的是文本或者图片、语音、视频这样的数据。这部分数据来自于用户在贴吧的评论、社交软件上的头像、直播平台上的视频展现等。虽然目前的科技水平已经具备了文本和图像方面的分析能力，但是在大批量处理和特征提取方面依然处于相对基础的阶段。以图像识别为例，目前比较成熟的包括人脸识别和指纹识别等，图像识别的特点是每种事物的识别需要训练相对应的模型，而这种模型需要大量的训练样本来提高精确率，一个成就的模型通常需要千万级别的训练样例。人脸的数据是比较容易获取的，所以相应的模型比较容易训练，但是假如我们需要训练一个模型来识别某一款杯子，针对这一款杯子的训练数据是很难达到理想量级的，这也提高了特定场景下图像识别的门槛。
互联网在不断发展，数据的生成也不会停下脚步。目前被广泛引用的互联网数据中心(International Data Corporation，IDC)和 EMC 联合发布的“2020 年的数字字宙”报告显示，到2020年全球数字宇宙将会膨胀到 40000EB，均摊每个人身上是5200GB 以上，这个数据量的数据将会如何被有效存储和应用，目前我们还不敢想象。不过可以肯定的是，数据会成为重要的资源，就像是水电煤一样，在大数据时代，特别是未来的数据爆发时代教据二定会展现出更大的潜能，人类社会也会进入数据处理技术(DataTechnology，DT)时代。

（2）机器学习算法的现状

之前讲了大数掘，这里再讲机器学习就变得容易理解了。传统的机器工作模式是程序员向机器输入一连串的指令，可以理解为是代码，然后机器按照这些指令一步一步执行下去，结果通常是我们可以事先预料的。这种逻辑在机器学习里是走不通的，机器学习是指我们向机器(更准确地说是机器学习算法)中输入数据，然后机器会根据数据返回结果，这些结果是通过数据自我学习得到的,学习的过程通过算法来完成。我们可以这样来定义，机器学习方法是计算机利用已有的数据(经验)得出了某种模型，并利用这些模型预测未来的一种方法。这个过程其实与人的学习过程极为相似，只不过机器是一个可以进行大维度数据分析而且可以不知疲倦地学习的“怪兽”而已。

机器学习跟模式识别、统计学习、数据挖掘、计算机视觉、语音识别和自然语言处理等领域都有着很深的联系。如今生活在这样的 DT 时代，随时随地都是机器学习的影子，通过机器对大数据进行分析而带来的人工智能应用，正在一点一点地改变人们的生活方式和思维方式。看到这里很多人都会发问:机器学习究竟能做什么?其实机器学习已经服务了我们生活的各个方面，下面以一个简单的购物场景来介绍机器学习是如何应用在我们的日常生活中的。
现在是 2024年，如果你还没有尝试过网上购物，那真的是落伍了。网上购物目前已经成了人们的生活方式。下面就简单地聊聊机器学习算法在购物行为中的应用。假设我们在餐厅吃饭，看到一个人的短袖体恤很漂亮，我们想买同款，但是又不好意思开口去问。那么我们可以先偷拍一张这个人的T恤的照片，然后淘宝就会显示出这件衣服的同款。

这里就用到了机器学习中的图像识别技术。但是往往与这件衣服相近的款式又非常的多，因此我们需要把这些款式按照一定的规则进行排序，这就涉及了机器学习算法模型的训练，通过这个模型，我们把所有的类似款式进行一个排名，最后就得出了最终的展示顺序。
当然，更多的时候我们是通过键盘的输入来搜索商品的，但是如果犯懒，还可以选择通过语音的方式输入内容，这就是语音转文本的运用。在我们搜索一款产品之后，网页的边栏上会出现一些推荐列表，而且每个用户的推荐列表都是不同的，这就是所谓的千人千面。这个场景的实现依赖的是推荐系统后台的用户画像，而用户画像就是大数据和机器学习算法的典型应用，通过挖掘用户的特征，如性别、年龄、收入情况和爱好等特征，推荐用户可能购买的商品，做到个性化推荐。
到了这一步，我们终于把商品放到了购物车里，开始下单。下单之前我们发现网银账户中的钱不够用了，想申请一些贷款。这个时候，我们发现有一个贷款额度，这个额度是如何计算的呢?这里面涉及金融风控的问题，而融风控也是根据机器学习的算法来训练模型并且计算出来的。
下单之后我们的商品就被安排配送了，目前除了少数边远地区，基本上5天之内就可以收到商品。这段时间包含了商品的包装、从库存发货到中转库存、从低级仓库到高级合库配送、向下分发。这么多工序之所以能够在短时间内完成，是因为仓储在库存方面已经提前做了看求量预测，提前在可能的需求地附近备货，这套预测算法也是建立在机器学习算法基础之上的。
我们的快递员拿到货物，打开地图导航，系统已经为他设计了配送的路径，这个路径避免了拥堵而且尽量把路线设计到最短距离，这也是通过机器学习算法来计算的。快递员走进门，我们拿到货物后，发现衣服的尺码不合适怎么办?打开客服，输入问题，然后我们发现可以瞬间得到回复，因为这名客服人员可能并不是真的“客服人员"，只是一个客服机器人而已。智能客服系统利用文本的语意分析算法，可以精准地确定用户的问题，并且给予相应问题的解答。同时，智能客服还可以对用户问题的语境进行分析，如果问题很严重需要赔偿，如:“你的产品害我坏肚子了”这样的问题会由客服机器人通过情感分析挑出来，交给专人处理。
如上所述，笔者简单列举了机器学习在网上购物中的几大应用，这里面涉及了很多智能算法，包括模型的训练和预测、语义分析、文本情感分析、图像识别技术以及语音识别技术。我们可以看到，在网购这种最常见的场景下，机器学习算法几乎贯穿了全部流程。
当然，我们还可以列举出非常多诸如上述例子，因为场景实在太多了，没有办法全部穷举出来，这里通过场景来切分把机器学习的一些高频场景列举如下。

聚类场景:人群划分和产品种类划分等。
分类场景:广告投放预测和网站用户点击预测等。
回归场景:降雨量预测、商品购买量预测和股票成交额预测等。
文本分析场景:新闻的标签提取、文本自动分类和文本关键信息抽取等。
关系图算法:社交网络关系(SocialNetworkSite，SNS)网络关系挖掘和金融风险控制等。
模式识别:语音识别、图像识别和手写字识别等。

上面列举的应用只是机器学习算法应用场景中的一小部分，其实随着数据的积累,机器学习算法是可以渗透到各行各业当中，并且在行业中发生巨大的作用。随着数据智能、数据驱动等思想的传播,机器学习算法正在成为一种普世的基础能力向外输出。我们可以预见未来随着算法和计算能力的发展，机器学习应该会在金融、医疗、教育、安全等各个领域有更深层次的应用。笔者特别期待机器学习算法在破解基因密码以及癌症攻破方面可以取得突破，同时无人车、增强现实(Augmented Realiy，AR)等新概念、新技术的发展也需要依赖于机器学习算法的发展。相信未来，机器学习算法会真正做到颠覆生活改变人类命运。