大数据时代的算法:机器学习、人工智能及其典型实例
来源:数据猿 作者:abby
中国在很早就开始了算法研究,如《周髀算经》《九章算术》这类最具历史的算法书籍,后来的唐宋元明清各历史朝代也出现了《一位算法》《算法绪论》《算法全书》《算法统宗》等一系列算法名著,算法已经成为各行各业的基础研究。
今天,小编为大家推荐的 《大数据时代的算法:机器学习、人工智能及其典型实例》 就主要介绍了在互联网行业中经常涉及的算法,包括排序算法、查找算法、资源分配算法、路径分析算法、相似度分析算法,以及与机器学习相关的算法,包括数据分类算法、聚类算法、预测与估算算法、决策算法、关联规则分析算法及推荐算法。《大数据时代的算法:机器学习、人工智能及其典型实例》涉及的相关算法均为解决实际问题中的主流算法,对于工作和学习都有实际参考意义。
《大数据时代的算法:机器学习、人工智能及其典型实例》通过介绍在互联网行业中经常涉及的算法,包括排序算法、查找算法、资源分配算法、路径分析算法、相似度分析算法,以及与机器学习相关的算法,包括数据分类算法、聚类算法、预测与估算算法、决策算法、关联规则分析算法及推荐算法。本书是一本算法领域内的技术手册,涵盖数十种算法,不仅能使读者深入了解各类算法的基本理论,还从应用的角度提供了大量实例,使读者能够快速、高效进阶各类算法,并能够熟练应用到将来的工作实践中。
本书特色
本书不仅将目前工程应用中主流的基础算法和机器学习算法都做了详尽的介绍,还囊括了当前热门算法内容,如数据分类算法、聚类算法、推荐算法等。本书充分利用了最新算法的应用研究结果,通过实例为读者展现了清晰的算法应用,不拘泥于算法枯燥的理论,更多地从实用价值、工程价值的角度将算法知识呈现给读者。
本书中的算法可以广泛应用于各个领域,可以在自然语言处理研究、数据分析与挖掘、商务智能、广告与商品推荐等领域中深入应用。作者秉承数据结合算法产生价值的理论体系,在介绍算法的同时与数据紧密关联,并结合多年实际工作经验,将算法的内容阐述得淋漓尽致。本书中的算法研究在当前甚至未来相当一段时间内都具有很大的实际意义。
本书从内容上分为10个章节:
第1章 算法基础
从算法的分析类型,如分治法、动态规划法、回溯法、分支限界法、贪心法入手开始介绍算法内容,还分析了算法的性能,并介绍了概率论与数理统计基础部分的内容。同时,对算法中常用的距离计算算法、排序算法及字符串压缩编码也做了完整介绍。
第2章 数据查找与资源分配算法
以数据的查找和资源分配作为突破口,介绍了常用的数值查找算法,如二分搜索算法、分块查找及哈希查找算法。除此之外,还介绍了常见的字符串查找算法及在海量数据中的查找算法:布隆过滤器和倒排索引查找,介绍了资源分配算法,包括常用的银行家算法和背包问题的解决算法。
第3章 路径分析算法
主要介绍了路径分析算法,包括基于Dijkstra算法、Floyd算法、A*算法的路径分析方法。除了介绍传统的路径分析算法外,还介绍了维特比算法在概率中的路径选择,以及最长公共子串、最长公共子序列问题的求解算法。整个内容涵盖了绝大部分的路径选择算法。
第4章 相似度分析算法
主要介绍了相似内容的分析理论和应用,从简单的Jaccard相似系数开始入手,逐步深入到基于MinHash的相似性算法以及向量空间模型,向量空间模型已经成为众多算法的基础理论。后续还深入介绍了基于余弦相似性算法和基于语义主题模型的语义相似度算法,以及基于SimHash的指纹码重复值验证算法。
第5章 数据分类算法
集中介绍了数据分类算法的解决方案,从简单易于理解的朴素贝叶斯模型开始,由浅入深地介绍了AdaBoost分类器及支持向量机,它们都是数据分类的有效解决方案,还对机器学习的相关基础知识做了概要介绍,最后介绍了K邻近算法在数据分类中的应用。
第6章 数据聚类算法
介绍了数据聚类的相关算法,其中,无监督的聚类算法目前是比较热门的研究领域。首先介绍了传统的基于系统聚类的方法;然后介绍了基于KMeans聚类算法及基于密度的DBSCAN算法;最后介绍了基于BIRCH算法的聚类分析,通过聚类特征及聚类特征实现数据聚类。
第7章 数据预测与估算算法
介绍了数据的预测和估算的算法体系和应用范例,从产生式模型和判别式模型入手介绍各类模型的方法论。首先介绍了基于最大似然估计的预测以及基于线性回归的估算、基于最大期望算法;然后介绍了基于隐马尔科夫模型模型预测;最后介绍了基于条件随机场的序列预测。
第8章 数据决策分析算法
对数据决策的分析方法做了详细介绍,主要围绕决策树的理论基础展开。首先介绍了基于ID3算法的决策分析,包括信息熵、信息增益等;然后介绍了基于C4.5算法的分类决策树及基于分类回归树的决策划分;最后介绍了基于随机森林的决策分类。介绍过程中包含了大量实例。
第9章 数据关联规则分析算法
主要介绍了关联规则分析方法的理论和实践。Apriori算法作为最常用的关联规则分析算法已经被广泛应用到各个领域,本章也对Apriori算法进行了深入的介绍,并对和Apriori算法同等重要的FPGrowth算法也通过实例做了详细介绍。本章最后还介绍了利用倒排文件思想的Eclat算法。
第10章 数据与推荐算法
主要介绍了数据与推荐算法中的应用关系,推荐算法作为目前各行各业最热门的算法之一,已经应用非常广泛。本章介绍了基于物品本身属性关系的ItemBased协同过滤推荐算法,以及基于UserBased协同过滤推荐算法。除此之外,还介绍了基于流行度和潜在因子的推荐算法,以及推荐算法的效果评估相关内容。
适读人群:
对基本算法和机器学习算法有兴趣的读者;
对数据分析和统计学有兴趣的读者;
对算法有研究的基础算法、机器学习工程师;
互联网行业的不同层次从业者;
软件或计算机专业的在校大学生。