机器学习算法实践-Platt SMO和遗传算法优化SVM-36大数据

36大数据 • 8年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

机器学习算法实践-Platt SMO和遗传算法优化SVM-36大数据

作者：伯乐在线 – iPytLab

前言

之前实现了简单的SMO算法来优化SVM的对偶问题，其中在选取 α 的时候使用的是两重循环通过完全随机的方式选取，具体的实现参考《机器学习算法实践-SVM中的SMO算法》。

本文在之前简化版SMO算法的基础上实现了使用启发式选取 α 对的方式的Platt SMO算法来优化SVM。另外由于最近自己也实现了一个遗传算法框架GAFT，便也尝试使用遗传算法对于SVM的原始形式进行了优化。

对于本文算法的相应实现，参考: https://github.com/PytLab/MLBox/tree/master/svm
遗传算法框架GAFT项目地址: https://github.com/PytLab/gaft

正文

SMO中启发式选择变量

在SMO算法中，我们每次需要选取一对 α 来进行优化，通过启发式的选取我们可以更高效的选取待优化的变量使得目标函数下降的最快。

针对第一个 α1 和第二个 α 2 Platt SMO采取不同的启发式手段。

第一个变量的选择

第一个变量的选择为外循环，与之前便利整个 α α 列表不同，在这里我们在 整个样本集 和 非边界样本集 间进行交替:

首先我们对整个训练集进行遍历, 检查是否违反KKT条件，如果改点的 α i αi 和 x i , y i xi,yi 违反了KKT条件则说明改点需要进行优化。
Karush-Kuhn-Tucker(KKT)条件是正定二次规划问题最优点的充分必要条件。针对SVM对偶问题，KKT条件非常简单:
在遍历了整个训练集并优化了相应的 α 后第二轮迭代我们仅仅需要遍历其中的非边界 α . 所谓的非边界 α 就是指那些不等于边界0或者C的 α 值。同样这些点仍然需要检查是否违反KKT条件并进行优化.

之后就是不断地在两个数据集中来回交替，最终所有的 α 都满足KKT条件的时候，算法中止。

为了能够快速选取有最大步长的 α ，我们需要对所有数据对应的误差进行缓存，因此特地写了个 SVMUtil 类来保存svm中重要的变量以及一些辅助方法:

机器学习算法实践-Platt SMO和遗传算法优化SVM-36大数据

下面为第一个变量选择交替遍历的大致代码，相应完整的Python实现(完整实现见 https://github.com/PytLab/MLBox/blob/master/svm/svm_platt_smo.py ):

机器学习算法实践-Platt SMO和遗传算法优化SVM-36大数据

第二个变量的选择

SMO中的第二个变量的选择过程为内循环，当我们已经选取第一个 α 1 之后，我们希望我们选取的第二个变量 α2 优化后能有较大的变化。根据我们之前推导的式子

机器学习算法实践-Platt SMO和遗传算法优化SVM-36大数据

可以知道，新的 α2 的变化依赖于 | E 1 − E 2 | , 当 E 1 为正时，那么选择最小的 E i 作为 E 2 ，通常将每个样本的 E i 缓存到一个列表中，通过在列表中选择具有 | E 1 − E 2 | 的 α 2 来近似最大化步长。

有时候按照上述的启发式方式仍不能够是的函数值有足够的下降，这是按下述步骤进行选择:

在非边界数据集上选择能够使函数值足够下降的样本作为第二个变量
如果非边界数据集上没有，则在整个数据仅上进行第二个变量的选择
如果仍然没有则重新选择第一个 α1

第二个变量选取的Python实现:

机器学习算法实践-Platt SMO和遗传算法优化SVM-36大数据

KKT条件允许一定的误差

在Platt论文中的KKT条件的判断中有一个tolerance允许一定的误差，相应的Python实现：

关于Platt SMO的完整实现详见: https://github.com/PytLab/MLBox/blob/master/svm/svm_platt_smo.py
针对之前的数据集我们使用Platt SMO进行优化可以得到：

将分割线和支持向量可视化：

机器学习算法实践-Platt SMO和遗传算法优化SVM-36大数据

可见通过Platt SMO优化出来的支持向量与简化版的SMO算法有些许不同。

使用遗传算法优化SVM

由于最近自己写了个遗传算法框架，遗传算法作为一个启发式无导型的搜索算法非常易用，于是我就尝试使用遗传算法来优化SVM。

使用遗传算法优化，我们就可以直接优化SVM的最初形式了也就是最直观的形式:

机器学习算法实践-Platt SMO和遗传算法优化SVM-36大数据

顺便再安利下自己的遗传算法框架，在此框架的帮助下，优化SVM算法我们只需要写几十行的Python代码即可。其中最主要的就是编写适应度函数，根据上面的公式我们需要计算数据集中每个点到分割线的距离并返回最小的距离即可，然后放到遗传算法中进行进化迭代。

遗传算法框架GAFT项目地址: https://github.com/PytLab/gaft , 使用方法详见README。

Ok，我们开始构建种群用于进化迭代。

创建个体与种群

对于二维数据点，我们需要优化的参数只有三个也就是 [ w 1 , w 2 ] 和 b , 个体的定义如下:

种群大小这里取600，创建种群

创建遗传算子和GA引擎

这里没有什么特别的，直接使用框架中内置的算子就好了。

机器学习算法实践-Platt SMO和遗传算法优化SVM-36大数据

适应度函数

这一部分只要把上面svm初始形式描述出来就好了，只需要三行代码:

机器学习算法实践-Platt SMO和遗传算法优化SVM-36大数据

开始迭代

这里迭代300代种群

绘制遗传算法优化的分割线

机器学习算法实践-Platt SMO和遗传算法优化SVM-36大数据

得到的分割曲线如下图：

机器学习算法实践-Platt SMO和遗传算法优化SVM-36大数据

完整的代码详见: https://github.com/PytLab/MLBox/blob/master/svm/svm_ga.py

总结

本文对SVM的优化进行了介绍，主要实现了Platt SMO算法优化SVM模型，并尝试使用遗传算法框架GAFT对初始SVM进行了优化。

End.

转载请注明来自36大数据（36dsj.com)： 36大数据 » 机器学习算法实践-Platt SMO和遗传算法优化SVM

随意打赏

博大数据 CEO 张永健：资本追逐、政策红利、人才短缺，东南亚智算市场是机会还是陷阱？丨智算想象力十人谈

雷锋网 • 1月前

在菲律宾首都马尼拉，一座机柜数量超过3600台的融合智算中心矗立于其核心地带，这是当地城区最大的智算中心之一，也是博大数据这家中国IDC厂商出海的起点。为什么选择菲律宾？ “东南亚是智算中心出海的必争之地，而菲律宾是出海的第一站。首先，菲律宾是人口大国，数字化转型正在加速，各个产业都在高速增长；其次，政府积极推
共筑智算新高地，九章云极携手扬州大数据集团、扬州广陵新城投资发展集团达成战略合作

砍柴网 • 1月前

近日，由扬州市国资委、广陵区委、区政府联合主办的“科创扬杭・商旅未来”扬州（杭州）产业专题招商合作交流会在杭州举行。大会现场，九章云极DataCanvas公司与扬州大数据集团、扬州广陵新城投资发展集团正式签署战略合作协议。三方将携手打造具备高性能、高可用、高易用的
水滴信用：专业企业大数据MCP服务商提供多类型多数据维度企业信息MCP

砍柴网 • 2月前

当前是信息爆炸的数字经济时代，工商变更、司法风险、知识产权布局、招投标动态、经营状况……这些关键信息往往沉睡在彼此割裂的系统中，如何将这些流动的战略资产看透、研究透、运用好是各行业都在思考的问题。水滴信用作为官方备案的企业征信机构，专业的企业信息商查平台，凭借深厚的数据底蕴与前沿的大模型技
王宏主持召开2025中国国际大数据产业博览会及近期重点文体旅活动筹备工作调度会

数据观 • 2月前

8月24日，市委副书记、市长王宏主持召开2025中国国际大数据产业博览会及近期重点文体旅活动筹备工作调度会。他强调，要深入学习贯彻习近平总书记在贵州考察时的重要讲话精神，认真落实全省数字经济发展推进大会安排部署，科学统筹、精益求精、抓实抓细，全力以赴做好筹备工作，确保各项活动安全顺利精彩举办。市人大常委会副主任刘俐莎，
2025中国国际大数据产业博览会筹备工作调度会召开

数据观 • 2月前

8月12日，2025中国国际大数据产业博览会筹备工作调度会召开。省委常委、市委书记胡忠雄主持，副省长罗强讲话。省大数据局局长朱宗尧，省委宣传部副部长、省政府新闻办主任陈本荣，省外事办党组成员、省对外友协专职副会长蒋红，省大数据局党组成员、省信息中心党委书记焦德禄，市领导刘本立、刘俐莎、付涛参加。胡忠雄指出，数博会筹备工
卖家精灵8月底将亮相长沙&郑州跨境展会，以AI+大数据赋能华中跨境新机遇！

乐购科技 • 2月前

用AI赋能选品决策，用定制水传递品牌温度，卖家精灵始终与跨境卖家并肩同行。据悉，8月底跨境电商行业将迎来两场重量级盛会——2025中国（郑州）国际跨境电商展览会和湖南（长沙）跨境电商交易会。作为亚马逊官方认证的SPN/TSPN服务商，卖家精灵将深度参与这两场展会，为现场卖家带来最新AI功能、数据化运营解决方案及行业趋势
每日互动AI一体机GAI Station：安全融合大模型与大数据高效驱动企业业务增长

砍柴网 • 3月前

当前，大模型从技术热点迈向产业应用，真正的挑战浮出水面：高昂的私有化部署成本令人却步，云端调用又使敏感数据如履薄冰。企业渴望深度融入大模型能力，却常遭遇“水土不服”。如何将海量、分散的企业数据安全高效地转化为智能生产力？每日互动推出GAI Station个知·智能工作站，基于20年数据智能服务经验与行业Know-How
每日互动联手济南大数据集团共筑数据要素安全流通新生态

砍柴网 • 4月前

7月7日,每日互动股份有限公司与济南大数据集团有限公司正式签署战略合作协议,在共建济南城市可信数据空间,打造“济南发数站”,推动数据要素市场化运营等方面达成战略合作。济南能源集团党委书记、董事长兼济南大数据集团董事长潘世英,济南能源集团党委委员、副总经理兼济南大数据集团总经理刘英华,每日互动董事长方毅,每日互动首席数据
深挖大数据价值，共探数智新未来——2025全球数字经济大会大数据创新应用论坛成功召开

雷锋网 • 4月前

雷峰网讯 7月2日，以“深挖大数据价值激发数字经济新动能”为主题的2025全球数字经济大会大数据创新应用论坛在北京国家会议中心成功召开。作为2025大会的重要组成部分，大数据创新应用论坛汇聚了政产学研用多方力量，全面围绕人工智能驱动的大模型应用、隐私计算与数据安全治理、大数据赋能产业数字化转型等议题展开深入研讨，为构
重磅发布 | 城农商数字化指南：拥抱AI+大数据，7天装上营销大脑！

砍柴网 • 4月前

此前，中国人民银行等七部门联合印发《推动数字金融高质量发展行动方案》，明确指出要以数据要素和数字技术为关键驱动，加快推进金融机构数字化转型，2027年底基本建成与数字经济发展高度适应的金融体系，金融机构数字化转型取得积极成效，数字化经营管理能力明显增强。

评论