`
coderplay
  • 浏览: 571320 次
  • 性别: Icon_minigender_1
  • 来自: 广州杭州
社区版块
存档分类
最新评论

SVM的并行化

阅读更多

目前我在SVM的并行化方面已经有解法. SVM在数学上的本质是凸优化理论, 可以有很多种解法。 它的问题具有对偶性, 从原问题出发和从对偶问题出发。传统SVM在大数据集下,它的核矩阵要占用的内存非常大,呈平方地递增。 也就是说1000个数据占用的内存会是100个数据占用的内存的100 倍。为了解决此问题,涉及到SVM的分解,极端的情况下是使用SMO算法,这也是目前SVM最流行的解法。 SMO算法每次只求目标函数的两个alpha值,具有占用内存较小,收敛得比较快的优势。 但在并行上,不是很好做,因为后一步的alpha值依赖前一步的alpha值,前后数据依赖性比较强, 我一直到今年2月中旬左右才从理论上解决此问题。但是,我觉得SMO算法迭代次数太多, 现在我的做法不够完善。


我有几条思路可以完善目前的理论
1. cutting-plane能减少迭代的次数,但cutting-plane一样具有数据依赖性较强的问题,所以我还没有解决。
2. 对比较稀疏的,但维数非常大的数据,例如文本数据,可以用线性SVM代替二次SVM, 因为理论已经证明两者的精度相差不大。但速度上线性SVM要快几个数量级。
3. 从原问题出发,使用内点法。通过矩阵的分解, 使用Incomplete Cholesky Factorization将矩阵分解为两个较小矩阵的乘积, 分布这两个矩阵。

以上提出的思路涉及很多数学原理,我正在看convex optimization这本书,希望能有点收获。SVM根据loss函数,可以分为L1-SVM和L2-SVM。 2007年, Bottou提出了一种梯度下降的方法解决L1-SVM, 2008年Collins 提出了另一种exponentiated梯度下降方法.2008年台湾大学的林智仁教授提出了trust region Netton method(TRON)解决L2-SVM。 目前的SVM算法空前繁盛,我使用了08年末林智仁教授的学生提出另一种串行的梯度下降算法(A Dual Coordinate Desent Method for Large-scale Linear SVM),可以在几十秒之内,对19000个英文新闻进行分类训练, 精度达到96.7%,而 使用SMO算法,我的机器不够内存(2.5GB RAM),理论上最少也要跑几个小时。它的算法前后数据依赖性非常强,目前我没法把它并行。

以上提出的三条思路,我觉得第1,2条更能达到我的目的,而且效果更好,我正在补数学上的不足,大概有700页左右的数学理论要看。目前我收集的理论资料有229m,我看过其中的一半左右,因为文章过多,所以没有在这里列出来。

有哪位xdjm对这方面比较感兴趣,有自己的见解,请与我联系: coderplay@gmail.com

分享到:
评论
1 楼 conservatism 2009-03-15  

相关推荐

    论文研究-基于Hadoop的SVM并行化文本分类研究与实现 .pdf

    基于Hadoop的SVM并行化文本分类研究与实现,吴泽伦,郑岩,支持向量机(SVM )已成为一种非常流行的分类工具,但支持向量机算法的主要缺点是当它处理的数据集规模很大时需要较大内存和训练��

    基于CUDA的SVM算法并行化研究 (2013年)

    在SVM算法并行化研究中,首先对SVM算法进行分析研究,提出了基于CUDA的SVM算法并行化方案;其次,进一步研究海量数据的处理,提出海量数据处理的并行化方案;最后,通过实验分析对比了并行化算法的性能。

    论文研究-基于Hadoop平台的SVM_WNB分类算法的研究.pdf

    针对这些问题,这里对传统的朴素贝叶斯算法进行了分析和改进,提出了SVM_WNB分类算法,并且在Hadoop云平台上对算法实现并行化处理,使其能够对大数据进行处理。实验验证,改进后的算法在准确性和效率等方面有明显...

    cpp-LIBIRWLS一个训练半参数化的支持向量机SVM的快速并行机器学习库

    LIBIRWLS:一个训练半参数化的支持向量机(SVM)的快速并行机器学习库。

    论文研究-基于SVM信息融合的图像识别与并行实现.pdf

    该算法首先采用一种初值化算法确定合适的遗传算法的初始搜索范围,然后对遗传算法中的编码方式、交叉算子、变异算子等参数进行了一些适当改进,进而给出了该算法的理论推导和算法的具体实现步骤。该算法除了解决模糊...

    基于MATLAB的SVM支持向量机的数据分类,包括训练,测试,以及数据库

    基于MATLAB的SVM支持向量机的数据分类,包括训练,测试,以及数据库 B.程序实现流程: 第一步: 为了简化计算,可对得到的图像特征数据进行标准化 将数据通过函数变换映射到[0.1,1] 第二步: 图像特征集合中信息特征...

    基于SVM的多类文本分类研究

    本文在中文文本自动分类的基础上对文本多类分类方面做了一些有益的探索,对中 文文本分类的相关技术—中文分词、文本表示、特征提取、分类算法、可视化等方面做 了一些研

    论文研究-随机特征上一致中心调节的支持向量机.pdf

    提出一致中心调节的并行化方法。具体地,将数据集划分成若干子数据集,多个进程并行地在各自的子数据集上独立训练SVM。当各个子数据集上的最优超平面即将求出时,用由各个子集上获得的一致中心解取代当前解,继续在...

    基于GPU的并行支持向量机的设计与实现

    3.根据SVM训练和预测算法中的并行点,提出了用于多类分类器的并行支持向量 机算法。通过分别对SVM训练算法、预测算法和涉及的矩阵运算分别采用并行运算, 提高了多核计算机的运算效率,加快了SVM分类器的训练过程。...

    基于LS-SVM的传感器阵列多维信号智能提取方法研究 (2010年)

    提出一种基于最小二乘支持向量机(LS-SVM)的传感器阵列输入信号逆向提取智能方法,该方法基于结构风险最小化,能够逼近任意复杂的非线性关系且泛化能力强。仿真试验表明,该方法具有拟合精度高、运算速度快、容易...

    通过对随机特征进行共识中心调整来支持向量机

    然后,提出一致中心调节的并行化方法。具体地,将数据集划分成若干子数据集,多个进程并行地在各自的子数据集上独立训练 SVM。当各个子数据集上的最优超平面即将求出时,用由各个子集上获得的一致中心解取代当前解,...

    基于粒子群算法与图形处理器加速的支持向量机参数优化方法 (2013年)

    支持向量机(support ...并利用图形处理器(graphics processing unit,GPU)并行化处理能力计算每个参数的分类准确率,从而提升了在一定的搜索空间内寻找最佳参数组合的计算速度.对UCI数据进行实验,对比结果显示,

    《MATLAB 神经网络43个案例分析》源代码.zip

    第17章 基于SVM的信息粒化时序回归预测——上证指数开盘指数变化趋势和变化空间预测 第18章 基于SVM的图像分割-真彩色图像分割 第19章 基于SVM的手写字体识别 第20章 LIBSVM-FarutoUltimate工具箱及GUI版本介绍与...

    dpsvm:使用 OpenMPI 和 CUDA 的支持向量机的分布式实现

    我们将 LIBSVM 等流行工具使用的修改后的顺序最小优化算法并行化,并将并行性分布在集群中的 GPU 上。 依赖关系 表现DPSVM在单个 Nvidia GTX 780 GPU 上的奇偶数据集上的训练耗时137 秒。 当在与以太网骨干网连接的...

    《MATLAB 神经网络43个案例分析》源代码&数据.rar

    第17章 基于SVM的信息粒化时序回归预测——上证指数开盘指数变化趋势和变化空间预测 第18章 基于SVM的图像分割-真彩色图像分割 第19章 基于SVM的手写字体识别 第20章 LIBSVM-FarutoUltimate工具箱及GUI版本介绍与...

    《MATLAB 神经网络43个案例分析》源代码&数据.zip

    第17章 基于SVM的信息粒化时序回归预测——上证指数开盘指数变化趋势和变化空间预测 第18章 基于SVM的图像分割-真彩色图像分割 第19章 基于SVM的手写字体识别 第20章 LIBSVM-FarutoUltimate工具箱及GUI版本介绍与...

    MATLAB神经网络43个案例分析

    第17章 基于SVM的信息粒化时序回归预测——上证指数开盘指数变化趋势和变化空间预测 第18章 基于SVM的图像分割-真彩色图像分割 第19章 基于SVM的手写字体识别 第20章 LIBSVM-FarutoUltimate工具箱及GUI版本介绍与...

    MATLAB 神经网络43个案例分析》源代码&数据.

    第17章 基于SVM的信息粒化时序回归预测——上证指数开盘指数变化趋势和变化空间预测 第18章 基于SVM的图像分割-真彩色图像分割 第19章 基于SVM的手写字体识别 第20章 LIBSVM-FarutoUltimate工具箱及GUI版本介绍与...

    MATLAB 神经网络43个案例分析

    第17章 基于SVM的信息粒化时序回归预测——上证指数开盘指数变化趋势和变化空间预测 第18章 基于SVM的图像分割-真彩色图像分割 第19章 基于SVM的手写字体识别 第20章 LIBSVM-FarutoUltimate工具箱及GUI版本介绍与...

    《MATLAB 神经网络43个案例分析》源代码&数据

    第17章 基于SVM的信息粒化时序回归预测——上证指数开盘指数变化趋势和变化空间预测 第18章 基于SVM的图像分割-真彩色图像分割 第19章 基于SVM的手写字体识别 第20章 LIBSVM-FarutoUltimate工具箱及GUI版本介绍与...

Global site tag (gtag.js) - Google Analytics