spark-峰会机器学习概念2
复习概念2
概念
* 矩阵运算
* 支持向量库
* slad
* glm 泛华的线性模型
* lasso linear
* 梯度gradient+ updater 决定算法
* gini entropy 分类 variance回归
优化算法: sgd:随机梯度下降 计算 l-bfgs: 牛顿方法 收敛少
采样更新:LDA: gibbs sampling
工具: loader: 读数据用的。
mllib逻辑:
统计 计算 可用性
统计次数高 收敛快 迭代多 方法简单
step:放参数 训练 收参数
1:共享内存 concurrency control(交换律结合律) 2:复制 3、切分 4. parameter server: 单点、p2p
实践:sparkals: m大矩阵
update: 等待更新收回来BSP ssp 不等训练完就更新 grind simd() u矩阵和看不见的v矩阵
不用广播和大矩阵
als making out block LDA :采样
收集参数:
异构 rddcache gc 参数调优 code
集中式采样
采样 矩阵稀疏问题 稠密问题
clinet和sever哪个好? ha? shell?