浪潮集群上使用Hadoop和Spark

发表于 2018-08-01 | 分类于大数据 | 评论数： | 阅读次数：

忙活了半天，终于在实验室的浪潮集群中配置好了hadoop和spark，以后能用配置这么高的服务器了，想想就好开心~

阅读全文 »

Spark MLlib中ALS交替最小二乘法推荐算法的使用

发表于 2018-07-26 | 分类于大数据 | 评论数： | 阅读次数：

ALS(Alternating Least Square)，交替最小二乘法。在机器学习中，特指使用最小二乘法的一种协同推荐算法。本文通过代码来演示用spark运行ALS算法的一个小例子。

阅读全文 »

Spark MLlib中FPGrowth关联规则算法的使用

发表于 2018-07-21 | 分类于大数据 | 评论数： | 阅读次数：

FPGrowth（频繁模式增长）是一种关联规则分析算法，本文通过代码演示用spark运行FPGrowth算法的一个小例子。

阅读全文 »

Spark MLlib中KMeans聚类算法的使用

发表于 2018-07-15 | 分类于大数据 | 评论数： | 阅读次数：

KMeans是一种典型的聚类算法，本文通过代码来演示用spark运行KMeans算法的一个小例子。

阅读全文 »

基于Spark的学生成绩分析系统

发表于 2018-06-20 | 分类于大数据 | 评论数： | 阅读次数：

本文是本人硕士期间云计算课程的一次大作业，所以可能部分内容有充字数的嫌疑，还望各位看官无视。。。但是也正因为此，本文对一些基础概念描述的也挺详细，包括但不限于Spark简介、Spark与Hadoop对比、Spark架构介绍、Pearson相关系数简介、Spark中的combineByKey函数详解、Spark集群中提交并运行作业的方法等。

阅读全文 »