秋招差不多可以告一段落了,简单记录一下吧。
TensorFlow进一步优化神经网络
在本站的这篇文章《TensorFlow实现简单神经网络》中,我们用TensorFlow实现了对MINST手写数字集的分类,分类的准确率达到了91%,本文中将优化此神经网络,将准确率提升至98%以上。
TensorFlow实现简单神经网络
在上文(《TensorFlow快速上手》)中,我们介绍了TensorFlow中的一些基本概念,并实现了一个线性回归的例子。
本文我们趁热打铁,接着用TensorFlow实现一下神经网络吧。
TensorFlow中的神经网络可以用来实现回归算法和分类算法,本文将分别给出实现这两种算法的代码。除此之外,还将介绍一个TensorFlow中重要且常用的概念——placeholder(占位符),和一个著名的数据集:MINST数据集。
TensorFlow快速上手
TensorFlow是目前很火的一款深度学习框架,其源码是用C++写的,保证了运行速度,其又提供了Python的接口,大大降低了程序猿们学习新语言的成本,所以在深度学习领域广为流行。
但是很多人在初学TensorFlow时会觉得有些难以入手,霎时间接触诸如张量、图、会话等概念会有点吃力,所以本文将介绍如何快速入门TensorFlow并上手写代码,一边实践一边理解概念,提升学习速度。
校招作业之小型文本预处理器
前段时间做了一道有趣的校园招聘的作业题,要求做一个小型文本预处理器,题目看似简单,实际做起来还是挺有挑战性的。现在早已经过了该公司的作业提交时间,所以将此文放出来,如果该公司认为侵权了,可联系本人,本人将删除文章。
Xv6学习小记(二)——多核启动
在上文(Xv6学习小记(一)——编译与运行)中,我们介绍了Linux下编译运行Xv6系统的方式。
本文将介绍Xv6是如何多核启动的,涉及到的内容有:Xv6多核启动的大致步骤、Xv6检测CPU个数的方法和Xv6发送中断的方法等。
Spark ML中Pipeline、特征转换和决策树分类算法的使用
Spark中有关机器学习的库已经在从MLlib往ML逐步迁移了,MLlib库也将在Spark 3.0后停止维护,所以我们需要尽快熟悉ML库。
在Spark ML库中,核心数据对象由RDD变为了DataFrame,同时,ML库中有一些特征转换的方法,并提供了Pipeline这一工具,可以使用户很方便的将对数据的不同处理组合起来,一次运行,从而使整个机器学习过程变得更加易用、简洁、规范和高效。
本文将介绍使用Pipeline对数据进行特征转换后运行决策树分类算法的小例子。
Spark读取文本文件并转换为DataFrame
Spark ML里的核心API已经由基于RDD换成了基于DataFrame,为了使读取到的值成为DataFrame类型,我们可以直接使用读取CSV的方式来读取文本文件,可问题来了,当文本文件中每一行的各个数据被不定数目的空格所隔开时,我们无法将这些不定数目的空格当作CSV文件的分隔符(因为Spark读取CSV文件时,不支持正则表达式作为分隔符),一个常用方法是先将数据读取为rdd,然后用map方法构建元组,再用toDF方法转为DataFrame,但是如果列数很多的话,构建元组会很麻烦。本文将介绍spark读取多列txt文件后转成DataFrame以供一些数据源使用的三种方法。
Spark中基于神经网络的MLPC(多层感知器分类器)的使用
MLPC(Multilayer Perceptron Classifier)
,多层感知器分类器,是一种基于前馈人工神经网络(ANN)的分类器。Spark中目前仅支持此种与神经网络有关的算法,在ord.apache.spark.ml
中(并非mllib
)。本文通过代码来演示用Spark运行MLPC的一个小例子。