lstmjava的简单介绍

admin 2023-03-22 01:24:10 3238

本篇文章给大家谈谈lstmjava，以及对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。

本文目录一览：

1、大数据开发工程师需要具备哪些技能？
2、程序员为什么要学深度学习
3、北大青鸟java培训：物联网的发展有哪些影响作用？
4、人工神经网络概念梳理与实例演示
5、自然语言处理（NLP）的基础难点：分词算法
6、如何在Python中用LSTM网络进行时间序列预测

大数据开发工程师需要具备哪些技能？

可以根据招聘要求学习:

1、

o展示构建大数据解决方案的经验。Hadoop生态圈体验:Hadoop、Spark、MapReduce、Hive/Pig、Yarn、HBase等

o有使用RDBMS和NoSQL栈的经验(ElasticSearch, HBase, Cassandra)

o具备良好的Python统计和科学编程能力

o有数据可视化工具使用经验:Hue, Kibana, Qlikview, Tableau优先

对数据科学概念有良好的理解，并强调机器学习技术的优先考虑

o能够独立解决问题，积极主动，自我指导

o敏捷/Scrum开发方法经验

o软件测试知识，包括黑盒测试和白盒测试方法，以及功能测试和非功能测试

2、熟练Java/Scala/Python/go等一种或多种编程语言

熟练SparkStructuredStreaming和Flink等流计算引擎，有实际项目经验者优先

熟悉kafka,hadoop，zk,HBase，elasticsearch,clickhouse，Druid等大数据技术,有实际项目经验者优先

了解并行计算或者分布式计算原理，了解数据仓库相关知识优先

了解常见的机器学习算法，了解CNN/RNN/LSTM/GBDT等算法者优先

程序员为什么要学深度学习

费良宏：程序员为什么要学深度学习？

深度学习本身是一个非常庞大的知识体系。本文更多想从程序员的视角出发，让大家观察一下深度学习对程序员意味着什么，以及我们如何利用这样一个高速发展的学科，来帮助程序员提升软件开发的能力。

本文根据费良宏在2016QCon全球软件开发大会（上海）上的演讲整理而成。

前言

1973年，美国上映了一部热门的科幻电影《WestWorld》，三年之后又有一个续集叫做《FutureWorld》。这部电影在80年代初被引进到中国叫《未来世界》。那部电影对我来讲简直可以说得上是震撼。影片中出现了很多机器人，表情丰富的面部下面都是集成电路板。这让那时候的我觉得未来世界都是那么遥远、那么神秘。

时间到了2016年，很多朋友可能都在追看HBO斥巨资拍摄的同一题材的系列剧《WestWorld》。如果前两部电影还是局限在机器人、人工智能这样的话题，2016年的新剧则在剧情和人工智能的思考方面有了很大的突破。不再渲染机器人是否会威胁到人类，而是在探讨“Dreamsaremainlymemories”这一类更具哲理的问题。

“记忆究竟如何影响了智能”这个话题非常值得我们去思考，也给我们一个很好的启示——今天，人工智能领域究竟有了怎样的发展和进步。

今天我们探讨的话题不仅仅是简单的人工智能。如果大家对深度学习感兴趣，我相信各位一定会在搜索引擎上搜索过类似相关的关键字。我在Google上以deeplearning作为关键字得到了2,630万个搜索的结果。这个数字比一周之前足足多出了300多万的结果。这个数字足以看得出来深度学习相关的内容发展的速度，人们对深度学习的关注也越来越高。

从另外的一个角度，我想让大家看看深度学习在市场上究竟有多么热门。从2011年到现在一共有140多家专注人工智能、深度学习相关的创业公司被收购。仅仅在2016年这种并购就发生了40多起。

其中最疯狂的是就是Google，已经收购了 11 家人工智能创业公司，其中最有名的就是击败了李世石九段的 DeepMind。排名之后的就要数 Apple、Intel以及Twitter。以Intel 公司为例，仅在今年就已经收购了 3 家创业公司，Itseez、Nervana 和 Movidius。这一系列大手笔的并购为了布局人工智能以及深度学习的领域。

当我们去搜索深度学习话题的时候，经常会看到这样的一些晦涩难懂的术语：Gradient descent（梯度下降算法）、Backpropagation（反向传播算法）、Convolutional Neural Network（卷积神经网络）、受限玻耳兹曼机（Restricted Boltzmann Machine）等。

如打开任何一篇技术文章，你看到的通篇都是各种数学公式。大家看到如下左边的图，其实并不是一篇高水准的学术论文，而仅仅是维基百科关于玻耳兹曼机的介绍。维基百科是科普层面的内容，内容复杂程度就超过了大多数数学知识的能力。

在这样的背景之下，我今天的的话题可以归纳成三点：第一，我们为什么要学习深度学习；第二，深度学习最核心的关键概念就是神经网络，那么究竟什么是神经网络；第三，作为程序员，当我们想要成为深度学习开发者的时候，我们需要具备怎样的工具箱，以及从哪里着手进行开发。

为什么要学习深度学习

首先，我们谈谈为什么要学习深度学习。在这个市场当中，最不缺乏的就是各种概念以及各种时髦新技术的词汇。深度学习有什么不一样的地方？我非常喜欢AndrewNg（吴恩达）曾经用过的一个比喻。

他把深度学习比喻成一个火箭。这个火箭有一个最重要的部分，就是它的引擎，目前来看在这个领域里面，引擎的核心就是神经网络。大家都知道，火箭除了引擎之外还需要有燃料，那么大数据其实就构成了整个火箭另外的重要组成部分——燃料。以往我们谈到大数据的时候，更多是强调存储和管理数据的能力，但是这些方法和工具更多是对于以往历史数据的统计、汇总。

而对于今后未知的东西，这些传统的方法并不能够帮助我们可以从大数据中得出预测的结论。如果考虑到神经网络和大数据结合，我们才可能看清楚大数据真正的价值和意义。AndrewNg就曾经说过“我们相信（神经网络代表的深度学习）是让我们获得最接近于人工智能的捷径”。这就是我们要学习深度学习的一个最重要的原因。

其次，随着我们进行数据处理以及运算能力的不断提升，深度学习所代表的人工智能技术和传统意义上人工智能技术比较起来，在性能上有了突飞猛进的发展。这主要得益于在过去几十间计算机和相关产业不断发展带来的成果。在人工智能的领域，性能是我们选择深度学习另一个重要的原因。

这是一段Nvidia在今年公布的关于深度学习在无人驾驶领域应用的视频。我们可以看到，将深度学习应用在自动驾驶方面，仅仅经历了3千英里的训练，就可以达到什么样的程度。在今年年初进行的实验上，这个系统还不具备真正智能能力，经常会出现各种各样的让人提心吊胆的状况，甚至在某些情况下还需要人工干预。

但经过了3千英里的训练之后，我们看到在山路、公路、泥地等各种复杂的路况下面，无人驾驶已经有了一个非常惊人的表现。请大家注意，这个深度学习的模型只经过了短短几个月、3千英里的训练。

如果我们不断完善这种模型的话，这种处理能力将会变得何等的强大。这个场景里面最重要的技术无疑就是深度学习。我们可以得出一个结论：深度学习可以为我们提供强大的能力，如果程序员拥有了这个技术的话，无异于会让每个程序员如虎添翼。

神经网络快速入门

如果我们对于学习深度学习没有任何疑虑的话，接下来就一定会关心我需要掌握什么样的知识才能让我进入到这个领域。这里面最重要的关键技术就是“神经网络”。说起“神经网络”，容易混淆是这样两个完全不同的概念。

一个是生物学神经网络，第二个才是我们今天要谈起的人工智能神经网络。可能在座的各位有朋友在从事人工智能方面的工作。当你向他请教神经网络的时候，他会抛出许多陌生的概念和术语让你听起来云里雾里，而你只能望而却步了。

对于人工智能神经网络这个概念，大多数的程序员都会觉得距离自己有很大的距离。因为很难有人愿意花时间跟你分享神经网络的本质究竟是什么。而你从书本上读的到的理论和概念，也很让你找到一个清晰、简单的结论。

今天就我们来看一看，从程序员角度出发神经网络究竟是什么。我第一次知道神经网络这个概念是通过一部电影——1991年上映的《终结者2》。男主角施瓦辛格有一句台词：

“MyCPUisaneural-netprocessor;alearningcomputer.”（我的处理器是一个神经处理单元，它是一台可以学习的计算机)。从历史来看人类对自身智力的探索，远远早于对于神经网络的研究。

1852年，意大利学者因为一个偶然的失误，将人类的头颅掉到硝酸盐溶液中，从而获得第一次通过肉眼关注神经网络的机会。这个意外加速了对人类智力奥秘的探索，开启了人工智能、神经元这样概念的发展。

生物神经网络这个概念的发展，和今天我们谈的神经网络有什么关系吗？我们今天谈到的神经网络，除了在部分名词上借鉴了生物学神经网络之外，跟生物学神经网络已经没有任何关系，它已经完全是数学和计算机领域的概念，这也是人工智能发展成熟的标志。这点大家要区分开，不要把生物神经网络跟我们今天谈到的人工智能有任何的混淆。

90年代中期，由Vapnik等人提出了支持向量机算法（Support Vector Machines，支持向量机）。很快这个算法就在很多方面体现出了对比神经网络的巨大优势，例如：无需调参、高效率、全局最优解等。基于这些理由，SVM算法迅速打败了神经网络算法成为那个时期的主流。而神经网络的研究则再次陷入了冰河期。

在被人摒弃的十年里面，有几个学者仍然在坚持研究。其中很重要的一个人就是加拿大多伦多大学的Geoffery Hinton教授。2006年，他的在著名的《Science》杂志上发表了论文，首次提出了“深度信念网络”的概念。

与传统的训练方式不同，“深度信念网络”有一个“预训练”（pre-training）的过程，这可以方便的让神经网络中的权值找到一个接近最优解的值，之后再使用“微调”(fine-tuning)技术来对整个网络进行优化训练。这两个技术的运用大幅度减少了训练多层神经网络的时间。在他的论文里面，他给多层神经网络相关的学习方法赋予了一个新名词— “深度学习”。

很快，深度学习在语音识别领域崭露头角。接着在2012年，深度学习技术又在图像识别领域大展拳脚。Hinton与他的学生在ImageNet竞赛中，用多层的卷积神经网络成功地对包含一千个类别的一百万张图片进行了训练，取得了分类错误率15%的好成绩，这个成绩比第二名高了将近11个百分点。

这个结果充分证明了多层神经网络识别效果的优越性。从那时起，深度学习就开启了新的一段黄金时期。我们看到今天深度学习和神经网络的火热发展，就是从那个时候开始引爆的。

利用神经网络构建分类器，这个神经网络的结构是怎样的？

其实这个结构非常简单，我们看到这个图就是简单神经网络的示意图。神经网络本质上就是一种“有向图”。图上的每个节点借用了生物学的术语就有了一个新的名词 – “神经元”。连接神经元的具有指向性的连线（有向弧）则被看作是“神经”。这这个图上神经元并不是最重要的，最重要的是连接神经元的神经。每个神经部分有指向性，每一个神经元会指向下一层的节点。

节点是分层的，每个节点指向上一层节点。同层节点没有连接，并且不能越过上一层节点。每个弧上有一个值，我们通常称之为”权重“。通过权重就可以有一个公式计算出它们所指的节点的值。这个权重值是多少？我们是通过训练得出结果。它们的初始赋值往往通过随机数开始，然后训练得到的最逼近真实值的结果作为模型，并可以被反复使用。这个结果就是我们说的训练过的分类器。

节点分成输入节点和输出节点，中间称为隐层。简单来说，我们有数据输入项，中间不同的多个层次的神经网络层次，就是我们说的隐层。之所以在这样称呼，因为对我们来讲这些层次是不可见的。输出结果也被称作输出节点，输出节点是有限的数量，输入节点也是有限数量，隐层是我们可以设计的模型部分，这就是最简单的神经网络概念。

如果简单做一个简单的类比，我想用四层神经网络做一个解释。左边是输入节点，我们看到有若干输入项，这可能代表不同苹果的RGB值、味道或者其它输入进来的数据项。中间隐层就是我们设计出来的神经网络，这个网络现在有不同的层次，层次之间权重是我们不断训练获得一个结果。

最后输出的结果，保存在输出节点里面，每一次像一个流向一样，神经是有一个指向的，通过不同层进行不同的计算。在隐层当中，每一个节点输入的结果计算之后作为下一层的输入项，最终结果会保存在输出节点上，输出值最接近我们的分类，得到某一个值，就被分成某一类。这就是使用神经网络的简单概述。

除了从左到右的形式表达的结构图，还有一种常见的表达形式是从下到上来表示一个神经网络。这时候，输入层在图的最下方，输出层则在图的最上方。从左到右的表达形式以AndrewNg和LeCun的文献使用较多。而在Caffe框架里则使用的则是从下到上的表达。

简单来说，神经网络并不神秘，它就是有像图，利用图的处理能力帮助我们对特征的提取和学习的过程。2006年Hinton的那篇著名的论文中，将深度学习总结成三个最重要的要素：计算、数据、模型。有了这三点，就可以实现一个深度学习的系统。

程序员需要的工具箱

对于程序员来说，掌握理论知识是为了更好的编程实践。那就让我们看看，对于程序员来说，着手深度学习的实践需要准备什么样的工具。

硬件

从硬件来讲，我们可能需要的计算能力，首先想到的就是CPU。除了通常的CPU架构以外，还出现了附加有乘法器的CPU，用以提升计算能力。此外在不同领域会有DSP的应用场景，比如手写体识别、语音识别、等使用的专用的信号处理器。还有一类就是GPU，这是一个目前深度学习应用比较热门的领域。最后一类就是FPGA（可编程逻辑门阵列）。

这四种方法各有其优缺点，每种产品会有很大的差异。相比较而言CPU虽然运算能力弱一些，但是擅长管理和调度，比如读取数据，管理文件，人机交互等，工具也丰富。DSP相比而言管理能力较弱，但是强化了特定的运算能力。

这两者都是靠高主频来解决运算量的问题，适合有大量递归操作以及不便拆分的算法。GPU的管理能力更弱一些，但是运算能力更强。但由于计算单元数量多，更适合整块数据进行流处理的算法。

FPGA在管理与运算处理方面都很强，但是开发周期长，复杂算法开发难度较大。就实时性来说，FPGA是最高的。单从目前的发展来看，对于普通程序员来说，现实中普遍采用的计算资源就还是是CPU以及GPU的模式，其中GPU是最热门的领域。

这是我前天为这次分享而准备的一个AWS 上p2的实例。仅仅通过几条命令就完成了实例的更新、驱动的安装和环境的设置，总共的资源创建、设置时间大概在10分钟以内。而之前，我安装调试前面提到的那台计算机，足足花了我两天时间。

另外，从成本上还可以做一个对比。p2.8xLarge 实例每小时的费用是7.2美元。而我自己那台计算机总共的花费了是¥16,904元。这个成本足够让我使用350多个小时的p2.8xLarge。在一年里使用AWS深度学习站就可以抵消掉我所有的付出。随着技术的不断的升级换代，我可以不断的升级我的实例，从而可以用有限的成本获得更大、更多的处理资源。这其实也是云计算的价值所在。

云计算和深度学习究竟有什么关系？今年的8月8号，在IDG网站上发表了一篇文章谈到了这个话题。文章中做了这样一个预言：如果深度学习的并行能力不断提高，云计算所提供的处理能力也不断发展，两者结合可能会产生新一代的深度学习，将带来更大影响和冲击。这是需要大家考虑和重视的一个方向！

软件

深度学习除了硬件的基础环境之外。程序员会更关心与开发相关的软件资源。这里我罗列了一些曾经使用过的软件框架和工具。

Scikit-learn是最为流行的一个Python机器学习库。它具有如下吸引人的特点：简单、高效且异常丰富的数据挖掘/数据分析算法实现；基于NumPy、SciPy以及matplotlib，从数据探索性分析，数据可视化到算法实现，整个过程一体化实现；开源，有非常丰富的学习文档。

Caffe专注在卷及神经网络以及图像处理。不过Caffe已经很久没有更新过了。这个框架的一个主要的开发者贾扬清也在今年跳槽去了Google。也许曾经的霸主地位要让位给他人了。

Theano 是一个非常灵活的Python 机器学习的库。在研究领域非常流行，使用上非常方便易于定义复杂的模型。Tensorflow 的API 非常类似于Theano。我在今年北京的QCon 大会上也分享过关于Theano 的话题。

Jupyter notebook 是一个很强大的基于ipython的python代码编辑器，部署在网页上，可以非常方便的进行交互式的处理，很适合进行算法研究合数据处理。

Torch 是一个非常出色的机器学习的库。它是由一个比较小众的lua语言实现的。但是因为LuaJIT 的使用，程序的效率非常出色。Facebook在人工智能领域主打Torch，甚至现在推出了自己的升级版框架Torchnet。

深度学习的框架非常之多，是不是有一种乱花渐欲迷人眼的感觉？我今天向各位程序员重点介绍的是将是TensorFlow。这是2015年谷歌推出的开源的面向机器学习的开发框架，这也是Google第二代的深度学习的框架。很多公司都使用了TensorFlow开发了很多有意思的应用，效果很好。

用TensorFlow可以做什么？答案是它可以应用于回归模型、神经网络以深度学习这几个领域。在深度学习方面它集成了分布式表示、卷积神经网络(CNN)、递归神经网络(RNN) 以及长短期记忆人工神经网络（Long-Short Term Memory, LSTM）。

关于Tensorflow 首先要理解的概念就是Tensor。在辞典中对于这个词的定义是张量，是一个可用来表示在一些向量、标量和其他张量之间的线性关系的多线性函数。实际上这个表述很难理解，用我自己的语言解释Tensor 就是“N维数组”而已。

使用 TensorFlow, 作为程序员必须明白 TensorFlow这样几个基础概念：它使用图 (Graph) 来表示计算任务；在被称之为会话 (Session) 的上下文 (context) 中执行图；使用 Tensor 表示数据；通过变量 (Variable) 维护状态；使用 feed 和 fetch 可以为任意的操作(arbitrary operation) 赋值或者从其中获取数据。

一句话总结就是，TensorFlow 就是有状态图的数据流图计算环境，每个节点就是在做数据操作，然后提供依赖性和指向性，提供完整数据流。

TensorFlow安装非常简单，但官网提供下载的安装包所支持的CUDA 的版本是7.5。考虑到CUDA 8 的让人心动的新特以及不久就要正式发布的现状。或许你想会考虑立即体验CUDA 8，那么就只能通过编译Tensorflow源代码而获得。目前TensorFlow已经支持了Python2.7、3.3+。

此外，对于使用Python 语言的程序员还需要安装所需要的一些库，例如：numpy、protobuf等等。对于卷积处理而言，cuDNN是公认的性能最好的开发库，请一定要安装上。常规的Tensorsorflow的安装很简单，一条命令足矣：

$ pip3 install —upgrade

如果想评估一下或者简单学习一下，还可以通过Docker进行安装，安装的命令如下：

$ docker run -it -p 8888:8888 gcr.io/tensorflow/tensorflow

TensorFlow有很多优点。首先，目前为止，深度学习的开发框架里面TensorFlow的文档做的最好，对程序员学习而言是非常好的一点。第二，TensorFlow有丰富的参考实例，作为参考学习起来非常容易。

第三，开发者社区活跃，在任何一个深度学习的社区里，都有大量关于TensorFlow的讨论。第四，谷歌的支持力度非常大，从2015年到现在升级速度非常快，这是其他开源框架远远达不到的结果。

参考TensorFlow的白皮书，我们会看到未来TensorFlow还将会有巨大的发展潜力。让我特别感兴趣是这两个方向。第一，支持跨多台机器的 parallelisation。尽管在0.8版本中推出了并行化的能力，但是目前还不完善。随着未来不断发展，依托云计算的处理能力的提升这个特性将是非常让人振奋的。

第二，支持更多的开发语言，对于开发者来说这是一个绝大的利好，通过使用自己擅长的语言使用TensorFlow应用。这些开发语言将会扩展到Java、Lua以及R 等。

在这里我想给大家展示一个应用Tensorflow 的例子。这个例子的代码托管在这个网址上。白俄罗斯的现代印象派艺术家Leonid Afremov善于用浓墨重彩来表现都市和风景题材，尤其是其雨景系列作品。他习惯用大色块的铺陈来营造光影效果，对反光物体和环境色的把握非常精准。

于是我就找到了一张上海东方明珠电视塔的一张摄影作品，我希望通过Tensorflow 去学习一下Leonid Afremov 的绘画风格，并将这张东方明珠的照片处理成那种光影色彩丰富的作品风格。利用Tensorflow 以及上面提到的那个项目的代码，在一个AWS 的p2类型的实例上进行了一个一千次的迭代，于是就得到了下图这样的处理结果。

这个处理的代码只有350行里，模型使用了一个成名于2014年ImageNet比赛中的明星 VGG。这个模型非常好，特点就是“go depper”。

TensorFlow 做出这样的作品，并不仅仅作为娱乐供大家一笑，还可以做更多有意思的事情。将刚才的处理能力推广到视频当中，就可以看到下图这样的效果，用梵高著名的作品”星月夜“的风格就加工成了这样新的视频风格。

可以想象一下，如果这种处理能力在更多领域得以应用，它会产生什么样的神奇结果？前景是美好的，让我们有无限遐想。事实上我们目前所从事的很多领域的应用开发都可以通过使用神经网络和深度学习来加以改变。对于深度学习而言，掌握它并不是难事。每一个程序员都可以很容易的掌握这种技术，利用所具备的资源，让我们很快成为深度学习的程序开发人员。

结束语

未来究竟是什么样，我们没有办法预言。有位作家Ray Kurzweil在2005年写了《奇点临近》一书。在这本书里面他明确告诉我们，那个时代很快到来。作为那个时代曙光前的人群，我们是不是有能力加速这个过程，利用我们学习的能力实现这个梦想呢？

中国人工智能的发展

人工智能的时代无疑已经到来，这个时代需要的当然就是掌握了人工智能并将其解决具体问题的工程师。坦率的说，市场上这一类的工程师还属于凤毛麟角。职场上的薪酬待遇可以看得出来这样的工程师的抢手的程度。人工智能这门学科发展到今天，就学术自身而言已经具备了大规模产业化的能力。

所以说，对于工程师而言当务之急就是尽快的掌握应用人工智能的应用技术。当下在互联网上关于人工智能的学习资料可以说已经是“汗牛充栋”，那些具备了快速学习能力的工程师一定会在人工智能的大潮当中脱颖而出。

中国发展人工智能产业的环境已经具备。无论从创业环境、人员的素质乃至市场的机遇而言完全具备了产生产业变革的一切条件。与美国相比较，在人工智能的许多领域中国团队的表现也可以说是不逞多让。就人工智能的技术层面而言，中国的工程师与全球最好的技术团队正处于同一个起跑线上。

时不我待，中国的工程师是有机会在这个领域大展身手的。不过值得注意的是，要切忌两点：一是好高骛远，盲目与国外攀比。毕竟积累有长短，术业有专攻，我们要立足于已有的积累，寻求逐步的突破。二是一拥而上，盲目追求市场的风口。人工智能的工程化需要大量的基础性的积累，并非一蹴而就简单复制就可以成功。

中国的科研技术人员在人工智能领域的成就有目共睹。在王咏刚的一篇文章里面，他统计了从2013年到2015年SCI收录的“深度学习”论文，中国在2014年和2015年超已经超过了美国居于领跑者的位置。

另外一让我感到惊讶的事情，Google的JeffDean在2016年发表过一篇名为《TensorFlow:Asystemforlarge-scalemachinelearning》的论文。文章的22个作者里面，明显是中国名字的作者占已经到了1/5。如果要列举中国人/华人在人工智能领域里的大牛，吴恩达、孙剑、杨强、黄广斌、马毅、张大鹏……很容易就可以说出一大串。

对于中国来说目前的当务之急是人工智能技术的产业化，唯有如此我们才可以讲科研／智力领域的优势转化为整体的、全面的优势。在这一点上，中国是全球最大的消费市场以及制造业强国，我们完全有机会借助市场的优势成为这个领域的领先者。

硅谷创新企业

硅谷虽然去过许多回，但一直无缘在那里长期工作。在人工智能领域的市场我们听到的更多是围绕Google、Apple、Intel、Amazon这样的一些大型科技公司的一举一动。但是在美国市场上还有一大批小型的创业企业在人工智能这个领域有惊艳的表现。仅以硅谷区域的公司为例：

Captricity，提供了手写数据的信息提取；

VIVLab，针对语音识别开发了虚拟助手服务；

TERADEEP，利用FPGA提供了高效的卷积神经网络的方案；

还有提供无人驾驶解决方案的NetraDyne。

这个名单还可以很长，还有许许多多正在利用人工智能技术试图去创造历史的团队正在打造他们的梦想。这些团队以及他们正在专注的领域是值得我们去学习和体会的。

北大青鸟java培训：物联网的发展有哪些影响作用？

我们在了解人工智能技术的时候，对于深度学习的概念进行了一次普及，今天我们就一起来学习一下深度学习对于物联网的发展都有哪些影响作用。

下面江苏电脑培训就开始今天的主要内容吧。

技术在物联网时代，大量的感知器每天都在收集并产生着涉及各个领域的数据。

由于商业和生活质量提升方面的诉求，应用物联网(IoT)技术对大数据流进行分析是十分有价值的研究方向。

这篇论文对于使用深度学习来改进IoT领域的数据分析和学习方法进行了详细的综述。

从机器学习视角，作者将处理IoT数据的方法分为IoT大数据分析和IoT流数据分析。

论文对目前不同的深度学习方法进行了总结，并详细讨论了使用深度学习方法对IoT数据进行分析的优势，以及未来面临的挑战。

在本系列文章中，已介绍了深度学习和长短期记忆(LSTM)网络，展示了如何生成用于异常检测的数据，还介绍了如何使用Deeplearning4j工具包。

本篇文章中，将介绍开源机器学习系统ApacheSystemML如何通过动态地优化执行并利用ApacheSpark作为运行时引擎，帮助执行线性代数运算。

并展示了在时序传感器数据(或任何类型的一般序列数据)上，即使非常简单的单层LSTM网络的性能也优于先进的异常检测算法。

GoogleAssistant和其他自然语言理解平台正在推动用户如何使用他们的技术。

无论是执行器诸如设置计时器之类的简单任务，还是进行更复杂的任务(例如Google智能助理调整恒温器)，您都可以参与其中。

在这篇文章中，逐步介绍了如何构建自己的助手应用程序，通过简单地要求Google来控制AndroidThings设备来浇灌植物。

开源tinyweb是一个用于在运行有MicroPython的ESP8266/ESP32等微型设备之上的简单轻便的HTTP服务器。

拥有一个简单的HTTP服务器，允许开发人员为他们的物联网设备创建漂亮而现代的用户界面。

tinyweb本身就是一个简单的TCP服务器，它运行在uasyncio之上Mynewt是一款适用于微型嵌入式设备的组件化开源操作系统。

ApacheMynewt使用Newt构建和包管理系统，它允许开发者仅选择所需的组件来构建操作系统。

其目标是使功耗和成本成为驱动因素的微控制器环境的应用开发变得容易。

Mynewt提供开源蓝牙5.0协议栈和嵌入式中间件、闪存文件系统、网络堆栈、引导程序、FATFS、引导程序、统计和记录基础设施等的支持。

AngularIotDashboard是一个基于Angular4的物联网领域的仪表板。

它是一个适用于任何浏览器的实时兼容仪表板，其目标是成为智能家居，智能办公室和工业自动化的弹性前端。

拥有许多可重用组件，开发者可以基于AngularIoTDashboard启发和实施自己版本的托管物联网仪表板。

硬件FemtoUSB是一个基于Atmel的ARMCortexM0+产品ATSAMD21E18A的开源ARM开发板。

其被设计成对那些对ARM设计感兴趣的人的基础起点，特别那些准备从AVR8位硬件转换到功能非常强大的ARM32位工具。

其从电路板设计，原理图和零件清单完全是开源的，可以让开发者学习设计ARM芯片、编译工具链、ARM芯片的基本的电路图等等的内容。

人工神经网络概念梳理与实例演示

神经网络是一种模仿生物神经元的机器学习模型，数据从输入层进入并流经激活阈值的多个节点。

递归性神经网络一种能够对之前输入数据进行内部存储记忆的神经网络，所以他们能够学习到数据流中的时间依赖结构。

如今机器学习已经被应用到很多的产品中去了，例如，siri、Google Now等智能助手，推荐引擎——亚马逊网站用于推荐商品的推荐引擎，Google和Facebook使用的广告排名系统。最近，深度学习的一些进步将机器学习带入公众视野：AlphaGo 打败围棋大师李世石事件以及一些图片识别和机器翻译等新产品的出现。

在这部分中，我们将介绍一些强大并被普遍使用的机器学习技术。这当然包括一些深度学习以及一些满足现代业务需求传统方法。读完这一系列的文章之后，你就掌握了必要的知识，便可以将具体的机器学习实验应用到你所在的领域当中。

随着深层神经网络的精度的提高，语音和图像识别技术的应用吸引了大众的注意力，关于AI和深度学习的研究也变得更加普遍了。但是怎么能够让它进一步扩大影响力，更受欢迎仍然是一个问题。这篇文章的主要内容是：简述前馈神经网络和递归神经网络、怎样搭建一个递归神经网络对时间系列数据进行异常检测。为了让我们的讨论更加具体化，我们将演示一下怎么用Deeplearning4j搭建神经网络。

一、什么是神经网络？

人工神经网络算法的最初构思是模仿生物神经元。但是这个类比很不可靠。人工神经网络的每一个特征都是对生物神经元的一种折射：每一个节点与激活阈值、触发的连接。

连接人工神经元系统建立起来之后，我们就能够对这些系统进行训练，从而让他们学习到数据中的一些模式，学到之后就能执行回归、分类、聚类、预测等功能。

人工神经网络可以看作是计算节点的集合。数据通过这些节点进入神经网络的输入层，再通过神经网络的隐藏层直到关于数据的一个结论或者结果出现，这个过程才会停止。神经网络产出的结果会跟预期的结果进行比较，神经网络得出的结果与正确结果的不同点会被用来更正神经网络节点的激活阈值。随着这个过程的不断重复，神经网络的输出结果就会无限靠近预期结果。

二、训练过程

在搭建一个神经网络系统之前，你必须先了解训练的过程以及网络输出结果是怎么产生的。然而我们并不想过度深入的了解这些方程式，下面是一个简短的介绍。

网络的输入节点收到一个数值数组（或许是叫做张量多维度数组）就代表输入数据。例如, 图像中的每个像素可以表示为一个标量，然后将像素传递给一个节点。输入数据将会与神经网络的参数相乘，这个输入数据被扩大还是减小取决于它的重要性，换句话说，取决于这个像素就不会影响神经网络关于整个输入数据的结论。

起初这些参数都是随机的，也就是说神经网络在建立初期根本就不了解数据的结构。每个节点的激活函数决定了每个输入节点的输出结果。所以每个节点是否能够被激活取决于它是否接受到足够的刺激强度，即是否输入数据和参数的结果超出了激活阈值的界限。

在所谓的密集或完全连接层中，每个节点的输出值都会传递给后续层的节点，在通过所有隐藏层后最终到达输出层，也就是产生输入结果的地方。在输出层, 神经网络得到的最终结论将会跟预期结论进行比较(例如，图片中的这些像素代表一只猫还是狗?)。神经网络猜测的结果与正确结果的计算误差都会被纳入到一个测试集中，神经网络又会利用这些计算误差来不断更新参数，以此来改变图片中不同像素的重要程度。整个过程的目的就是降低输出结果与预期结果的误差，正确地标注出这个图像到底是不是一条狗。

深度学习是一个复杂的过程，由于大量的矩阵系数需要被修改所以它就涉及到矩阵代数、衍生品、概率和密集的硬件使用问题，但是用户不需要全部了解这些复杂性。

但是，你也应该知道一些基本参数，这将帮助你理解神经网络函数。这其中包括激活函数、优化算法和目标函数(也称为损失、成本或误差函数)。

激活函数决定了信号是否以及在多大程度上应该被发送到连接节点。阶梯函数是最常用的激活函数, 如果其输入小于某个阈值就是0，如果其输入大于阈值就是1。节点都会通过阶梯激活函数向连接节点发送一个0或1。优化算法决定了神经网络怎么样学习，以及测试完误差后，权重怎么样被更准确地调整。最常见的优化算法是随机梯度下降法。最后, 成本函数常用来衡量误差，通过对比一个给定训练样本中得出的结果与预期结果的不同来评定神经网络的执行效果。

Keras、Deeplearning4j 等开源框架让创建神经网络变得简单。创建神经网络结构时，需要考虑的是怎样将你的数据类型匹配到一个已知的被解决的问题，并且根据你的实际需求来修改现有结构。

三、神经网络的类型以及应用

神经网络已经被了解和应用了数十年了，但是最近的一些技术趋势才使得深度神经网络变得更加高效。

GPUs使得矩阵操作速度更快；分布式计算结构让计算能力大大增强；多个超参数的组合也让迭代的速度提升。所有这些都让训练的速度大大加快，迅速找到适合的结构。

随着更大数据集的产生，类似于ImageNet 的大型高质量的标签数据集应运而生。机器学习算法训练的数据越大，那么它的准确性就会越高。

最后，随着我们理解能力以及神经网络算法的不断提升，神经网络的准确性在语音识别、机器翻译以及一些机器感知和面向目标的一些任务等方面不断刷新记录。

尽管神经网络架构非常的大，但是主要用到的神经网络种类也就是下面的几种。

3.1前馈神经网络

前馈神经网络包括一个输入层、一个输出层以及一个或多个的隐藏层。前馈神经网络可以做出很好的通用逼近器，并且能够被用来创建通用模型。

这种类型的神经网络可用于分类和回归。例如，当使用前馈网络进行分类时，输出层神经元的个数等于类的数量。从概念上讲, 激活了的输出神经元决定了神经网络所预测的类。更准确地说, 每个输出神经元返回一个记录与分类相匹配的概率数，其中概率最高的分类将被选为模型的输出分类。

前馈神经网络的优势是简单易用，与其他类型的神经网络相比更简单，并且有一大堆的应用实例。

3.2卷积神经网络

卷积神经网络和前馈神经网络是非常相似的，至少是数据的传输方式类似。他们结构大致上是模仿了视觉皮层。卷积神经网络通过许多的过滤器。这些过滤器主要集中在一个图像子集、补丁、图块的特征识别上。每一个过滤器都在寻找不同模式的视觉数据，例如，有的可能是找水平线，有的是找对角线，有的是找垂直的。这些线条都被看作是特征，当过滤器经过图像时，他们就会构造出特征图谱来定位各类线是出现在图像的哪些地方。图像中的不同物体，像猫、747s、榨汁机等都会有不同的图像特征，这些图像特征就能使图像完成分类。卷积神经网络在图像识别和语音识别方面是非常的有效的。

卷积神经网络与前馈神经网络在图像识别方面的异同比较。虽然这两种网络类型都能够进行图像识别，但是方式却不同。卷积神经网络是通过识别图像的重叠部分，然后学习识别不同部分的特征进行训练；然而，前馈神经网络是在整张图片上进行训练。前馈神经网络总是在图片的某一特殊部分或者方向进行训练，所以当图片的特征出现在其他地方时就不会被识别到，然而卷积神经网络却能够很好的避免这一点。

卷积神经网络主要是用于图像、视频、语音、声音识别以及无人驾驶的任务。尽管这篇文章主要是讨论递归神经网络的，但是卷积神经网络在图像识别方面也是非常有效的，所以很有必要了解。

3.3递归神经网络

与前馈神经网络不同的是，递归神经网络的隐藏层的节点里有内部记忆存储功能，随着输入数据的改变而内部记忆内容不断被更新。递归神经网络的结论都是基于当前的输入和之前存储的数据而得出的。递归神经网络能够充分利用这种内部记忆存储状态处理任意序列的数据，例如时间序列。

递归神经网络经常用于手写识别、语音识别、日志分析、欺诈检测和网络安全。

递归神经网络是处理时间维度数据集的最好方法，它可以处理以下数据：网络日志和服务器活动、硬件或者是医疗设备的传感器数据、金融交易、电话记录。想要追踪数据在不同阶段的依赖和关联关系需要你了解当前和之前的一些数据状态。尽管我们通过前馈神经网络也可以获取事件，随着时间的推移移动到另外一个事件，这将使我们限制在对事件的依赖中，所以这种方式很不灵活。

追踪在时间维度上有长期依赖的数据的更好方法是用内存来储存重要事件，以使近期事件能够被理解和分类。递归神经网络最好的一点就是在它的隐藏层里面有“内存”可以学习到时间依赖特征的重要性。

接下来我们将讨论递归神经网络在字符生成器和网络异常检测中的应用。递归神经网络可以检测出不同时间段的依赖特征的能力使得它可以进行时间序列数据的异常检测。

递归神经网络的应用

网络上有很多使用RNNs生成文本的例子，递归神经网络经过语料库的训练之后，只要输入一个字符，就可以预测下一个字符。下面让我们通过一些实用例子发现更多RNNs的特征。

应用一、RNNs用于字符生成

递归神经网络经过训练之后可以把英文字符当做成一系列的时间依赖事件。经过训练后它会学习到一个字符经常跟着另外一个字符（“e”经常跟在“h”后面，像在“the、he、she”中）。由于它能预测下一个字符是什么，所以它能有效地减少文本的输入错误。

Java是个很有趣的例子，因为它的结构包括很多嵌套结构，有一个开的圆括号必然后面就会有一个闭的，花括号也是同理。他们之间的依赖关系并不会在位置上表现的很明显，因为多个事件之间的关系不是靠所在位置的距离确定的。但是就算是不明确告诉递归神经网络Java中各个事件的依赖关系，它也能自己学习了解到。

在异常检测当中，我们要求神经网络能够检测出数据中相似、隐藏的或许是并不明显的模式。就像是一个字符生成器在充分地了解数据的结构后就会生成一个数据的拟像，递归神经网络的异常检测就是在其充分了解数据结构后来判断输入的数据是不是正常。

字符生成的例子表明递归神经网络有在不同时间范围内学习到时间依赖关系的能力，它的这种能力还可以用来检测网络活动日志的异常。

异常检测能够使文本中的语法错误浮出水面，这是因为我们所写的东西是由语法结构所决定的。同理，网络行为也是有结构的，它也有一个能够被学习的可预测模式。经过在正常网络活动中训练的递归神经网络可以监测到入侵行为，因为这些入侵行为的出现就像是一个句子没有标点符号一样异常。

应用二、一个网络异常检测项目的示例

假设我们想要了解的网络异常检测就是能够得到硬件故障、应用程序失败、以及入侵的一些信息。

模型将会向我们展示什么呢？

随着大量的网络活动日志被输入到递归神经网络中去，神经网络就能学习到正常的网络活动应该是什么样子的。当这个被训练的网络被输入新的数据时，它就能偶判断出哪些是正常的活动，哪些是被期待的，哪些是异常的。

训练一个神经网络来识别预期行为是有好处的，因为异常数据不多，或者是不能够准确的将异常行为进行分类。我们在正常的数据里进行训练，它就能够在未来的某个时间点提醒我们非正常活动的出现。

说句题外话，训练的神经网络并不一定非得识别到特定事情发生的特定时间点（例如，它不知道那个特殊的日子就是周日），但是它一定会发现一些值得我们注意的一些更明显的时间模式和一些可能并不明显的事件之间的联系。

我们将概述一下怎么用 Deeplearning4j（一个在JVM上被广泛应用的深度学习开源数据库）来解决这个问题。Deeplearning4j在模型开发过程中提供了很多有用的工具：DataVec是一款为ETL（提取-转化-加载）任务准备模型训练数据的集成工具。正如Sqoop为Hadoop加载数据，DataVec将数据进行清洗、预处理、规范化与标准化之后将数据加载到神经网络。这跟Trifacta’s Wrangler也相似，只不过它更关注二进制数据。

开始阶段

第一阶段包括典型的大数据任务和ETL：我们需要收集、移动、储存、准备、规范化、矢量话日志。时间跨度的长短是必须被规定好的。数据的转化需要花费一些功夫，这是由于JSON日志、文本日志、还有一些非连续标注模式都必须被识别并且转化为数值数组。DataVec能够帮助进行转化和规范化数据。在开发机器学习训练模型时，数据需要分为训练集和测试集。

训练神经网络

神经网络的初始训练需要在训练数据集中进行。

在第一次训练的时候，你需要调整一些超参数以使模型能够实现在数据中学习。这个过程需要控制在合理的时间内。关于超参数我们将在之后进行讨论。在模型训练的过程中，你应该以降低错误为目标。

但是这可能会出现神经网络模型过度拟合的风险。有过度拟合现象出现的模型往往会在训练集中的很高的分数，但是在遇到新的数据时就会得出错误结论。用机器学习的语言来说就是它不够通用化。Deeplearning4J提供正则化的工具和“过早停止”来避免训练过程中的过度拟合。

神经网络的训练是最花费时间和耗费硬件的一步。在GPUs上训练能够有效的减少训练时间，尤其是做图像识别的时候。但是额外的硬件设施就带来多余的花销，所以你的深度学习的框架必须能够有效的利用硬件设施。Azure和亚马逊等云服务提供了基于GPU的实例，神经网络还可以在异构集群上进行训练。

创建模型

Deeplearning4J提供ModelSerializer来保存训练模型。训练模型可以被保存或者是在之后的训练中被使用或更新。

在执行异常检测的过程中，日志文件的格式需要与训练模型一致，基于神经网络的输出结果，你将会得到是否当前的活动符合正常网络行为预期的结论。

代码示例

递归神经网络的结构应该是这样子的：

MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder(

.seed(123)

.optimizationAlgo(OptimizationAlgorithm.STOCHASTIC_GRADIENT_DESCENT).iterations(1)

.weightInit(WeightInit.XAVIER)

.updater(Updater.NESTEROVS).momentum(0.9)

.learningRate(0.005)

.gradientNormalization(GradientNormalization.ClipElementWiseAbsoluteValue)

.gradientNormalizationThreshold(0.5)

.list()

.layer(0, new GravesLSTM.Builder().activation("tanh").nIn(1).nOut(10).build())

.layer(1, new RnnOutputLayer.Builder(LossFunctions.LossFunction.MCXENT)

.activation("softmax").nIn(10).nOut(numLabelClasses).build())

.pretrain(false).backprop(true).build();

MultiLayerNetwork net = new MultiLayerNetwork(conf);

net.init();

下面解释一下几行重要的代码：

.seed(123)

随机设置一个种子值对神经网络的权值进行初始化，以此获得一个有复验性的结果。系数通常都是被随机的初始化的，以使我们在调整其他超参数时仍获得一致的结果。我们需要设定一个种子值，让我们在调整和测试的时候能够用这个随机的权值。

.optimizationAlgo(OptimizationAlgorithm.STOCHASTIC_GRADIENT_DESCENT).iterations(1)

决定使用哪个最优算法（在这个例子中是随机梯度下降法）来调整权值以提高误差分数。你可能不需要对这个进行修改。

.learningRate(0.005)

当我们使用随机梯度下降法的时候，误差梯度就被计算出来了。在我们试图将误差值减到最小的过程中，权值也随之变化。SGD给我们一个让误差更小的方向，这个学习效率就决定了我们该在这个方向上迈多大的梯度。如果学习效率太高，你可能是超过了误差最小值；如果太低，你的训练可能将会永远进行。这是一个你需要调整的超参数。

自然语言处理（NLP）的基础难点：分词算法

自然语言处理（NLP，Natural Language Processing）是人工智能领域中的一个重要方向，主要研究人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理的底层任务由易到难大致可以分为词法分析、句法分析和语义分析。分词是词法分析（还包括词性标注和命名实体识别）中最基本的任务，也是众多NLP算法中必不可少的第一步，其切分准确与否往往与整体结果息息相关。

金融领域分词的难点

分词既简单又复杂。简单是因为分词的算法研究已经很成熟了，大部分的算法（如HMM分词、CRF分词）准确率都可以达到95%以上；复杂则是因为剩下的5%很难有突破，主要可以归结于三点：

▲粒度，即切分时的最小单位，不同应用对粒度的要求不一样，比如“融资融券”可以是一个词也可以是两个词

▲歧义，比如“恒生”一词，既可指恒生公司，又可指恒生指数

▲未登录词，即未出现在算法使用的词典中的词，比如不常见的专业金融术语，以及各种上市公司的名称

在金融领域中，分词也具有上述三个难点，并且在未登录词方面的难点更为突出，这是因为金融类词汇本来就多，再加上一些专有名词不仅有全称还有简称，这就进一步增大了难度。

在实际应用中，以上难点时常会造成分词效果欠佳，进而影响之后的任务。尤其是在一些金融业务中，有许多需要与用户交互的场景，某些用户会用口语化的词汇描述业务，如果分词错误会影响用户意图的解析，这对分词的准确性提出了更高的要求。因此在进行NLP上层应用开发时，需要对分词算法有一定的了解，从而在效果优化时有能力对分词器进行调整。接下来，我们介绍几种常用的分词算法及其应用在金融中的优劣。

几种常见的分词算法

分词算法根据其核心思想主要分为两种：

第一种是基于字典的分词，先把句子按照字典切分成词，再寻找词的最佳组合方式，包括最大匹配分词算法、最短路径分词算法、基于N-Gram model的分词算法等；

第二种是基于字的分词，即由字构词，先把句子分成一个个字，再将字组合成词，寻找最优的切分策略，同时也可以转化成序列标注问题，包括生成式模型分词算法、判别式模型分词算法、神经网络分词算法等。

最大匹配分词寻找最优组合的方式是将匹配到的最长词组合在一起，主要的思路是先将词典构造成一棵Trie树（也称为字典树），Trie树由词的公共前缀构成节点，降低了存储空间的同时可以提升查找效率。

最大匹配分词将句子与Trie树进行匹配，在匹配到根结点时由下一个字重新开始进行查找。比如正向（从左至右）匹配“他说的确实在理”，得出的结果为“他／说／的确／实在／理”。如果进行反向最大匹配，则为“他／说／的／确实／在理”。

这种方式虽然可以在O(n)时间对句子进行分词，但是只单向匹配太过绝对，尤其是金融这种词汇较丰富的场景，会出现例如“交易费/用”、“报价单/位”等情况，所以除非某些词的优先级很高，否则要尽量避免使用此算法。

最短路径分词算法首先将一句话中的所有词匹配出来，构成词图（有向无环图DAG），之后寻找从起始点到终点的最短路径作为最佳组合方式，例：

我们认为图中每个词的权重都是相等的，因此每条边的权重都为1。

在求解DAG图的最短路径问题时，总是要利用到一种性质：即两点之间的最短路径也包含了路径上其他顶点间的最短路径。比如S-A-B-E为S到E到最短路径，那S-A-B一定是S到B到最短路径，否则会存在一点C使得d(S-C-B)d(S-A-B)，那S到E的最短路径也会变为S-C-B-E，这就与假设矛盾了。利用上述的最优子结构性质，可以利用贪心算法或动态规划两种求解算法：

（1）基于Dijkstra算法求解最短路径，该算法适用于所有带权有向图，求解源节点到其他所有节点的最短路径，并可以求得全局最优解；

（2）N-最短路径分词算法，该方法是对Dijkstra算法的扩展，在每一步保存最短的N条路径，并记录这些路径上当前节点的前驱，在最后求得最优解时回溯得到最短路径。这种方法的准确率优于Dijkstra算法，但在时间和空间复杂度上都更大。

相较于最大匹配分词算法，最短路径分词算法更加灵活，可以更好地把词典中的词组合起来，能更好地解决有歧义的场景。比如上述“他说的确实在理”这句话，用最短路径算法的计算结果为“他／说／的／确实／在理”，避免了正向最大匹配的错误。但是对于词典中未存在的词基本没有识别能力，无法解决金融领域分词中的“未登录词”难点。

N-Gram（又称N元语法模型）是基于一个假设：第n个词出现与前n-1个词相关，而与其他任何词不相关。在此种假设下，可以简化词的条件概率，进而求解整个句子出现的概率。

现实中，常用词的出现频率或者概率肯定比罕见词要大。因此，可以将求解词图最短路径的问题转化为求解最大概率路径的问题，即分词结果为“最有可能的词的组合“。

计算词出现的概率，仅有词典是不够的，还需要充足的语料，所以分词任务已经从单纯的“算法”上升到了“建模”，即利用统计学方法结合大数据挖掘，对“语言”（句子出现的概率）进行建模。

我们将基于N-gram模型所统计出的概率分布应用到词图中，可以得到词的概率图。对该词图用最短路径分词算法求解最大概率的路径，即可得到分词结果。

相较于前两种分词算法，基于N-Gram model的分词算法对词频进行了统计建模，在切分有歧义的时候力求得到全局最优值，比如在切分方案“证券/自营/业务”和“证券/自/营业/务”中，统计出“证券/自营/业务”出现的概率更大，因此结果有更高的准确率。但也依然无法解决金融场景中未登录词的问题。

生成式模型主要有隐马尔可夫模型（HMM，Hidden Markov Model）、朴素贝叶斯分类等。HMM是常用的分词模型，基于Python的jieba分词器和基于Java的HanLP分词器都使用了HMM。

HMM模型认为在解决序列标注问题时存在两种序列，一种是观测序列，即人们显性观察到的句子，另一种是隐状态序列，即观测序列的标签。假设观测序列为X，隐状态序列是Y，则因果关系为Y-X。因此要得到标注结果Y，必须对X的概率、Y的概率、P(X|Y)进行计算，即建立P(X,Y)的概率分布模型。

HMM算法可以在一定程度上解决未登录词的问题，但生成式模型的准确率往往没有接下来要谈到的判别式模型高。

判别式模型主要有感知机、支持向量机（SVM，Support Vector Machine）、条件随机场（CRF，Conditional Random Field）、最大熵模型等，其中感知机模型和CRF模型是常用的分词模型。

（1）平均感知机分词算法

感知机是一种简单的二分类线性模型，通过构造超平面，将特征空间（输入空间）中的样本分为正负两类。通过组合，感知机也可以处理多分类问题。但由于每次迭代都会更新模型的所有权重，被误分类的样本会造成很大影响，因此采用平均的方法，在处理完一部分样本后对更新的权重进行平均。

（2）CRF分词算法

CRF可以看作一个无向图模型，假设给定的标注序列为Y，观测序列为X，CRF对条件概率P(Y|X)进行定义，而不是对联合概率建模。

平均感知机算法虽然速度快，但仍不够准确。适合一些对速度要求高、对准确性要求相对不那么高的场景。CRF分词算法可以说是目前最常用的分词、词性标注和实体识别算法，它对未登陆词也有很好的识别能力，是目前在速度、准确率以及未登录词识别上综合表现最突出的算法，也是我们目前所采用的解决方案，但速度会比感知机慢一些。

在NLP中，最常用的神经网络为循环神经网络（RNN，Recurrent Neural Network），它在处理变长输入和序列输入问题中有着巨大的优势。LSTM（Long Short-Term Memory，长短期记忆网络）为RNN变种的一种，在一定程度上解决了RNN在训练过程中梯度消失和梯度爆炸的问题。

目前对于序列标注任务，业内公认效果最好的模型是BiLSTM+CRF。相比于上述其它模型，双向循环神经网络BiLSTM，可以更好地编码当前字等上下文信息，并在最终增加CRF层，核心是用Viterbi算法进行解码，以得到全局最优解，避免B,S,E这种不可能的标记结果的出现，提高准确率。

神经网络分词虽然能在准确率、未登录词识别上有更好的表现，但RNN无法并行计算，在速度上没有优势，所以该算法通常在算法研究、句子精确解析等对速度要求不高的场景下使用。

分词作为NLP底层任务之一，既简单又重要，很多时候上层算法的错误都是由分词结果导致的。因此，对于底层实现的算法工程师，不仅需要深入理解分词算法，更需要懂得如何高效地实现和调试。

而对于上层应用的算法工程师，在实际分词时，需要根据业务场景有选择地应用上述算法，比如在搜索引擎对大规模网页进行内容解析时，对分词对速度要求大于精度，而在智能问答中由于句子较短，对分词的精度要求大于速度。

如何在Python中用LSTM网络进行时间序列预测

时间序列模型

时间序列预测分析就是利用过去一段时间内某事件时间的特征来预测未来一段时间内该事件的特征。这是一类相对比较复杂的预测建模问题，和回归分析模型的预测不同，时间序列模型是依赖于事件发生的先后顺序的，同样大小的值改变顺序后输入模型产生的结果是不同的。

举个栗子：根据过去两年某股票的每天的股价数据推测之后一周的股价变化；根据过去2年某店铺每周想消费人数预测下周来店消费的人数等等

RNN 和 LSTM 模型

时间序列模型最常用最强大的的工具就是递归神经网络（recurrent neural network, RNN）。相比与普通神经网络的各计算结果之间相互独立的特点，RNN的每一次隐含层的计算结果都与当前输入以及上一次的隐含层结果相关。通过这种方法，RNN的计算结果便具备了记忆之前几次结果的特点。

典型的RNN网路结构如下：

右侧为计算时便于理解记忆而产开的结构。简单说，x为输入层，o为输出层，s为隐含层，而t指第几次的计算；V,W,U为权重，其中计算第t次的隐含层状态时为St = f(U*Xt + W*St-1)，实现当前输入结果与之前的计算挂钩的目的。对RNN想要更深入的了解可以戳这里。

RNN的局限：

由于RNN模型如果需要实现长期记忆的话需要将当前的隐含态的计算与前n次的计算挂钩，即St = f(U*Xt + W1*St-1 + W2*St-2 + ... + Wn*St-n)，那样的话计算量会呈指数式增长，导致模型训练的时间大幅增加，因此RNN模型一般直接用来进行长期记忆计算。

LSTM模型

LSTM（Long Short-Term Memory）模型是一种RNN的变型，最早由Juergen Schmidhuber提出的。经典的LSTM模型结构如下：

LSTM的特点就是在RNN结构以外添加了各层的阀门节点。阀门有3类：遗忘阀门（forget gate），输入阀门（input gate）和输出阀门（output gate）。这些阀门可以打开或关闭，用于将判断模型网络的记忆态（之前网络的状态）在该层输出的结果是否达到阈值从而加入到当前该层的计算中。如图中所示，阀门节点利用sigmoid函数将网络的记忆态作为输入计算；如果输出结果达到阈值则将该阀门输出与当前层的的计算结果相乘作为下一层的输入（PS：这里的相乘是在指矩阵中的逐元素相乘）；如果没有达到阈值则将该输出结果遗忘掉。每一层包括阀门节点的权重都会在每一次模型反向传播训练过程中更新。更具体的LSTM的判断计算过程如下图所示：

LSTM模型的记忆功能就是由这些阀门节点实现的。当阀门打开的时候，前面模型的训练结果就会关联到当前的模型计算，而当阀门关闭的时候之前的计算结果就不再影响当前的计算。因此，通过调节阀门的开关我们就可以实现早期序列对最终结果的影响。而当你不不希望之前结果对之后产生影响，比如自然语言处理中的开始分析新段落或新章节，那么把阀门关掉即可。（对LSTM想要更具体的了解可以戳这里）

下图具体演示了阀门是如何工作的：通过阀门控制使序列第1的输入的变量影响到了序列第4,6的的变量计算结果。

黑色实心圆代表对该节点的计算结果输出到下一层或下一次计算；空心圆则表示该节点的计算结果没有输入到网络或者没有从上一次收到信号。

Python中实现LSTM模型搭建

Python中有不少包可以直接调用来构建LSTM模型，比如pybrain, kears, tensorflow, cikit-neuralnetwork等（更多戳这里）。这里我们选用keras。（PS：如果操作系统用的linux或者mac，强推Tensorflow！！！）

因为LSTM神经网络模型的训练可以通过调整很多参数来优化，例如activation函数，LSTM层数，输入输出的变量维度等，调节过程相当复杂。这里只举一个最简单的应用例子来描述LSTM的搭建过程。

应用实例

基于某家店的某顾客的历史消费的时间推测该顾客前下次来店的时间。具体数据如下所示：

消费时间

2015-05-15 14:03:512015-05-15 15:32:462015-06-28 18:00:172015-07-16 21:27:182015-07-16 22:04:512015-09-08 14:59:56..

具体操作：

1. 原始数据转化

首先需要将时间点数据进行数值化。将具体时间转化为时间段用于表示该用户相邻两次消费的时间间隔，然后再导入模型进行训练是比较常用的手段。转化后的数据如下：

消费间隔04418054..

2.生成模型训练数据集（确定训练集的窗口长度）

这里的窗口指需要几次消费间隔用来预测下一次的消费间隔。这里我们先采用窗口长度为3，即用t-2, t-1,t次的消费间隔进行模型训练，然后用t+1次间隔对结果进行验证。数据集格式如下：X为训练数据，Y为验证数据。

PS：这里说确定也不太合适，因为窗口长度需要根据模型验证结果进行调整的。

X1 X2 X3 Y0 44 18 044 18 0 54..

注：直接这样预测一般精度会比较差，可以把预测值Y根据数值bin到几类，然后用转换成one-hot标签再来训练会比较好。比如如果把Y按数值范围分到五类（1：0-20，2：20-40，3：40-60，4：60-80，5：80-100）上式可化为：

X1 X2 X3 Y0 44 18 044 18 0 4...

Y转化成one-hot以后则是(关于one-hot编码可以参考这里)

1 0 0 0 00 0 0 0 1...

3. 网络模型结构的确定和调整

这里我们使用python的keras库。（用java的同学可以参考下deeplearning4j这个库）。网络的训练过程设计到许多参数的调整：比如

需要确定LSTM模块的激活函数（activation fucntion）（keras中默认的是tanh）；

确定接收LSTM输出的完全连接人工神经网络（fully-connected artificial neural network）的激活函数（keras中默认为linear）；

确定每一层网络节点的舍弃率（为了防止过度拟合（overfit）），这里我们默认值设定为0.2；

确定误差的计算方式，这里我们使用均方误差（mean squared error）；

确定权重参数的迭代更新方式，这里我们采用RMSprop算法，通常用于RNN网络。

确定模型训练的epoch和batch size（关于模型的这两个参数具体解释戳这里）

一般来说LSTM模块的层数越多（一般不超过3层，再多训练的时候就比较难收敛），对高级别的时间表示的学习能力越强；同时，最后会加一层普通的神经网路层用于输出结果的降维。典型结构如下：

如果需要将多个序列进行同一个模型的训练，可以将序列分别输入到独立的LSTM模块然后输出结果合并后输入到普通层。结构如下：

4. 模型训练和结果预测

将上述数据集按4:1的比例随机拆分为训练集和验证集，这是为了防止过度拟合。训练模型。然后将数据的X列作为参数导入模型便可得到预测值，与实际的Y值相比便可得到该模型的优劣。

实现代码

时间间隔序列格式化成所需的训练集格式

import pandas as pdimport numpy as npdef create_interval_dataset(dataset, look_back):

""" :param dataset: input array of time intervals :param look_back: each training set feature length :return: convert an array of values into a dataset matrix. """

dataX, dataY = [], [] for i in range(len(dataset) - look_back):

dataX.append(dataset[i:i+look_back])

dataY.append(dataset[i+look_back]) return np.asarray(dataX), np.asarray(dataY)

df = pd.read_csv("path-to-your-time-interval-file")

dataset_init = np.asarray(df) # if only 1 columndataX, dataY = create_interval_dataset(dataset, lookback=3) # look back if the training set sequence length

这里的输入数据来源是csv文件，如果输入数据是来自数据库的话可以参考这里

LSTM网络结构搭建

import pandas as pdimport numpy as npimport randomfrom keras.models import Sequential, model_from_jsonfrom keras.layers import Dense, LSTM, Dropoutclass NeuralNetwork():

def __init__(self, **kwargs):

""" :param **kwargs: output_dim=4: output dimension of LSTM layer; activation_lstm='tanh': activation function for LSTM layers; activation_dense='relu': activation function for Dense layer; activation_last='sigmoid': activation function for last layer; drop_out=0.2: fraction of input units to drop; np_epoch=10, the number of epoches to train the model. epoch is one forward pass and one backward pass of all the training examples; batch_size=32: number of samples per gradient update. The higher the batch size, the more memory space you'll need; loss='mean_square_error': loss function; optimizer='rmsprop' """

self.output_dim = kwargs.get('output_dim', 8) self.activation_lstm = kwargs.get('activation_lstm', 'relu') self.activation_dense = kwargs.get('activation_dense', 'relu') self.activation_last = kwargs.get('activation_last', 'softmax') # softmax for multiple output

self.dense_layer = kwargs.get('dense_layer', 2) # at least 2 layers

self.lstm_layer = kwargs.get('lstm_layer', 2) self.drop_out = kwargs.get('drop_out', 0.2) self.nb_epoch = kwargs.get('nb_epoch', 10) self.batch_size = kwargs.get('batch_size', 100) self.loss = kwargs.get('loss', 'categorical_crossentropy') self.optimizer = kwargs.get('optimizer', 'rmsprop') def NN_model(self, trainX, trainY, testX, testY):

""" :param trainX: training data set :param trainY: expect value of training data :param testX: test data set :param testY: epect value of test data :return: model after training """

print "Training model is LSTM network!"

input_dim = trainX[1].shape[1]

output_dim = trainY.shape[1] # one-hot label

# print predefined parameters of current model:

model = Sequential() # applying a LSTM layer with x dim output and y dim input. Use dropout parameter to avoid overfitting

model.add(LSTM(output_dim=self.output_dim,

input_dim=input_dim,

activation=self.activation_lstm,

dropout_U=self.drop_out,

return_sequences=True)) for i in range(self.lstm_layer-2):

model.add(LSTM(output_dim=self.output_dim,

input_dim=self.output_dim,

activation=self.activation_lstm,

dropout_U=self.drop_out,

return_sequences=True)) # argument return_sequences should be false in last lstm layer to avoid input dimension incompatibility with dense layer

model.add(LSTM(output_dim=self.output_dim,

input_dim=self.output_dim,

activation=self.activation_lstm,

dropout_U=self.drop_out)) for i in range(self.dense_layer-1):

model.add(Dense(output_dim=self.output_dim,

activation=self.activation_last))

model.add(Dense(output_dim=output_dim,

input_dim=self.output_dim,

activation=self.activation_last)) # configure the learning process

model.compile(loss=self.loss, optimizer=self.optimizer, metrics=['accuracy']) # train the model with fixed number of epoches

model.fit(x=trainX, y=trainY, nb_epoch=self.nb_epoch, batch_size=self.batch_size, validation_data=(testX, testY)) # store model to json file

model_json = model.to_json() with open(model_path, "w") as json_file:

json_file.write(model_json) # store model weights to hdf5 file

if model_weight_path: if os.path.exists(model_weight_path):

os.remove(model_weight_path)

model.save_weights(model_weight_path) # eg: model_weight.h5

return model

这里写的只涉及LSTM网络的结构搭建，至于如何把数据处理规范化成网络所需的结构以及把模型预测结果与实际值比较统计的可视化，就需要根据实际情况做调整了。

lstmjava的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于、lstmjava的信息别忘了在本站进行查找喔。

标签：lstmjava