15个处于人工智能研究最前沿的开源人工智能工具

2019-06-22 11:09发布

站内文章 / 前端开发

92 0

混吃等死

女 | 书童

私信

斯坦福的专家在人工智能报告中得出的结论："越来越强大的人工智能应用，可能会对我们的社会和经济产生深远的积极影响，这将出现在从现在到2030年的时间段里。"

以下这些开源人工智能应用都处于人工智能研究的最前沿。

1.Caffe

Caffe

它是由贾扬清在加州大学伯克利分校的读博时创造的，Caffe是一个基于表达体系结构和可扩展代码的深度学习框架。使它声名鹊起的是它的速度，这让它受到研究人员和企业用户的欢迎。根据其网站所言，它可以在一天之内只用一个NVIDIA K40 GPU处理6000万多个图像。它是由伯克利视野和学习中心（BVLC）管理的，并且由NVIDIA和亚马逊等公司资助来支持它的发展。

2.CNTK

CNTK

它是计算机网络工具包（Computational Network Tookit）的缩写，CNTK是一个微软的开源人工智能工具。不论是在单个CPU、单个GPU、多个GPU或是拥有多个GPU的多台机器上它都有优异的表现。微软主要用它做语音识别的研究，但是它在机器翻译、图像识别、图像字幕、文本处理、语言理解和语言建模方面都有着良好的应用。

3.Deeplearning4j

Deeplearning4j

Deeplearning4j是一个java虚拟机（JVM）的开源深度学习库。它运行在分布式环境并且集成在Hadoop和Apache Spark中。这使它可以配置深度神经网络，并且它与Java、Scala和其他JVM语言兼容。

4.DMTK

DMTK

DMTK分布式集齐学习工具（Distributed Machine Learning Toolkit）的缩写，和CNTK一样，是微软的开源人工智能工具。作为设计用于大数据的应用程序，它的目标是更快的训练人工智能系统。它包括三个主要组件：DMTK框架、LightLDA主题模型算法和分布式（多义）字嵌入算法。为了证明它的速度，微软声称在一个八集群的机器上，它能够"用100万个主题和1000万个单词的词汇表（总共10万亿参数）训练一个主题模型，在一个文档中收集1000亿个符号，"。这一成绩是别的工具无法比拟的。

5.H20

H20

相比起科研，H2O更注重将AI服务于企业用户，因此H2O有着大量的公司客户，比如第一资本金融公司、思科、Nielsen Catalina、PayPal和泛美都是它的用户。它声称任何人都可以利用机器学习和预测分析的力量来解决业务难题。它可以用于预测建模、风险和欺诈分析、保险分析、广告技术、医疗保健和客户情报。

它有两种开源版本：标准版H2O和Sparking Water版，它被集成在Apache Spark中。也有付费的企业用户支持。

6.Mahout

它是Apache基金会项目，Mahout是一个开源机器学习框架。根据它的网站所言，它有着三个主要的特性：一个构建可扩展算法的编程环境、像Spark和H2O一样的预制算法工具和一个叫Samsara的矢量数学实验环境。使用Mahout的公司有Adobe、埃森哲咨询公司、Foursquare、英特尔、领英、Twitter、雅虎和其他许多公司。其网站列了出第三方的专业支持。

7.MLlib

MLlib

由于其速度，Apache Spark成为一个最流行的大数据处理工具。MLlib是Spark的可扩展机器学习库。它集成了Hadoop并可以与NumPy和R进行交互操作。它包括了许多机器学习算法如分类、回归、决策树、推荐、集群、主题建模、功能转换、模型评价、ML管道架构、ML持久、生存分析、频繁项集和序列模式挖掘、分布式线性代数和统计。

8.NuPIC

NuPIC

由Numenta公司管理的NuPIC是一个基于分层暂时记忆理论的开源人工智能项目。从本质上讲，HTM试图创建一个计算机系统来模仿人类大脑皮层。他们的目标是创造一个"在许多认知任务上接近或者超越人类认知能力"的机器。

除了开源许可，Numenta还提供NuPic的商业许可协议，并且它还提供技术专利的许可证。

9.OpenN

OpenNN

作为一个为开发者和科研人员设计的具有高级理解力的人工智能，OpenNN是一个实现神经网络算法的c++编程库。它的关键特性包括深度的架构和快速的性能。其网站上可以查到丰富的文档，包括一个解释了神经网络的基本知识的入门教程

10.OpenCyc

OpenCyc

由Cycorp公司开发的OpenCyc提供了对Cyc知识库的访问和常识推理引擎。它拥有超过239,000个条目，大约2,093,000个三元组和大约69,000 owl：这是一种类似于链接到外部语义库的命名空间。它在富领域模型、语义数据集成、文本理解、特殊领域的专家系统和游戏AI中有着良好的应用。该公司还提供另外两个版本的Cyc：一个可免费的用于科研但是不开源，和一个提供给企业的但是需要付费。

11.Oryx 2

Oryx 2

构建在Apache Spark和Kafka之上的Oryx 2是一个专门针对大规模机器学习的应用程序开发框架。它采用一个独特的三层λ架构。开发者可以使用Orys 2创建新的应用程序，另外它还拥有一些预先构建的应用程序可以用于常见的大数据任务比如协同过滤、分类、回归和聚类。大数据工具供应商Cloudera创造了最初的Oryx 1项目并且一直积极参与持续发展。

12.PredictionIO

PredictionIO

今年的二月，Salesforce收购了PredictionIO，接着在七月，它将该平台和商标贡献给Apache基金会，Apache基金会将其列为孵育计划。所以当Salesforce利用PredictionIO技术来提升它的机器学习能力时，成效将会同步出现在开源版本中。它可以帮助用户创建带有机器学习功能的预测引擎，这可用于部署能够实时动态查询的Web服务。

13.SystemML

SystemML

最初由IBM开发，SystemML现在是一个Apache大数据项目。它提供了一个高度可伸缩的平台，可以实现高等数学运算，并且它的算法用R或一种类似python的语法写成。企业已经在使用它来跟踪汽车维修客户服务、规划机场交通和连接社会媒体数据与银行客户。它可以在Spark或Hadoop上运行。

14.TensorFlow

TensorFlow

TensorFlow是一个谷歌的开源人工智能工具。它提供了一个使用数据流图进行数值计算的库。它可以运行在多种不同的有着单或多CPU和GPU的系统，甚至可以在移动设备上运行。它拥有深厚的灵活性、真正的可移植性、自动微分功能，并且支持Python和c++。它的网站拥有十分详细的教程列表来帮助开发者和研究人员沉浸于使用或扩展他的功能。

15.Torch