本篇文章是深入理解Terraform系列的第一部分。在介绍文章中,我们讨论了为什么每家互联网软件公司都应该使用基础设施即代码(IAC)。那么本篇,我们打算讨论下为什么我们选择Terraform 作为我们的IAC 工具。
如果你在网上搜索“instrastructure-as-code”,很容易看到很多受欢迎的工具:
- Chef
- Puppt
- Ansible
- SaltStack
- CloudFormation
- Terraform
筛选出它们中你应该使用哪个不是很容易。所有这些上述工具都可以用于基础设施即代码。它们都是开源的,背靠庞大的贡献者社区,可以很好配合各种不同的云服务商。它们都提供商业支持,提供良好的文档——在官方文档和社区资源方面(比如博客文章和StackOverflow问答)。
更难以理解的是,您在这些工具之间在线找到的大多数比较只是列出每个工具的一般属性,并使其听起来像您可以同样成功地使用它们中的任何一个。虽然这在技术上是正确的,但它没有帮助。就像告诉一个程序员新手你可以用PHP,C,汇编都可以创建网站。这个声明在技术上是正确的,但却省略了大量的信息,这些信息对于做出正确的决定非常有用。
本篇文章,我们会分成几个特定原因来解释为什么我们会选择Terraform作为IAC工具。与所有技术决策一样,这是一个权衡和优先级的问题,虽然您的特定优先级可能与我们的不同,但我们希望分享我们的思维过程将帮助您做出自己的决定。以下是我们考虑的主要权衡因素:
- 配置文件管理 vs 配置
- 可变基础设施 vs 不可变基础设施
- 过程式的 vs 声明式的
- Master vs Masterless
- Agent vs Agentless
- 成熟 vs 前沿
- 综合使用多种工具
配置管理 vs 配置
Chef, Puppet, Ansible, and SaltStack 都是配置管理工具,这意味着它们设计初衷都是在现有的服务器上安装和管理软件。CloudFormation 和 Terraform 是配置(provisioning)工具,这意味这它们的设计初衷是配置服务器本身的(以及基础设施的其他部分,比如负载均衡器,数据库,网络配置等),将配置这些服务器的工作留给其他工具。这两类工具互相不排斥的。因为大多数配置管理工具可以在某种程度上多一些配置工作而大多数配置工具也可以在某种程度上做配置管理的工作。但是聚焦于配置管理或者配置意味着,这些工具对于特定类型的任务会更加合适。
特别指出,我们发现如果你使用Docker 或者 Packer,更加需要关注配置管理。使用Docker 或者Packer,你可以创建所需软件已经安装或者配置了的镜像。一旦你有这样一个镜像,你所需要做的就是运行它。如果你所需要做的是配置一组服务器,那么想Terraform这样的配置工具会比配置管理工具更加适合。
可变基础设施 vs 不可变基础设施
想Chef,Puppt,Ansible 这样的配置管理工具默认针对一种可变的基础设施范例。比如,如果你告诉Chef 安装一个新版本的OpenSSL,它就会在你现有的服务器上运行软件更新并且就地生效。随着时间推移,你会更新的更多,每台服务器都会构建一个唯一的修改历史。这通常会导致称为配置漂移或者误差的现象,其中每个服务器与所有其他服务器略有不同,导致难以诊断且几乎不可能再现的细微配置错误。
如果你正在使用像Terraform这样的配置工具来部署由Docker 或者 Packer创建的镜像,那么每次"修改"事实上都是一次新服务器的部署(就像是函数式编程中每次变量的修改事实上会返回新的变量)。比如,当我们部署一个新版本的OpenSSL,你会用装有新版本OpenSSL的Packer或者Docker来创建镜像,然后在整组新服务器中部署那个镜像,同时卸载老的镜像。这种方法减少了配置偏差问题的可能性,使得了解服务器上运行了哪些软件变得更加容易,同时可以让你任何时候都可以轻松部署任何版本的软件。当然,也可以强制配置管理工具来做不可变部署。但是对这些工具来说,这不是惯用的方式。不管怎样,使用配置工具都是一种更加自然的方式。
程式化 vs 可声明化
Chef和Ansible鼓励一种程序风格,您可以编写代码,逐步指定如何实现预期状态。 Terraform,CloudFormation,SaltStack和Puppet都鼓励更具说明性的风格,您可以编写指定所需最终状态的代码,IAC工具本身负责确定如何实现该状态。
例如,假设您要部署10台服务器(AWS术语中的“EC2 Instances”)来运行应用程序的v1版本。以下是使用过程方法执行此操作的Ansible模板的简化示例:
- ec2:
count: 10
image: ami-v1
instance_type: t2.micro
以下是使用声明方法执行相同操作的Terraform模板的简化示例:
resource "aws_instance" "example" {
count = 10
ami = "ami-v1"
instance_type = "t2.micro"
}
表面上看,这两种方法可能看起来相似,当您最初使用Ansible或Terraform执行它们时,它们将产生类似的结果。有趣的是,当您想要进行更改时会发生什么。
例如,假设流量增加,并且您希望将服务器数量增加到15。使用Ansible,您之前编写的过程代码就没法使用了;如果您刚刚将服务器数量更新为15并重新启动该代码,那么它将部署15台新服务器,总共25台服务器!因此,您必须了解已部署的内容并编写一个全新的过程脚本来添加5台新服务器:
- ec2:
count: 5
image: ami-v1
instance_type: t2.micro
使用声明性代码,因为你所做的就是声明你想要的最终状态,而Terraform计算出如何到达那个最终状态,Terraform也会知道它过去创建的任何状态。因此,要部署另外5台服务器,你所作的只需要返回到之前相同的Terraform模板并将计数从10更新为15:
resource "aws_instance" "example" {
count = 15
ami = "ami-v1"
instance_type = "t2.micro"
}
如果你执行了这个模板,Terraform会意识到它已经创建了10个服务器,因此它需要做的只是创建5个新服务器。实际上,在运行此模板之前,您可以使用Terraform的plan命令来预览它将进行的更改:
$ terraform plan
+ aws_instance.example.11
ami: "ami-v1"
instance_type: "t2.micro"
+ aws_instance.example.12
ami: "ami-v1"
instance_type: "t2.micro"
+ aws_instance.example.13
ami: "ami-v1"
instance_type: "t2.micro"
+ aws_instance.example.14
ami: "ami-v1"
instance_type: "t2.micro"
+ aws_instance.example.15
ami: "ami-v1"
instance_type: "t2.micro"
Plan: 5 to add, 0 to change, 0 to destroy.
现在,当您想要部署v2服务时会发生什么? 使用过程方法,您之前的两个Ansible模板都没有用,所以您必须编写另一个模板来跟踪之前部署的10个服务器(或者现在是15个?)并仔细更新每个模板到新版本。 使用Terraform的声明式方法,您可以再次返回完全相同的模板,只需将ami版本号更改为v2:
resource "aws_instance" "example" {
count = 15
ami = "ami-v2"
instance_type = "t2.micro"
}
显然,上述例子是简化的。 Ansible允许您在部署新的EC2实例之前使用标签来搜索现有的EC2实例(例如,使用instance_tags和count_tag参数),但是必须根据每个资源的情况为Ansible管理的每个资源手动找出这种逻辑。 过去的历史,可能会令人惊讶地复杂化(例如,不仅通过标签,还可以通过图像版本,可用区域等查找现有实例)。 这突出了程序IAC工具的两个主要问题:
- 处理过程代码时,代码中未完全捕获基础设施的状态。 阅读我们上面创建的三个Ansible模板并不足以了解已部署的内容。 您还必须知道我们应用这些模板的顺序。 如果我们以不同的顺序应用它们,我们最终可能会看到不同的的基础设施架构,而这不是您在代码库本身中可以看到的。 换句话说,要推理Ansible或Chef代码库,您必须知道所发生的每个更改的完整历史记录。
- 过程代码的可重用性本质上是有限的,因为您必须手动考虑代码库的当前状态。 由于该状态不断变化,因此一周前使用的代码可能不再可用,因为它旨在修改不再存在的基础设施状态。 结果,程序代码库随着时间的推移趋于变大和变得复杂。
另一方面,在Terraform中使用的这种声明式方法,代码始终代表基础架构的最新状态。 一目了然,您可以分辨当前部署的内容及其配置方式,而无需担心历史记录或时间安排。 这也使得创建可重用代码变得容易,因为您不必手动考虑当前的世界状态。 相反,您只需专注于描述您想要的状态,Terraform会自动确定如何从一个状态到另一个状态。 因此,Terraform代码库往往保持小巧且易于理解。
当然,声明性语言也有缺点。 如果无法使用完整的编程语言,您的表达能力就会受到限制。 例如,某些类型的基础设施更改(例如回滚,零停机时间部署)很难用纯粹的声明性术语表达。 同样,如果没有“逻辑”(例如if语句,循环)的能力,创建通用的,可重用的代码可能会很棘手(特别是在CloudFormation中)。 幸运的是,Terraform提供了许多强大的原语,例如输入变量,输出变量,模块,create_before_destroy和count,这使得即使在声明性语言中也可以创建干净,可配置的模块化代码。 我们将在第4部分,如何使用Terraform模块创建可重用的基础架构和第5部分,Terraform提示和技巧:循环,if语句和陷阱中更多地讨论这些工具。
Master vs Masterless
默认情况下,Chef,Puppet和SaltStack都要求您运行主服务器以存储基础设施的状态并分发更新。 每次要更新基础设施中的某些内容时,都使用客户端(例如,命令行工具)向主服务器发出新命令,主服务器将更新推送到所有其他服务器或那些服务器定期从主服务器中提取最新的更新。
主服务器提供了一些优点。 首先,它是一个单一的中心位置,您可以在其中查看和管理基础设施的状态。 许多配置管理工具甚至为主服务器提供Web界面(例如,Chef Console,Puppet Enterprise Console),以便更容易查看正在发生的事情。 其次,一些主服务器可以在后台连续运行,并强制执行您的配置。 这样,如果有人在服务器上进行手动更改,主服务器可以还原该更改以防止配置偏移。
但是,必须运行主服务器有一些严重的缺点:
- 额外的基础设施:您必须部署额外的服务器,甚至是一组额外的服务器(用于高可用性和可伸缩性),以运行主服务器。
- 维护:您必须维护,升级,备份,监控和扩展主服务器。
- 安全性:您必须为客户端提供与主服务器通信的方式以及主服务器与所有其他服务器通信的方式,这通常意味着打开额外的端口并配置额外的身份验证系统, 所有这些都会增加被攻击的范围。
Chef,Puppet和SaltStack对无主模式有不同程度的支持,您只需在每个服务器上运行代理软件,通常在一定周期内(例如,每5分钟运行一次的cron作业),并使用它从版本控制(而不是从主服务器)下拉最新更新。 这显着减少了变动的次数,但是,如下一节所述,这仍然留下了许多未答复的问题,尤其是关于如何配置服务器以及首先在其上安装代理软件的问题。
Ansible,CloudFormation,Heat和Terraform默认都是无主的。 或者,更准确一些,它们中的一些可能依赖于主服务器,但它已经是您正在使用的基础设施的一部分,而不是您必须管理的额外部分。 例如,Terraform使用云提供商的API与云提供商进行通信,因此在某种意义上,API服务器是主服务器,除了它们不需要任何额外的基础设施或任何额外的认证机制(即,只使用您的API密钥)。 Ansible的工作方式是通过SSH直接连接到每个服务器,因此,您不必再运行任何额外的基础结构或管理额外的身份验证机制(即只使用SSH密钥)。
Agent vs Agentless
Chef,Puppet和SaltStack都要求您在要配置的每台服务器上安装代理软件(例如,Chef Client,Puppet Agent,Salt Minion)。 代理通常在每个服务器的后台运行并负责
安装最新的配置管理更新。
这有一些缺点:
- 引导:如何配置服务器并首先在其上安装代理软件?一些配置管理工具可以解决这个问题,假设一些外部流程会为他们处理这个问题(例如,您首先使用Terraform部署一堆服务器,其中包含已安装代理的VM映像);其他配置管理工具具有特殊的引导过程,您可以使用云服务商API来运行一次性命令来配置服务器,并通过SSH在这些服务器上安装代理软件。
- 维护:您必须定期仔细更新代理软件,如果有主服务器,请务必与主服务器保持同步。您还必须监控代理软件并在崩溃时重新启动它。
- 安全性:如果代理软件从主服务器(或某些其他服务器,如果您不使用主服务器)下拉配置,则必须在每台服务器上打开出站端口。如果主服务器将配置推送到代理,则必须在每个服务器上打开入站端口。在任何一种情况下,您都必须弄清楚如何向正在与之交谈的服务器验证代理。所有这些都会增加攻击者的攻击范围。
再强调一次,Chef,Puppet和SaltStack都对无代理模式(例如,salt-ssh)有不同程度的支持,但是这些通常感觉它们是作为事后的想法加入的,并不总是支持完整的配置管理工具的功能集。这就是为什么Chef,Puppet和SaltStack的默认或惯用配置几乎总是包含一个代理,通常也包含一个master。
所有这些额外的动态部分都会在您的基础架构中引入大量新的故障模式。 每次凌晨3点收到错误报告时,您都必须弄清楚它是否是应用程序代码,IAC代码,配置管理客户端,主服务器或者服务器中的错误。 客户端与主服务器通信,或者其他服务器与主服务器通信的方式,或者......
Ansible,CloudFormation,Heat和Terraform不要求您安装任何额外的代理。 或者,更准确一些,它们中的一些需要代理,但这些代理通常已作为您正在使用的基础结构的一部分安装。 例如,AWS,Azure,Google Cloud和所有其他云提供商负责在每台物理服务器上安装,管理和验证代理软件。 作为Terraform的用户,您不必担心任何问题:您只需发出命令然后云服务商会在所有你的服务器上为你执行它们。 使用Ansible,您的服务器需要运行SSH守护程序,不管怎么样,这都会普遍运行在大多数服务器上的。
成熟与前沿
选择任何技术时要考虑的另一个关键因素是成熟度。 下表显示了每个IAC工具的初始发布日期和当前版本号(截至2019年5月)。
同样,这不是一个同类的比较,因为不同的工具有不同的版本控制方案,但一些趋势是明确的。 到目前为止,Terraform是此比较中最年轻的IAC工具。 它仍然是处于1.0.0版本之前,因此无法保证稳定或向后兼容的API,并且错误相对常见(尽管大多数都是次要的)。 这是Terraform最大的弱点:虽然它在短时间内变得非常受欢迎,但使用这种新的尖端工具所付出的代价是它不像其他一些IAC选项那样成熟。
混合使用多种工具
虽然我一直在比较整个博客文章中的IAC工具,但事实是您可能需要使用多种工具来构建您的基础设施。 您看到的每个工具都有优点和缺点,因此您需要为正确的工作选择合适的工具。
以下是我见过的三种常见组合在很多公司都很好用:
- 配置 + 配置管理
- 配置 + 服务器模板
- 配置 + 服务器模板 + 编排
配置 + 配置管理
示例:Terraform和Ansible。 您可以使用Terraform部署所有底层基础设施,包括网络拓扑(即VPC,子网,路由表),数据存储(例如,MySQL,Redis),负载均衡器和服务器。 然后,您使用Ansible在这些服务器之上部署您的应用程序。
这是一个简单的方法,因为没有运行额外的基础设施(Terraform和Ansible都是客户端应用程序),并且有很多方法可以使Ansible和Terraform一起工作(例如,Terraform为您的服务器添加特殊标签然后Ansible使用这些标签来查找服务器并对其进行配置。 主要缺点是使用Ansible通常意味着您编写了大量程序式代码,使用可变服务器,因此随着代码库,基础架构和团队的增长,维护可能会变得更加困难。
配置 + 服务器模板
示例:Terraform和Packer。您使用Packer将应用程序打包为虚拟机镜像。然后使用Terraform部署(a)具有这些虚拟机镜像的服务器和(b)基础架构的其余部分,包括网络拓扑(即VPC,子网,路由表),数据存储(例如,MySQL,Redis),和负载均衡器。
这也是一种简单的方法,因为没有运行额外的基础设施(Terraform和Packer都是仅客户端应用程序)。此外,这是一种不可变的基础架构方法,这将使维护更容易。但是,有两个主要缺点。首先,虚拟机可能需要很长时间才能构建和部署,这会降低迭代速度。其次,您可以使用Terraform实施的部署策略是有限的(例如,您无法在Terraform中本地实施蓝绿色部署),因此您要么最终编写大量复杂的部署脚本,要么转向编排工具,如下所述。
配置 + 服务器模板 + 编排
示例:Terraform,Packer,Docker和Kubernetes。 您使用Packer创建安装了Docker和Kubernetes的虚拟机映像。 然后使用Terraform部署(a)服务器集群,每个服务器运行此虚拟机镜像,以及(b)基础架构的其余部分,包括网络拓扑(即VPC,子网,路由表),数据存储( 例如,MySQL,Redis)和负载均衡器。 最后,当服务器集群启动时,它形成一个Kubernetes集群,用于运行和管理Dockerized应用程序。
这种方法的优点是Docker镜像构建相当快,您可以在本地计算机上运行和测试它们,并且您可以利用Kubernetes的所有内置功能,包括各种部署策略,自动修复,自动缩放, 等等。 缺点是增加了复杂性,无论是在运行额外的基础设施方面(Kubernetes集群都很难部署和运营,尽管大多数主要的云提供商现在提供托管的Kubernetes服务,可以减轻部分工作),还是学习、管理和debug额外的抽象层(Kubernetes,Docker,Packer)方面。
总结
我们想要的是一个开源的,与云无关的配置工具,它支持不可变基础架构,一种声明性语言和仅客户端架构。 从上表中可以看出,Terraform是唯一符合我们所有标准的工具。 它当然不是完美的,特别是在成熟度方面,但我们发现Terraform的优势远远超过它的弱点,并且没有其他IAC工具能够满足我们的标准。