做专才能做强

今年我是第一年参加BMC软件在美国举办的公司年会,会议即将进入尾声。由于是第一次参加,新鲜感比较强,趁记忆碎片没有完全丢失前简单记之。
业界都知道BMC是一家专注于IT管理的公司,但这家公司专注的基因从何而来,其专注程度究竟怎么样,仅仅从公司外部或者只是在公司的某个地区工作,其实是无法完全看清楚的。通过这次会议,有机会与公司高层和来自于其它地区的同事近距离接触,让我对BMC有了新的认识。从过去短短几天的会议来看,BMC之所以能够在IT管理这一领域长年保持强劲的竞争力,主要有以下三点特质:

1. 对公司每个员工尤其是技术人员给予了足够的认可。对于一家技术型的软件公司来说,IT技术人员绝对是公司在市场中攻城略寨的主力军之一。IT界从来就不缺乏技术天才,难的是如何领导一帮牛人,给他们创造优越的环境使其心无旁骛地投入到价值创造中。业界有很多这样的例子,近的有Google、Facebook等互联网时代的骄子,远的如IBM、Oracle这样的IT巨头,他们的共同点都是提供了非常好的研发环境,各自聚集了一班技术精英。而BMC在实现这一点之上更难能可贵的是,不光对于后端的研发技术人员,即使是通常总被划入销售体系的售前团队,BMC也给予了足够的重视。不论是在公司各位老大们的演讲中、在颁奖晚宴上对优秀技术员工的嘉奖、还是对售前的培训计划及激励机制的设计上,无处不体现了BMC对于技术员工的认可与尊重。

2. 公司管理层对于业界发展趋势的准确把握以及对公司业务范围的明确定位。这次会议,公司高层介绍了一些未来公司产品发展的思路和计划。虽然基于公司保密原则不能在此透露具体的细节,但我为其中的一些想法兴奋不已。如果最终这些计划都能一一成为现实,那我毫不怀疑BMC在BSM领域还将进一步巩固其领导者的地位。与同在这一领域的友商相比,BMC对于其它技术公司的并购并不算太多,但每次收购或者合作都是围绕公司核心业务发展精心考虑的结果,绝不多做,也不冒进。

3. 公司产品研发与市场需求紧密联系,响应速度快。无论多好的战略战术,最终要落地才有可能成功。与炙热的互联网产业相比,BMC所在的BSM领域还是属于传统软件领域。而这一领域最主要的特征之一,就是传统软件厂商会在某项技术成熟后才会采用且加入到自己的产品中,这样通常从产品设计到推向市场有一段较长的滞后期,可能是一年甚至是数年。而让我欣喜的是,BMC在软件产品上的升级,尤其是针对客户所急需的功能特性上的升级是非常快速的。以CLM为例,从我去年加入公司到今天才短短10个月时间,已经从1.0升级到2.1版本,并且在这次会议中看到了在不久的未来将发布的下一个版本。每次版本的升级都是来自于已有客户最迫切的需求实现,快速完成了从前端市场到后端产品的落地。

IT管理领域只是IT行业的一小部分,这种情况在云计算出现前或出现后都不会有太大的变化。而就是在这样一块小领域中,需要有BMC这样专注且专业的技术型公司,在发展自身的同时,通过与生态链上下游公司的合作,与同类型友商的竞争,不断推动这个行业健康发展。

谈谈自动化与监控系统的关系

三年前当云计算这个概念出现时,某些客户中的技术理想主义者就曾经提出这么一个问题:“既然云提供的是弹性计算资源,可随时调整。那能不能让我的监控系统发现我的业务系统资源不够用,比如CPU利用率超过80%时,能有个自动化系统帮我对这个业务系统进行扩容,或者是把这个系统自动迁移到另外一个物理机器上,业务系统非繁忙期再减少其资源占用或迁移回来。”这种美好的状态就像孙悟空的金箍棒,不需要时可缩成绣花针大小,需要时让它一柱擎天。尽管一再跟不同的客户解释这里面可能会存在的技术问题,但总有些人会认为既然虚拟化平台能够做到动态扩容和迁移,那这种理想场景是绝对可实现的。除非,是你家的产品能力不足。

好吧,那就让我们暂时忘记管理软件功能本身,来谈谈这个美好场景中可能会出现的问题:

1. 对于监控系统触发自动化系统的充要条件如何定义。比如CPU利用率超过80%,要持续超过多长时间才认为这个系统需要扩容(迁移)?如何判断CPU高占用率的问题是由用户访问造成而非系统的内部故障引起?不同的业务系统的重要性和运行特征都不一样,如何进行区分对待?在这里我们且不谈监控系统本身是否足够智能,能够从功能上满足上面的条件定义要求,光是让客户用书面方式把这些组合条件写出来就几乎不可能了。现实情况是,今天对于业务系统的升级,客户不光看的是我这个系统的资源够不够,还需要分析其资源使用情况的历史变化、用户访问的周期性、系统之间的关系、扩容后的性能预测等,这是一个人工智能的决策过程而非简单的机械式判断。

2. 到这儿可能会有人不服气,说我们企业的业务系统判断是否要扩容非常简单,才不像你讲得这么复杂。那好,我们来看看业务系统本身的架构。今天除了某些互联网企业(如Google、Amazon等),大部分的企业的应用系统不管是B/S还是C/S,其架构都是集中式计算。对于业务系统的扩容无非是通过Web前端增加Load balance、中间件服务器或数据库服务器配置集群来实现。先不说这种扩容的过程有多复杂,扩容后对业务系统的性能优化始终会有天花板,并不可能无限的扩大。所以,如果想实现真正意义上的弹性计算,对不起你还得把你的应用在类似于Hadoop的分布式平台上重新开发一次,让业务系统本身具备了弹性能力后再做动态调整吧。

3. 从管理的角度上来说,监控系统直接驱动自动化操作也是不合规的。我们知道,对业务系统的任何操作,大到换机器,小到修改一个配置文件或者删除进程,都是一次变更。即使是再小的一次变更,也有可能引起该业务系统或关联系统发生故障。同时在对业务系统进行操作时,尤其是关键系统是需要停机或暂停外部访问的,这就是为什么今天很多变更管理做得好的企业会有定期的变更计划,在预定的变更时间窗口内才对自己的系统进行维护调整。如果监控系统直接调度自动化平台去进行操作,而缺乏人员的审批和定时计划,就有可能造成潜在的系统风险。

当然,我并不认为自动化系统与监控系统之间没有任何关联,我只是认为这种集成并不是“理想化”的通过监控阀值直接去调用自动化系统进行操作。在真实世界里,切实有效的集成场景有以下两种:

1) 用户打电话到服务台反映某几个业务系统访问响应很慢,服务台在处理后对类似情况的多个事件进行分析,发现这些业务系统都共同调用了某个软件厂商的应用系统,于是事件升级为问题交给运维部门进行处理。运维部门通过监控系统对问题进行排查定位,确定根源故障是在应用系统的某个类,于是要求集成商在指定时间内提供相应的补丁。在补丁开发出来后,运维团队提交变更申请,申请被批准后,运维团队在计划的时间变更窗口内利用自动化平台对应用进行了快速升级。

2) 企业通过自动化平台把系统补丁或应用补丁在业务非繁忙期批量部署下去,某个补丁的缺陷造成了多个业务系统的资源占用高。由于自动化平台与监控平台的集成,运维人员可以了解到最近一次变更是在什么时候通过自动化平台实施的,分析可能与该补丁安装有关系,从而对该问题进行快速定位。

以上只是本人一些肤浅认识,如果你仍然认为自动化与监控系统需要具备天然的联动能力,那我只能说,祝好运。

云计算引擎:按需供应服务的自动化技术

半年没更新了,贴一篇上周BMC在上海开云计算大会时我的演讲记录充充数。
——————————————————————————————————————–
其实相对于自服务门户或者监控工具来说,自动化在云计算里面是比较吃亏的,因为自动化技术是隐含在云计算平台后面,对客户来讲即看不到自服务的界面,运维人员也无法看到非常漂亮的监控界面。但就像大家选车一样,车的引擎好坏往往决定了这部车的价值。自动化之于云计算,正如车的引擎。接下来的时间里,我将就云计算里面,BMC是怎么通过自动化解决方案为客户提供完整的云计算服务进行介绍。

首先请大家看两组图,左上角是邮局,在过去没有自动邮件分捡机时需要花大量人力做这样的分类,这样在一个地区里面可能有几十甚至上百个人专门做邮件的分类,但当90年代引入了这种邮件自动分捡机以后整个效率大大提高了,这是自动化的好处。第二组图是80年代电话程控交换机引入前,我们打电话需要有专门的人员进行接线,一个人员只能处理十几条线路;但有了电话程控交换机,今天一个通信管理人员已经能够负责上万家用户线路。所以我们可以发现,即使是在传统行业,采用了自动化以后,首先是整体成本下降了,因为人力减少。第二,效率提升了。现在邮件传达的速度,甚至我们打电话的速度,跟原来是不可同日而语的。除此之外,对于我们作为用户来讲是一个服务体验的改变及服务质量的提升。这两个是非常好的例子,告诉我们说,即使没有IT,没有云计算,传统行业也是需要有自动化技术。

今天我们讲云计算,对于一个企业来讲,我们认为其实是一条曲折的道路,这里面会经历以下四个阶段,我们称之为云所需具备的能力。第一,具备单点设备的能力。首先我需要一个基础的架构,在这个基础架构上面搭建一个虚拟化环境。第二,在此基础架构上需要具备自动化能力,能够通过自动化的方式对相关设备进行驱动,这个设备有可能是虚拟化平台,甚至有可能是虚拟化平台里面的数据库或者是中间件这样的组件级对象。第三是整合管理能力,我们所需要的不仅是单点设备处理能力,更希望云平台提供端到端的管理能力。最终我们要站在服务的角度去进行用户需求的捕捉,其目的是能够让IT资源以可以让用户理解的方式直接提供给最终用户。这四个能力无论是私有云,混合云还是公共云来讲,都是需要的。

在08年云计算刚开始在业界出现时,BMC发现所谓的云计算思路跟BSM的概念基本是吻合的,因为云计算相当于是BSM(业务服务管理)的一个最佳实践。在这个最佳实践当中,自动化是非常重要的一个组成部分,从应用自动化,数据库自动化,服务器自动化,网络自动化都是属于这种关键的能力,也是云计算所需要的能力。可能有人要问,为什么我们需要IT的自动化,今天管理IT,如果不需要自动化也可以管理得蛮好,用了IT自动化以后可能成本还会增加。我们从以下四个方面解释为什么需要IT的自动化。首先从成本考虑,一个服务器管理成本基本等于你去购买一台全新的物理服务器成本的三倍。今天我们还要在物理服务器上虚拟多个服务器,因此其实我们所面向的管理对象比原来更多,那么管理成本的剧增是毫无疑问的。第二,质量。根据每三方机构的调查,在所有IT故障当中,有80%是因为不恰当的变更配置造成的。在这种情况下,我们引用IT自动化手段可以把配置步骤流程化和合理化,尽量减少人为失误。第三,90%的问题是已知和可避免的,在IT自动化范畴里面我们需要做一些合规检查,能够在问题还没有发生之前,通过合规检查的手段及早发现存在的一些技术风险和漏洞。第四,应用发布速度的问题。今天不管是哪个行业,企业的业务系统越来越复杂,涉及的逻辑组件和相关部件会越来越多,对于企业来说应用发布所需要的环节复杂化了,通常应用发布所需要时间比预期超出60%。如果没有自动化软件的协助,这些时间是无法缩短的。

根据我们BMC在许多自动化项目的经验,我们总结出一个企业在迈向自动化运维过程当中,可能会有四个阶段,分别为标准化,脚本化,产品化和服务化。标准化的意思是说,在这个阶段,企业可能意识到我需要有一些IT操作的流程,虽然我没有一些自动化的工具,但是我可以通过人,通过文档的方式把IT日程的操作固化下来形成一个标准。这样以后涉及到相同类似操作的时候我们沿用这个标准来进行操作的执行。第二个阶段是脚本化,当我有了标准化以后,之前所设定的一些简单标准化IT操作流程可以通过脚本实现,这种情况下可以让内部的IT人员写一些脚本,再派人定期去运行一些脚本,或者利用crontab自动运行脚本。进入第三个阶段,当脚本使用越来越多的时候,企业会考虑到我要引用一些产品进来,可能是针对服务器的自动化,可能是针对桌面机,可能是针对网络的自动化。第四个阶段是服务化。服务化更多是指云计算当中的自动化概念,在这个阶段自动化不仅仅面向IT运维的部门,而是通过自动化把IT资源便利地交付给最终用户,这个我们称之为服务化的概念。对于大部分企业来讲,不一定一定会经过这四个阶段,但是基本上会经历这些事情,有可能是三个阶段有可能是两个阶段,但是你该做的这些事还是需要去做的。

第一个阶段我们称之为标准化阶段,哪一些东西我们可以把它标准化流程化呢?我们在银行的客户比较常见,就是每天做巡检。早上来了以后要安排一个人员登入到每一台服务器上面去,敲一个指令或者多个指令查看系统的状态,或者有时候没办法做正常监控的时候,可能要看一下应用系统配置文件的情况是怎么样的,这些都属于日常的操作。另外还有一个例子,我们经常会有一些业务系统的升级,一般来讲,一套固定的业务系统,我升级步骤基本是固定的,从做数据库的字段表修改,到应用的文件分发,或者文件的解压等等这些都是标准化流程。企业会把这些东西作为IT的流程固化形成一个文档,交给下面的人去做。首先在不考虑其他情况下,不考虑人力成本,不考虑出错的情况下,我们认为这已经比完全没有流程要好。但我们可以算一下工作量。比如今天有200台服务器可能是一个中型企业需要管理的,以我们做日常巡检为例子,一个人需要登入一台服务器查看配置文件,登入一台机器需要花两分钟时间,200台服务器共花6.7个小时,如果每天都安排一个人去做这样的事情,每周需要耗时33.5人时,或3.5人天,每年需要182.5人天。这还仅仅是一项检查,而我们常常可以看到,客户的这种巡检列表往往长达上百个。当巡检范围更多的情况下,我们耗的人天会更加大。

所以在第二个阶段,我们可以看看刚才的问题有没有可能通过脚本来实现。这里是一个很基本的脚本代码,把这个脚本到那台机器上运行之后去采集一个数据,接下来对检查结果进行输出,貌似用脚本的方式可以把时间成本降低了,因为我只要把这个脚本发下去,最后回收上来一个反馈值,我就可以完成工作了,大不了我把这个值再拿一个表记下来。但是使用脚本会有什么问题呢?第一,脚本应该怎么样进行定向发布,刚才我讲的只是一个通用脚本,但是很多时候,我们的服务器组是按照我业务系统类型进行划分的,我需要去检查的这些项并不是保证我每一台服务器都是一样。第二个问题,这个检查要求变了怎么办,我们还需要派人专门去修改特定的脚本。所以我们使用脚本程序存在三大问题,第一类是不安全性。脚本是以明文出现的,包括你需要登入的话要有用户名/密码,另外会掺杂其它访问信息。第二是难维护,当你进行修改的时候,你怎么来维护脚本。第三部分是难管理。

在第三阶段,企业考虑我能不能引用一些业界成熟的产品。这个图上我们以应用发布为例,基本来讲,我们会涉及到四个团队,首先业务系统会有应用开发的小组进行一个应用系统的打包,打完包在真正把的业务包部署到生产环境之前需要做一些验证,这是由我们测试或QA部门来完成的,接下来当这些包已经发下去以后,运维团队要进行维护,这个维护除了要维护业务系统以外,还要保证你现有服务器系统本身上面操作系统版本是能够按照你的应用系统要求进行升级的。第四部分安全的管理团队可能也需要定期做检查。通常来说,如果是一些产品化的话,我们会引用不同产品。但BMC我们提供的是一整套的自动化管理的平台,它能够把我刚才讲的这几个方面,从OS到数据库到中间件到应用,从发布到控制等的所有环节在一个平台上完整的去实践它。

自动化层面上我们会涉及包括从底层网络设备自动化;第二,服务器自动化,无论是物理的服务器,或者虚拟化平台;第三是数据库的自动化;另外是中间件自动化以及应用自动化。接下来再做一个对比,我们做一个业务系统上线,下面是传统用手工的方式去做的,上面是通过BMC自动化软件去完成的。首先可以看到,在手工阶段,可能是由一个业务系统的用户提出这么一个变更要求,一个新的业务系统上线我们需要去购买服务器,即使今天不去购买物理的服务器也需要去部署一个虚拟的服务器,这样我就需要有专门人去做。接下来交给网管,按照企业本身的要求,把指定的IP绑定,把我的服务器接入到网络当中去。接下来服务器要放到生产环境去,需要打补丁,需要有专门的技术人员做服务器的加固。前面三部分完成之后才是业务系统的部署,专门一个人来做业务系统应用的部署。最后企业考虑到,可能这个系统面向的用户量比较大,还需要增加一个Load balance。在真实的企业环境中,当然不是每个环境同一个人,也许是同一个人做不同的事,但是整个过程耗时是比较长的,需要从底层基础到应用。通过BMC自动化,我们可以实现:首先用户提出这么一个变更要求,自动化管理软件可以通过操作流程的逻辑调度把它串联起来,当这个步骤失败的话,应该怎么处理,通过这样一整套平台让业务系统能够快速上线。当然讲到这里,其实我们还没有到云,这是在自动化管理的阶段。

第四个阶段,也就是云计算的阶段,我们称之为服务化,自动化是面向服务的。自动化管理所对应的是资源管理,首先资源管理主要分为几大块,一个是服务器和应用自动化,另外网络上面我们可以直接对物理的网络设备做配置。再一个是数据库的自动化,在云环境当中部署相应数据库的软件。包括对于存储,可以直接到存储物理的层面上对它进行空间划分。BMC的Cloud Lifecycle Management能够支持业界主流的平台和系统,如VMWare、XEN等主流的虚拟化平台。对于网络这块我们开箱支持思科网络设备。在存储方面我们支持Netapp等。这些都是对于现有主流产品的支持。将来怎么办呢?我们可以看到在资源管理这里我们有供应者API,这个API是BMC留给将来更多厂商的一个接口。如果对于客户新增加的设备,可以利用API来对它进行支持,通过API你可以调用第三方设备的专业管理平台来进行统一管理。第二,云平台管理员服务蓝图,这是把服务的定义转化为真正的IT部署。在部署当中,我可以部署在单台的VM或者两台的VM,除了在VM里面安装操作系统外,接下来VM是要接入到网络层面去,我们会在网络层面上通过虚拟的网卡进行配置,这里面做的事情远远不像我们看到的那么简单,它在底下做了很多自动化的操作配置。第三,端到端的自动化的部署。在我们方案里面,我们进行操作系统部署和应用部署,并且提供操作系统的加固。什么是加固呢?当你完成这些应用部署以后,你需要去做一些合规检查,这些都是在部署过程当中完成的,所以我们称之为端到端,而不是仅仅停留在某一个层面上。第四个特性我们可以按照服务等级进行资源配置。比如在一个制造行业,今天要用云计算,我可能要把两个业务系统放到云计算里面来,一个是OA系统,一个是面向外面用户的网站。我们的策略引擎是通过标签的技术,当业务系统部署前要选择一个服务的级别,它会根据服务级别的判断该业务系统应该放在哪一个预先定义好服务级别的资源池,然后调用资源管理模块完成真正的部署。

我们网络自动化的配置可以根据多租户进行划分,在网络部署上会做Vlan的自动划分,保证不同租户的数据流在不同的Vlan中。另外,CLM自动化网络部署的时候,不光配置路由器交换机,同时也支持像防火墙、负载均衡这一类设备。这个我们称之为在物理层面上保证多租户用户数据的安全。第二个跟安全相关的是,当我的业务系统进入到云平台以后,其实它是需要定期做合规检查的,一个是本身系统级别补丁的合规,另外业务系统本身由于公司制度所要求也需要有一个合规的检查。这时候对云管理平台的自动化要求就不仅仅是软件或操作系统部署,而具有合规检查的能力。所以,从这两个方面保证了用户云计算平台的安全。一个是应用层面一个是网络物理层面。

接下来介绍两个案例,第一个案例是服务自动化的案例,客户是摩根士丹利。在业务需求方面,由于摩根史丹利有两个服务中心,他们发现在业务系统的升级过程中,首先,需要花人工去做的时间比较长,没办法保证业务的连续性;第二,人工去做有时候会有一些失误造成计划外宕机。所以在这种情况下,他们经过了多方比较,最后选择了BMC的Bladelogic解决方案,通过Bladelogic帮助他们提高了员工效率,估计每年节省27万美元。第二个案例是公共云的案例,客户是澳洲电信,使用CLM后,澳洲电信日常操作和安装任务所花的时间从天降到分钟级。
每个企业的IT愿景是不同的,在座各位无论你们目前是处于自动化的第一阶段还是第二阶段,或者希望往第三阶段,第四阶段迈进。BMC作为业界自动化领先的厂商,我们希望通过丰富的解决方案和项目当中大量丰富的经验,能够给大家提供更多的支持,能够为大家实现IT管理目标作出我们最大的努力,谢谢。

一周不使用PC心得

在过去六天里,我基本没有碰过鼠标、键盘。印象之中是除长途旅游外,过去十年与PC绝缘最长的时间。现将实际情况与心得简单记录如下:
1. 不用PC不代表与网络绝缘,尤其是今天数码产品横行的年代。过去几天里,我的ipad平均两天充电一次, HTC手机每天充电一次。
2. iPad上使用频率最高的五个应用,排名不分先后:Mail, Safari, 新浪微博, FeeddlerRSS, 东方日报。基本反映了目前我主要获取信息的渠道。
3. 过去几天读书的时间增多,主要阅读(注:大部分未读完)书籍:乾隆皇帝、黑客与画家、一个神秘事件调查员的秘密笔记(烂书一本)、佛祖在一号线、寻路中国。
4. 除非是工作所需,例如运行VM,做ppt等,否则iPad已经能够满足个人日常数字处理的要求。当然,这里面休闲的时间比大概会高达70%。
5. 这篇Blog的发布也是通过iPad的safari浏览器,所花时间与使用PC相比也只是拼音输入法和五笔(在PC上我习惯使用五笔)的差异。所以信息录入没太大影响。

浅谈虚拟化环境中的高可用设计

当越来越多企业考虑搭建云计算平台或至少实现虚拟化平台的今天,必然会想到如何将现有的IT系统往虚拟化环境中进行迁移,继而自然会思考对于过去在物理服务器中创建的高可用系统该以怎样的方式在虚拟化环境中得以保存。就本人浅显的认识,目前业界主要有以下几种方式实现虚拟化环境中的业务系统高可用性:

1. 充分利用硬件特性实现虚拟化系统的高可用性。以IBM PowerVM (PDF介绍)为代表,可以实现在一台物理服务器中划分多个分区(LPAR)来部署操作系统及相应软件,并支持在兼容的小型机之间进行系统不间断的分区迁移。

2. 通过虚拟化平台的软件功能进行操作系统级的高可用。例如VMware Vsphere + VMware HA的方案,又或者是基于Redhat Linux的GFS2+iSCSI+XEN+RHCS(红帽集群套件)方案。虽然也同样需要借助硬件的虚拟化特性,但主要是由虚拟化软件来实现。

3. 利用企业级软件的自身特性或额外软件实现软件级的高可用。例如DB2 HADR,或者是Oracle DataGuard+RAC方案。

4. 为什么需要在虚拟化平台中做系统高可用?我比较赞同这篇文章的观点,如果一个云平台(或虚拟化环境)扩展性足够强,能够非常快速的实现系统部署,为什么我们还需要对虚拟机进行高可用设计?举例来说,虽然你运行在虚拟化环境中的系统崩溃,但如果只要存放在共享存储中的数据没有丢失,且理想情况下你的系统包括应用能够于一分钟内在虚拟环境中快速启动,那还有必要做高可用设计么?可能会有人质疑,如果我的系统交易非常频繁,有可能在上一次交易完成未保存数据到虚拟机崩溃前的数据就会丢失,确实存在这种可能。不过我们想想,到目前为止,我们有多少企业会把关键的业务系统或交易频繁的系统放到虚拟环境呢?

以上仅属抛砖引玉,欢迎指正讨论 :)

了解Google云不可不读的四篇论文

如果你对Google云计算背后的技术感兴趣,那么以下四篇枯燥的论文就非读不可了(注:需要翻墙访问):

  • Chubby
  • GFS
  • Mapreduce
  • Bigtable
  • 云的服务管理究竟有什么用?

    在过去两年里,上面这个问题反复被不同的客户问及,甚至在公司内部也会有同事质疑:云计算看上去很美好,落地之后不外乎就是虚拟化,客户做到这一步就不错了,而我们的方案总谈服务管理,对客户到底有什么价值?在试着去解答这个问题之前,我能想到的是,对于一个未能解决温饱的人来说,给他推荐奔驰车无疑于缘木求鱼,甚至你愿意将奔驰免费赠其使用,也无用武之地。只有不适合的受众,没有无用的产品(方案)。
    我们所推荐针对云计算的服务管理平台,可以纳入所谓的Cloud Control System(CCS)范畴,是针对云基础架构的管理系统而非前者的替代品。客户在哪些情况下,并不一定需要云管理平台呢:

    1. 没有弹性使用需求
    我们知道,云最大的价值之一,在于能够供使用者按需申请IT资源,以用于业务系统的运行,并在系统生命周期结束后,再将资源释放回云资源池中。通过弹性的资源动态处理,达到充分利用IT资源,节省成本的目的。这种情景最常见的是在某些中大型企业的开发测试部门,因此他们对于云的建立是较为迫切的,成熟的云管理平台能够帮助他们在短期内部分或全部实现以上需求。但与此同时,有些企业搭建云平台,纯粹就是想将业务系统从物理系统中迁移到虚拟化平台,之后一劳永逸的使用,他们更希望的是业务系统迁移之后运行稳定,不出问题就好。

    2. 无须自服务
    一些企业IT部门因为长期所养成的“习惯”,或出于对业务部门非IT人员的不放心,虽然打算建基础云平台,但却不希望将IT资源直接暴露给最终用户,由他们自行选择所需要的资源数量。这时,他们更偏向于传统方式,由业务部门提需求打报告,经过层层审批,最后由IT部门工作人员来触发在云资源的分配。在这种情况下,云的自服务门户就可有可无了,或者只要有一个简单面向IT人员操作的界面即可。

    3. 自动化要求低
    有些企业尽管希望建测试云,把测试环境虚拟化,但一年里开发项目不超过十个,而且每次只要为开发测试团队准备一个操作系统的虚拟机即可,也不需要为操作系统进行系统参数配置,或者部署中间件数据库(纵使需要,也只要准备几个对应的虚拟镜像即可),更从没想过DevOps这类问题。这样,他们需要的是一两个能够熟练操作虚拟化管理系统的IT技术人员和维护简单的虚拟化平台就够了。

    4. 不要求标准化
    虽然我们说Iaas建立的好处之一,是能够帮助企业将IT资源的使用标准化,减少不合理的IT资源配置。但部分企业本身没有意识将IT资源的利用规范化标准化,又或者知道其好处但却无法通过自我分析将现有IT系统的资源使用抽象成标准云模板,而仅寄望于通过动态的资源调整技术来应付不同业务部门的需求。虽然最终可能会疲于奔命,回到虚拟化前的状态,但至少在短期内该问题并不突显。

    5. 监控需求不迫切
    没有做过IT监控就直接上云平台的企业几乎很少,因为通常考虑建云的企业其IT运维相对成熟。但这些企业有些可能觉得监控云平台与传统IT系统区别不大,或者没有找到合适的手段来监控虚拟化平台,故将监控的需求级别降低,打算项目的二期甚至三期再考虑。孰不知,当云平台采用虚拟化技术后,将进一步增加IT系统的复杂度和实时监控的必要性。

    6. 不需要资源使用统计
    在我所接触的客户中,大部分都考虑架设企业内部的私有云,因为没有营利的压力,不考虑资源计费,自然也就觉得云资源的使用统计可有可无。

    7. 没有异构虚拟平台管理的要求
    从“云”这个概念初现,就一直存在的一个话题是“是否所有IT系统都适合云化”。目前业界普遍赞同的观点是,非精确计算要求(精确计算要求的系统如电信计费、银行交易)的系统,或者管理类如CRM、OA系统比较适合放入云中;而从复合应用系统在虚拟化平台中的部署来看,Web服务器、应用服务器适合于x86的虚拟化平台,数据库如DB2、Oracle等还是运行在Unix虚拟化平台较为合适。有些企业在建设云的时候并没有考虑那么周详,从方便管理的角度出发,将IT系统一古脑的往x86平台上的VMware或XEN放,自然也就不存在异构管理的要求。

    上面讲了这么多,我无非是想说明,只要某个企业有建设云平台的想法,他就可能会有或多或少以上所提及的需求。除非上面各项因素他都不关心,否则我们是能够对症下药,为其提供合适的云服务管理解决方案。

    2010私有云厂商逐个数 – HP

    (声明:此系列内容所用数据均来源于互联网上的公开信息,文中内容仅属笔者个人观点)

  • 厂商名:HP
  • 产品名:HP Cloud Service Automation / HP BladeSystem Matrix / CloudStart
  • 上市时间:2010年5月(pdf)
  • 产品简述:
  • HP的私有云与其说是产品,不如说是解决方案比较恰当。与前面介绍的私有云厂商略有不同,HP的云解决方案由其服务部门负责,名为HP Software and Solutions Cloud Initiative,其中与产品相关的分为纯软件解决方案-HP Cloud Service Automation,以及基于刀片、存储、软件整合的解决方案-HP BladeSystem Matrix,其中所采用的软件为HP Cloud Service Automation for Matrix。前者适合已有硬件需利旧,或者管理规模较大的客户;后者适合于希望在短期内用上云平台的中小型客户。

    从官方的介绍来看,HP Cloud Service Automation是由多个软件组合而成,其中的核心模块即云资源的部署模块来自于BTO软件系列中的HP Server Automation,隶属于HP于2007年收购的Opsware其中一个软件。除此之外,HP SiteScope能够通过Agentless的方式对云环境中的服务器性能与可用性进行监控。

    HP还向企业提供了与云相关的咨询服务如HP Cloud Discovery Workshop, HP Cloud Roadmap Service, HP Cloud Design Service及HP Service Management Consulting Services等。

  • 产品特性:
  • Consolidate and virtualize the infrastructure into shared resource pools.
  • Design standard, repeatable service templates.
  • Make it possible to publish to a portal in a self-service format.
  • Automate the provisioning and monitoring of applications and infrastructure.
  • Enable server lifecycle management.
  • 虚拟化支持:
  • VMWare, Hyper-V, HP-UX

  • 集成性:
  • (注:暂未找到)

  • 产品截图:
  • 图形化方式定制服务模板

    定制服务模板时配置服务器组

    注:上图所示,定义服务器组时可以选择是物理机器还是虚拟化平台,同时可以定义该服务器资源的成本。

    配置服务器组时选择初始化的操作系统

    注:除了可以选择操作系统外,还可以选择要安装的应用程序。同时从截图来看,应该可以调整安装应用程序的先后顺序。

    服务模板管理主界面

    服务创建界面

    注:根据已定制并发布的模板,创建一个新的服务。从此图看来,应该针对普通用户和管理员的平台是同一入口。

    服务创建跟踪界面

    个人服务管理界面

  • 客户案例:
  • TechValidate Research on HP Cloud Solutions

  • 同类产品:
  • VMware vCloud Director, IBM Service Delivery Manager, Novell Cloud Manager, BMC Cloud Lifecycle Management

  • 参考链接:
  • HP Cloud Service Automation Brief(pdf)
    HP Matrix Demo
    惠普软件和解决方案云计划
    HP Launches CloudStart in Private Cloud Push

    下期预告:EMC

    安全问题将是2011年云计算热点之一

    从去年底到今年初业界关于云计算在2011年的发展预测来看,安全问题当之无愧将成为今年云的热点问题之一。原因是云计算里涉及到的安全因素很广,从基础架构层面到虚拟化平台,以及应用层面都有覆盖。其中既有传统数据中心就存在的“老”问题,也有因虚拟化技术产生的新问题。对此,InfoWorld列出了主要五点特别需要关注的云安全问题:

    1. Smartphone data slinging.
    2. Need for better access control and identity management.
    3. Ongoing compliance concerns.
    4. Risk of multiple cloud tenants.
    5. Emergence of cloud standards and certifications.

    有问题才会出现商机,对各IT厂商来说未尝不是一件好事。

    2010私有云厂商逐个数 – BMC

    (声明:此系列内容所用数据均来源于互联网上的公开信息,文中内容仅属笔者个人观点)

  • 厂商名:BMC
  • 产品名:BMC Cloud Lifecycle Management
  • 上市时间:2010年5月
  • 产品简述:
  • 早在今年5月,BMC宣布其Cloud Lifecycle Management解决方案之前,就已经跟Cisco合作,利用BMC的Atrium CMDB及BladeLogic 相关自动化产品与Cisco的UCS(Unified Computing System)刀片服务器打包出厂,提供所谓云的解决方案。而到了这个月初,双方的合作再次升级,提出面向服务运营商及大规模应用客户的ICDP(Integrated Cloud Delivery Platform),包括BMC的Cloud Lifecycle Management及Cisco的Unified Service Delivery (USD)。

    从BMC的各种宣传资料不难看出,在整个Cloud Lifecycle Management解决方案中,BMC的杀手锏是自动化部署的BladeLogic。这个自2008年5月收购来的产品,在BMC的数据中心自动化解决方案及云解决方案中扮演了越来越重要的角色。从BMC近期收购的公司来看,BMC还希望在自动化部署这块继续投入,加深加强自动化部署能力,例如应用或数据库的部署。另一点则是BMC在云解决方案中强调了IT服务的重要性,将Cloud Lifecycle Management与纯虚拟化管理区分开来。作为传统的系统管理四巨头之一(包括:IBM、HP、BMC及CA),BMC的IT Service Desk及CMDB一直是其重要产品成员,BMC甚至与SalesForce合作,将IT服务管理产品放到force.com上,作为Saas提供给中小企业用户。

  • 产品特性:
  • - A Self-Service Portal which it calls “My Services”
    - A Service Request Wizard
    - Administrative interfaces to support management requirements
    - An outwardly facing Service Catalog to support user provisioning based on access privileges
    - Cloud Management workflows in support of automation, multi-tiered reviews (including those by the Change Advisory Board when appropriate), governance, performance management, compliance requirements and validation that services are performing as they should once changes are made.
    - Optional integrations with asset management and BMC’s complete ITSM change and asset management
    portfolio.
    - The solution also provides cost analysis capabilities associated with the Service Catalog that can harvest and reconcile BMC and third-party usage and accounting resources.

  • 虚拟化支持:
  • 只查到与VMWare的合作,其它平台未知。

  • 集成性:
  • BMC提出与Cisco(服务器、网络)、Netapp(存储)及VMWare(虚拟化平台)的集成解决方案。

  • 产品截图:
  • 用户自服务主界面

    服务请求向导界面

    在填写服务申请时,可以选择追加应用软件包

    可以选择是否需要监控或合规检查

    注:感觉提供给普通用户是否会太复杂?

    可以对已部署的云资源进行调整,目前支持CPU及内存调整

  • 客户案例:
  • CSC deploys cloud lifecycle management tool
  • 同类产品:
  • VMware vCloud Director, HP Insight Orchestration, IBM Service Delivery Manager, Novell Cloud Manager

  • 参考链接:
  • BMC Cloud Lifecycle Management – Cloud Planning and Management Software – BMC Software
  • IDG Enterprise CEO Interview Series: BMC CEO Bob Beauchamp and CTO Kia Behnia | Cloud Computing – InfoWorld
  • BMC Moves To The Front Of The Cloud Class | IT Management and Cloud Blog
  • Cisco, BMC co-develop cloud platform for service providers
  • BMC buys app automation tech aimed at virtual, cloud environments
  • Thanks for the shout-out Novell!
  • BMC Manages the Full Service Stack on Secure Multi-tenant Architecture (pdf)
  • 下期预告:HP