Dev Notes

for {explore_world; eat_food; sleep}

在应用运维中,核心的工作就是产品部署发布。一个良好的发布平台可以极大的减轻运维工作的负担,减少失误。

如果是作为大型网站的运维人员,那么不可避免的接触到负载均衡的概念。我不清楚多少人确切的知道负载均衡的底层细节。写这篇文章的主要目的在于试图探讨云计算环境负载均衡设计

关于云监控平台,绕不开 awscloudwatch。基本上调用下来觉得亚马逊的监控平台做的还是挺靠谱的,比国内盛大的基于snmp的监控不知好多少(我不明白云计算平台怎么会选择用snmp监控,做技术决策的人太没有前瞻性了)。呃 虽然当年我也是坚定的 snmpd 的支持者,但是随着工作时间变长,真的发现在服务器上跑数据收集服务才是王道。

亚马逊的EC2算是给所有云计算的服务商树立了一座很难翻越的高峰。现在很多国内的“云计算”服务充其量也就是个VPS的服务。当然我不是说他们没有做工作,而是说做的不到位(当然也可能是国内的客户需求还处于“社会主义初级阶段”)。在云计算环境中,很多基础设施都是可以重用的,其中最重要的一个环节就是消息队列。在云计算环境中,很多服务为了做到水平扩容,数据交流一定会过消息队列。是否有可靠的消息队列服务是衡量云计算服务提供商水平的一个标志。

在此之前我对日志处理的概念只是停留在syslog程序的层次。最近我自己维护的一个日志转发程序可能需要改造以适应 storm 计算集群的需求,所以特地的在这方面做了一些思考。

最近更新了一下自己的业余项目metrictools。相比上次写博客时的设计,新的框架基本做到了分布式和高可用了。