系统运维秘诀大分享专题
本专题整合收录了有关系统运维
本文是
以下为正文。
在运维管理的过程中,我发现了很多有价值的秘诀,本文是这些秘诀的一个总结。虽然这些秘诀可能比较“唯心”,但是我还是把它们总结出来了,相信它们会对你有帮助的。
Dormando
下面先从技术篇开始。交流篇和实践篇会陆续整理放出。
Google
每一件事情都是在寻找平衡点。你也许会认为把你的系统和某个操作系统或某个
这并不意味着你的系统必须是平台无关的。其实我们的目的很简单:一变二,二变二十,一个系统必须可以应对各种突发事件。也就是说,如果一个系统管理员被公共汽车撞了,你有应对的方案!如果挂载的硬盘出现故障了,你有应对的方案!如果某些人运行了
不要手动构建任何东西。如果你一定需要手动构建,那么就做两遍,在做第二遍的时候把用到所有的命令都提取出来。
下面这一点十分重要:将新硬件上线到生产环境的过程不应该超过
下面这一条是普世真理:这个世界上不存在“一次性”的服务器构建。即使你的服务器只需要构建一次,但只要你构建过一次,就一定会有第二次。比如,当它损坏的时候,或者你必须进行一次重大的升级才能让它在在接下来的两年时间里更加稳定的时候。
测试,检查新构建好的服务器。这应该是比较容易的,因为你的构建过程都是自动化的,对吧!
脚本化的构建,意味着从某个
V4,对脚本进行测试。如果有问题,参考文档并修复它,直到它可以再次正常工作。这最多应该是一个星期的工作,而不是一个长达一年的浩大工程(因为那时,刚刚完成的
容易重新构建,并不意味着你可以忽视冗余。跳转盒,邮件服务器,计费网关,等等。如果其中的一半挂掉了却并不造成客户的宕机,生活将会变得更加简单。
按照以上方针来做的话,当某个设备在凌晨
下面这一条是个聊胜于无的解决方案:
备份是个严肃的话题。使用硬盘,烧录磁带。压缩它们,移动它们,并行地运行。对每一样东西进行备份!
如果你的构建过程是自动的,整个过程都可以被备份。如果到目前为止的几条你都做到了,那么一个真正的“灾难恢复”计划也许并不是那么遥不可及的。
监控你能监控的所有东西,而且要用正确的方法来进行监控。如果你的
如果你有
图形的作用是让趋势可视化。历史数据的作用是让你对数据进行精确的分析。不要把这两者混为一谈!对图形进行目测,很容易获得错误的数值。许多站点都使用
如果你要浏览数百张图才能精确地对一个问题进行定位,那真是糟透了。想要找出极值?请使用脚本提取数据。
如果你必须使用图形来解决问题,尽量把各种高级的概念整合到一个单一的页面中,然后让这个页面链接到拥有具体信息的子页面中。如果你在数据库负载中可以看到一个峰值,你可以点击这个页面对那些数据库进行概览,然后找到那一两台可疑的机器。基本的理念是尽快地缩小范围,尽可能的减少猜测。
无论是独立工作还是与开发部门合作,都要把尽可能多的有用的信息记录到日志中。无论是分析之后再保存,还是直接扔进数据库中生成报告,这些都无所谓。信息终归是有用的。
有用的例子:页面呈现时间(哪个页面?哪个设备?),面向用户的错误,数据库和内部服务错误,带宽使用率等。
建立图表,报告,并对产生的历史数据进行比较。
报告是十分重要的。每周或每天对你的基础设施变更进行汇总。
诚然,数据库运维是一套完整而独立的知识体系。但是有时,你不能把一切都丢给你的
拥有多个冗余的数据库会给你带来很多好处。对于一个庞大的
和
数据库配置一直在改变。现在出现了
善用你的过滤器!如果这些数据很重要,应该对它们进行备份!单片的
可以虑一下替代的解决方案。
横向扩展是我们应该走的路。应该使用常规的(即:可用的,价格适中的,标准的。而不是特便宜的!)硬件,然后和大家一起努力,确保各方面都可以进行横向扩展。
横向扩展从两台机子开始。另外,进行冗余的时候也会涉及到横向扩展。
尽可能的横向扩展,但是不要傻乎乎的扩展。在
留意一下替代的解决方案。按照用户或区域对多个数据库进行划分,同时避免增加过多的
一切都可能扩展!路由器,交换机,负载均衡器,
记得纵向扩展吗?以前那些邪恶的大型机们有很多核,很多
RAM
将以上两点合并起来,这意味着你只需要再次合并服务就可以了。这儿有一个负载均衡器,那儿有一个
作业系统(
对于开发者和系统运维人员来说,缓存可是个好东西,值得大力发展!的确,它是不可思议的。它是与众不同的。有时你可能必须要为它做一个权衡。有效地使用缓存可以让系统的整体性能提升
Memcached
测试它,玩弄它,并打破它。使用缓存会带来新的问题。要做好准备。
可以使用
维护这些东西是一个运维人员的问题。使用它们既是开发者的问题也是运维人员的问题。
当用户点击“给我所有的朋友发送邮件”的时候,把这个工作列入计划,然后马上说:“
作业系统是衔接各个服务的一个场所。博客投递
容易扩展。在请求进入的地方会有一些瓶颈,所有的工作线程必须要做的事情就是“拉”。这个是相对于
一定要安装安全更新!这十分重要!有很多疯狂的网络专家致力于在尽可能短的时间内给你提供这些更新。不要因为你害怕改变而让他们白白地付出劳动。
安全性也是分层的。明白你能确保什么,以及不能做什么。
在
搞清楚你的应用程序是如何工作的,它具体需要做些什么,并相应的进行调整。比如说,如果你的应用当中,只有付费页面和
对于
除了这些具体的建议之外,你还应该多读一些资料。自己判断,自己动手测试。如果你不知道一个安全模型是如何工作的,一时半会儿可能问题不大,但是这就会导致你不知道它的限制在哪里,甚至于无法判断它是否在工作。
基于测试,理论,攻击树的安全机制是不会在背后给你一刀的。当人们构想出模糊的安全模型的时候我也很喜欢它,但是像我这样的普通人都可以把它弄的支离破碎。
尽可能地进行巡查!登录,退出,以及使用的命令都要进行审查。对面向外部服务的所有访问,包括所有在请求中指定的参数,都要进行审查。对于你的应用程序来说,找出极值,然后彻底禁止输入超出范围的值。做你能做的所有事情,让数据以可追溯的方式工作。
如果你怀疑某些东西可能会被破坏,应该采取适当的预防措施,最好懂得一点计算机取证方面的知识(或者聘请一个专门从事这项业务的公司)。通过移除可疑的网络访问来做出响应,通过一系列的控制台或直接通过终端来检查整个系统。在已经被破坏的机器上,避免使用任何的服务,配置文件,或数据。很多人都是“清除了一个木马”,但是不知道它是怎么进来的——这样并不算真正地清除了这个木马。
如果你有安全团队,取证专家,或其他人手,那么你尽量不要接触那台机器,把它隔离起来。这意味着不要重新启动它来“清除一些奇怪的进程”。他们需要这些证据。如果你必须这么做,就去做吧,但是要记得把系统彻底地清理干净,打上所有的安全更新,尽量搞清楚他们是否已经破坏了重要的数据。做你能做的所有事情。
安全实际上是一种权衡。如果你做错了,开发者和用户们都会“揭竿而起”:他们会找到一些方法来绕过安全机制。如果他们可以绕过它,那说明你的工作并没有做好。如果他们不能绕过它,那么他们也许会放弃,然后离开。
紧抓访问控制。这意味着运维人员必须要为已经锁上门的“房间”提供一些窗户。不让开发人员进入生产环境,意味着他们必须抹黑解决难题。你的确不能让开发者们直接对服务进行修改,但是你可以提供日志工具和调试工具等等。对于各种产品来说,这些都是成功的秘诀。
【
原文:
在之前我们已经介绍过了
交流篇
订阅一些
阅读“达人”的博文。有时他们会投递一些有趣的主题,并且我们还可以通过评论直接和博主进行交流。
阅读几篇非“达人”的博文。通过他们遇到的问题,或者他们做了但没有做好的工作,我们可以找到一些感觉。(译注:这一点我个人深有体会。阅读一些新手的博文,我们常常可以得到启发,因为我们的一些做法虽然不会出问题,但是太程式化了,每天都重复同样的事情,我们无法进步,而新手由于缺乏经验,他们会不断地尝试各种做法,他们遇到的问题很可能是我们没有遇到过的,这对我们来说是一笔财富。)
想尽办法认识一些可以“痛扁”你的人。注意,一定要谦虚。
通过多种来源学习。通过多种方式吸收知识有助于找到最适合你的方式。
仔细研读其他公司成功或失败方面的故事。可以尝试打电话给他们的
如果你不断地进行尝试,你会发现你能做的事情远远超出了你的想象。以前从来没有见到过?那就试试看。
尽量不做一只危险的“菜鸟”。在你有把握不会把整个房间都烧掉以前,应该在“沙箱”中进行尝试。
真正地搞清楚冗余会对哪些事情造成怎样的影响。在什么情况下它可以发挥作用,在什么情况下它无法发挥作用。
尝试破坏你的系统。你可以在测试实验室中尝试,有时也可以在生产系统中这样做。了解一下当你处于受限状态中的时候可以做什么。比如,拔掉电源,抽出网卡,杀死进程,拔掉几根内存,抽掉硬盘,拔掉网线。
在冗余存在的情况下尝试替换和升级系统。
关于如何开发出可扩展的系统,有很多的资料可以参考。虽然你不用自己编写一个这样的系统,但是你要尽量搞清楚这方面的理论知识。
学习虚拟化。创建几个虚拟机,然后尝试着摆弄一下针对多台机器的应用程序。在本地的不同的端口上运行多个实例。
通常,运维人员要做一些系统承载量方面的计划。如果你不清楚应该把什么资源应该添加到哪里,你就不会知道应该添加些什么。
问题忽然发生,而时间是宝贵的。你必须要有自己的知识储备,并高效的使用它们。
经常练习着解决问题。挑选出一个可以正常工作的完美页面,然后试着跟踪一下它是如何工作的。
strace, ltrace, lsof,logs
搞清楚
熟悉
记录文档。
构建更多的工具。不只是为了你自己,也是为了其他人。你也可以给现有的工具添加一些功能。
信不信由你,运维人员和
运维人员必须要为服务器维护高带宽的网络访问。
彼此的分工要明确。
不要疏远他人。
尽可能的让大家觉得
你们都为同一个产品工作,你们的目的也是一致的。试着多配合一下。
一起开策略会议并不等于在一起工作。
开发人员更了解代码资源,运维人员更了解硬件和部署。把这一切都记在心里,你可以让一些事情变得更高效。
交叉培训。传播双方使用和设计工具的心得,这可以提高工具的可管理性和灵活性。
注意不要过多地要求对方。这不是“我们”
如果大家相处的很融洽,就可以从容地应对各种紧急事件了。
每个领域的运维都有他们自己的专长。网络,数据库,
一味地墨守陈规是消极的,令人厌烦的。让你的运维们重复的做相同的工作可以很快的增加他们的流失率。要尊重系统运维们在网络运维们的背后观察学习的机会。
时刻记得给人们尝试,学习和成长的机会。
注意别给你最优秀的运维安排了太多的活儿。你想要用的运维是那种有能力给自己找出空闲时间的人。
浑水摸鱼者(编者注:原文为
【
原文:
如果一个
在一周中,专门挑出一天来“清理门户”。更换掉所有存在故障的硬件。在欢度周末之前,确保一切都是完好无损的。
如果令人讨厌的小问题突然发生了,在早上要做的第一件事情就是永久性的修复它们。日志塞满磁盘的情况在上周发生了两次?明天再说吧!如果总是这样,这些问题会堆积起来……
如果你的构建过程是自动化的,充分利用这个优势来修复一些你可以马上修复的问题,或许也可以批量进行修复。
人们无法(轻易地)搞乱脚本化的任务。
从第二次开始自动化。如果第一次你必须手工来做一件事情,那么把你做的事情写入一个脚本。
带注释的脚本是绝佳的文档。与其把如何安装一些东西的方法详细地写到长达
脚本可以被放到自动化的构建过程中。如果要更接近这个目标,应该把一些经常做的事情都应该变成“零时间”的任务。
只做小规模的,独立的变更。
如果不是必须改变,那么就保持原样。
这也意味着你必须搞清楚什么时候才应该进行变更。找出什么东西是必须要进行变更的,然后对它进行升级,把它拿出来,让它标准化。
这里的
如果快速解决问题比较困难,那么你可以学习一些基础知识,做出一张清晰的升级路线图。虽然你的新邮件系统也许并不是你梦想中的、带有强大反垃圾邮件功能的巨大系统;但是架设两台配置干净的
大家都倾向于把未完成的项目放在那里置之不理。这是你要避免的。
一般来说,运维工作就是要让代码更好地运行。并行化,建立起回滚重启机制。
运行内容包括软件更新,安全补丁,配置变更。
使用
文件数量越少越好。如果只是为了推出一个新的数据库就要在
OS
坚持按照这些规范来行事。对一些方法进行调整和改进,让它变得更有意义。
永远不要紧抓着主版本不放。如果你的产品功能还没有永久性地冻结,你就必须要按照规范继续向前推进,把过去的一些事情都抛在脑后。
按照规范来做的事情越多,你的工具可以发挥作用的场合就会越多。用于支持其他运维领域的软件包越多,可以适应的场景也越多。
把流程文档化
把产品文档化
不要让文档出现冗余。如果一个脚本的帮助文档很长,可以进行引用。好的文档是一个持续改进的过程,它要一直保持准确。
把文档和代码,
过期的文档是有害的。留出一些时间来更新它们。当新的员工遇到问题的时候,和新的员工坐下来一起更新文档。
适当地使用问题跟踪系统(
使用
把配置文件、脚本等各种东西都放到源代码控制工具中管理起来。
为代码迁出提供各种入口。
保持迁出的严谨性,精准性和可控制性。禁止提交无法进行审核的变更。应该提交的变更应该是不用源代码控制工具也能容易地进行测试的(在虚拟机环境下,可以直接在一个单独的测试机器上进行测试)。
区分出固执的人和精明的人
不要避免聘请“老前辈”。某个领域的“老前辈”可能已经跟不上技术变革的脚步,以至于你可能不想聘请他们。但是,总是要有几个“超级巨星”来压住阵脚的。
不要避免聘请新手。我认识的很多人都是从一个真正的新手开始的(包括我自己!实际上,我认为我自己一直是一个新手)。经过这个阶段以后,他们会迅速地成长起来。现在正是确立职业生涯的时候。我相信我们中的绝大多数人都是这样的。当然,不包括那些不学习的人,没有积极性的人,或者入错行的人。
购买专有硬件的主要劣势是提供商锁入,你不得不总是使用这个提供商的产品。这可能是一个特殊的
如果所有东西都很深奥,都很不明朗,都还没有经过文档化,并且直接依赖于专有的负载均衡器……那么最好别用,因为用了你就不自由。
对你最终选择的提供商好一点。如果你每一次采购都在价格方面把他们逼到墙角,那么你只能得到一些垃圾硬件了。
有时候数据中心有很多潜在的可用资源。尽量把一些免费的远程协助服务写到合同里,比如就更换硬盘驱动器,提供商的出货
nginx
“一分钱一分货”这种思想是一个彻底的谎言。如果你无法让开源软件为你工作,需要协助,你可以找一个提供商。如果你的团队既睿智又积极主动,这些小伙子们想要搞清楚他们的基础设施是如何工作的,那么你一定无法抵挡来自于
MySQL
关于
【
原文:
最近一篇关于优秀的
《
我们不需要臭名昭著的编辑器。脚本就很好,我们钦佩那些精通
推荐专题:
Vista
服务器技术很有魅力,而且回报也很大,但是,工作站上的管理服务水平真的很重要。当
相对于其他系统的管理员来说,我们不会为了编写特定得脚本而给我们的系统增加潜在的安全漏洞,即使这会影响重复性的,手工任务,我们也在所不惜。取而代之的是,我们会假设某些人在某些地方遇到了同样的问题。我们会跳到最近的浏览器会话上,然后搜索一个经过全面测试的解决方案(其他人已经使用过这个解决方案了)。
我们尽量不去当“炮灰”。我们依赖于世界上最大的软件公司来检查我们部署的产品,经过时间验证的解决方案通常会胜过那些最新的,最伟大的解决方案。当一个用户有一些很酷的东西要尝试的时候,我们会把他们转到一个独立的子网或
我们可以像下一代极客一样极客,也可以像下一代极客一样创造出比“
虽然我们也涉猎过
像其他人一样,我们也可以凭借我们在服务器和网络产品方面的专业知识而趾高气扬,但是在专家的世界中,我们只是一些小角色。如果我们是
无论我们是否是
这是事实。有时我们不得不重启
编者按:优秀的
就像“
实际上,对于那些强制所有用户都要使用
虽然我们知道,对于许多
虽然我只能万般无奈地承认
编辑推荐:
对于正则表达式的排斥,甚至是漠视似乎都是“邪恶”的键盘造成的恶果。但是,对于我们来说,它是如诗般优雅的。它的强大表现在,任何其他的著名工具都无法和
编辑推荐:
当遇到一个看起来需要很多手工的,重复性的工作才能解决的问题的时候,我们这些守旧派的
编辑推荐:
如果有好几种方法可以修复一个问题或者实现一个目标,那么我们会选择花费更多的时间来开发一个既可以解决当前的问题又能防止将来发生类似的问题的解决方案,而不是简单地贴上一块邦迪牌创可贴。这是因为我们讨厌再次遇到那些在我们的印象中已经解决过的问题。我们认为,如果我们可以提前多考虑几步,防止将来发生类似的问题,那么在将来,我们可以节省更多的精力。通常我们都是对的。
enlightenment
当处理一个大问题的时候,我们在“尸检”上花费的时间要比我们解决这个问题所花费的时间多得多。如果不是工作压力太大,让我们无暇分身去研究这个问题,那么我们一定会搞清楚这个问题的确切原因的。
对于我们来说,通过
编辑推荐:
虽然在我们自己的机器上,我们可能并不运行
Unix
从“谎言”的角度来看,这些品质中的某些品质看起来会有点另类或者难以理解,那是因为他们本来就是如此的。其他人只能看到棘手和困难的时候,我们却看到启示,学习,经验,更重要的是,我们看到了逻辑。
【
原文:
系统管理员们踏上岗位,都已经具备了一些有关系统和服务的知识,如如何搭建生产环境,如何备份,如何监控系统等等,这些知识可能来自学校,可能来自自学。然而在工作了数年之后,系统管理员们对生产环境中的操作又会有了很多新的了解。下面,资深运维专家
在复杂的数据中心基础设施中,这种能力可以让你通过丰富的经验和自身的知识快速而准确地发现问题之所在。这种能力只可意会,不可言传。没有人会提供和“超自然故障排除”有关的认证的。
但是,那些重量级的问题解决专家都会遵守一些通用的,不成文的规则。这是我自己使用的六个规则。注意,它们适用于大多数情况,但是并不是所有情况。
虽然这听上去很简单,但是,令人吃惊的是,人们经常会修改他们用于连接到某个设备的网络接口的属性,这种行为的失败率很高。有时,这条规则可能是可选的,但是,如果有一种方法可以排除潜在的隐患,何乐而不为呢?如果你不得不修改这个接口,可以在这个接口上配置一个辅助
无论何时,只要有可能的话,都要提供一种可以把问题恢复到原始状态的方法。这意味着,在对故障磁盘做任何修改以前,应该为这个故障磁盘做一个映像,备份整个目录结构(你不可能知道你以后需要哪些文件,这样可以以防万一),或者,在你胡乱摆弄一个已经出现故障的操作系统以前,应该在物理服务器上抽取出这块磁盘的
在所有这些规则中,这条规则也许是大家最少遵守的规则了。毫无疑问,应该把一个问题和解决方法文档化。当你处在混乱状态之中的时候,你的解决方法也许并不明智。这就是说,当一个问题尘埃落定以后,要保留一份“尸检报告”,通过这份报告,你可以重新检查当时那个解决方案采取的步骤和途径。把它写下来,然后把它保存在安全的地方,最好是放到公司内部的
推荐阅读:
就像
推荐阅读:
这条规则只适用于
在必要的时候,如果想恢复到过去那个良好的状态,只需要简单地把文件拷贝回去,然后重启那个服务就可以了。因为注册表的存在和
一点点预防工作就可以省去一个月的周末加班时间。你应该对你的数据中心的方方面面进行监控,从房间的温度,机架,和服务器,到服务器进程检查,正常运行时间检查
如果在一个数据库由于分区过满而被破坏的一个小时以前,能收到一个
推荐专题:
这些规则不仅仅是需要遵守的规则——在你日常的工作中,这些规则应该是贯彻始终的。在
【
原文:
Linux
51CTO推荐专题:
我们常常会看到这样的问题:面对
一个开始系统管理员学习的方法是抓起一本相关主题的书来看(编辑推荐:
使用一个新的平台时,有一点非常重要:你必须真正地投入进去。对此,有一个简单的方法:看看你现在正在做的事情,无论使用哪个平台,试着在这台
我一直都认为,
我最初接触
最后,编程和实际写代码的能力也是有益的。不要相信那种到处流传的说法:管理员无需写代码。和周围优秀的系统管理员聊聊(有很多这样的人),
原文:
其他相关推荐:
Linux
今天,
很不幸,容易入门反而掩盖了需要做的维护工作,这些工作是保持系统稳定和使系统长期处于一个良好的工作次序中所必需的。一个单一的服务器通常可以在没有人工干预的情况下运行很长时间。但是前提是所有其他的位和块必需被提前配置。
关于这个列表,最糟糕的事情是你可能已经几个月或几年没有做这些事情了。你忽略这些事情中的任何一件,它们都会在最糟糕的时候回来作祟:比如流量高峰期,硬盘驱动器崩溃,或黑客攻击的时候。
我用配置管理来开始,是因为它和这个列表中的其余项有很大的不同。这一项对单一的服务器并不重要,但是如果你有许多系统,这一项就至关重要了。
配置管理是做了,但是,却给服务器安装程序添加了一定的初始化复杂性,所以如果你胆子小,不用也罢。不过,即使只有两个或三个服务器,好处也是相当巨大的。
这一项是显而易见的,大多数的系统管理员都会在这方面做点工作的。如果你没有一个可靠的备份策略,你现在需要马上调整它。哪怕只等一天,后果很可能就是是灾难性的。同时请确保你正确的做了备份,因为备份很容易做错。
◆定期运行
◆保持多轮的备份
◆自动的删除旧的备份
◆在你的现在的操作系统以外存储备份
◆保持和你的原始数据一样的安全性
◆合并所有的关键数据,关键的配置文件(更换服务器以后启动和运行系统可能会需要的任何东西),和最近的日志
紧跟着备份计划的是测试它。这意味着定期检查备份是否一直在做,产生的文件是否是有效的并且是否没有被损坏,以及他们是否包括你需要的所有数据。一个好的经验法则是如果你的备份每
51CTO推荐专题:
在最近几年,
51CTO推荐阅读:
跟踪
对你的网站来说,让你的
51CTO推荐专题:
Hardening
在一个基于
这个列表中的所有项都是最低限度需要完成的。它们很容易被忘记,直到你的系统已经被入侵为止,你可能都不会想起它们。对异常活动,黑客攻击和其他恶意行为的持续扫描,对于帮助阻止或减轻攻击来说,是十分重要的。
51CTO推荐阅读:
总结
这当然不是一个完整的列表,但是它也是十分广泛的,许多开发者和系统管理员只是没有时间、兴趣或知识来处理它们。更糟糕的是,许多开发项目被移交给了客户,而一旦技术团队迁移到另一个项目上,这些客户就没有能处理这些事情的职员了。
原文:
(
【
【编辑推荐】
网站安全问题可以说是现在最引人关注的问题。本文介绍了十条措施维护网站安全最低限度需要做到的事情,主要是给大家提供思路,为广大运维人员提供参考。这十条措施涉及到用户身份验证、数据加密传输、子网划分、灾难备份等多个方面的内容。
网站安全问题可以说是现在最引人关注的问题,有关服务器安全、用户隐私安全、企业数据安全的文章和争论从来没有停息过。系统管理员作为网站安全的第一道哨岗,既要确保网站服务器系统的安全,也要考虑到网站应用的一些基本安全防护。
在之前《
作者简介:
网站前端防护
一般可以采用用户名
对于重要的网站应用,需要根据
有关身份认证的具体操作,编辑推荐读者们关注
对于使用
如何建立
系统服务器侧应根据账号,对用户的使用行为进行详细的日志记录和审计,通过上述因素的日志记录,进行阶段性的审计(时间间隔应该比较小),从而做到发现用户账号的盗用、恶意使用等问题,尽早进行处理。
系统服务器侧应部署
相关阅读:
51CTO
系统的服务器端,尤其是数据库服务器端,应该通过配置和增加对用户非常长应用请求的过滤和处理模块,以避免由于数据库的自身漏洞未及时打上补丁而遭受目前流行的
网站服务器侧
系统服务器侧包括大量的服务器类型,包括数据库服务器、
参考阅读:
系统面临着巨大的服务量,服务器端的设备基本上都需要有多台服务器进行业务分担,这样才能提高性能,避免处理瓶颈的出现,因此,需要采用合理的负载均衡和负载保护机制:
◆对各服务器的业务流量进行有效地分担,可按照
◆负载保护机制需要实时地对每台服务器的
负载均衡相关推荐阅读:
任何系统都不能说
选择合适的备份策略,做好提前备份,包括全备份、差分备份、增量备份等等
选择合适的备份介质,包括磁带、光盘、
选择合适的备份地点,包括本地备份、远程备份等等
选择合适的备份技术,包括
作好备份的后期维护和安全审计跟踪
Linux
系统功能复杂,业务数据敏感,保密级别比较高,并且对不同管理人员的权限、角色要求都不尽相同,为了保证安全管理,避免内部管理中出现安全问题,建议作如下要求:
严格划分管理人员的角色及其对应的权限,避免一权独揽,引起安全隐患;
作好服务器机房的物理条件管理,避免电子泄露、避免由于静电等引起的故障;
应作好服务器管理员的帐号
作好服务器的端口最小化管理,避免内部人员扫描得出服务器的不必要的开放端口及其漏洞,实行内部攻击;
作好服务器系统软件、应用软件的日志管理和补丁管理工作,便于审计和避免由于安全漏洞而遭受到内部人员的攻击;
根据业务和数据的机密等级需求,严格划分服务器的安全域,避免信息泄露。
采用漏洞扫描和挖掘设备,对内网各服务器进行阶段性的扫描,并根据扫描所得的风险和漏洞进行及时地修补,以实现该漏洞为黑客使用之前进行自行修复的目的。
这方面的工具服务很多,比如
上面这十条,并不是做了就能够保证网站安全,而是要“做好”,必须做好。正在阅读这篇文章的运维人员们,上面这些,你都做到了吗?
【编辑推荐】
运维工程师到底都在做什么?要回答这个问题,当然是有经验的运维自己来说最为真实。运维到底需要做哪些工作?网络,系统,安全,存储,测试,研发……全都要会!说运维是神仙都不过分。本文作者在撰写此文时已经有了
作者前言:看到
《谈网站或其他服务器运维》,这里只谈运维工程师所要做的细节工作,
以下是个人观点,我说的只是我自己的想法,也是我发展的目标。你可以有异议,我们是来交流的。你对的我肯定会向你学习。因为我也在摸索。运维工程师至少要能做以下的工作:
1,网络工程师的工作
你至少要能配置
2,系统工程师的工作
你至少要理解各种系统服务,在出问题的情况下要迅速解决问题,而不是等系统工程师来解决。
3,安全工程师的工作
我不要求你一定要会各种网络编程,但是在服务器收攻击的情况下,没有防火墙的情况下,做一些简单的处理工作。
4,存储工程师的工作
至少要熟悉各个厂商的设备,各种备份和还原的办法
5,测试工程师的工作
在新版本上线之前,你至少要协同测试工程师做测试工作,因为你是运维人员,不了解程序架构导致无法解决故障,你也有一份责任。
6,研发人员的工作
运维工具都需要自已开发,熟悉开发语言,需要有过实际开发经验,否则工作会非常痛苦,我深有体会。
7,英语
不想说了,我的最大痛苦就在这里
8,好的沟通者
不出问题时候你可以打游戏睡觉,出问题的时候要能和项目人员沟通,快速解决问题,而不是推;我知道有很多人能推责任,你可以做替死鬼,但是离开这个工作你还能找到更好的;把责任推到别人身上的人,下次出问题的时候,绝对没人帮你。你要能和各个兄弟部门关系非常的密切,出了问题有兄弟帮你担责任;也要能非常扯皮,没事在会议上把别人都搞定。
9,库房管理员
数万台服务器让你来管理,任何丢失或者损坏都是不负责任和失职的表现。
10,运动员
不要回家就睡觉,有空还是运动下吧;在服务器
11,责任心
这个我不想说什么,这是你的职业精神。
12,组织者
给你
13,1
大家看了肯定觉得这个人是神仙,但是这必须是你慢慢能做到的,至少是我
因为现在的公司都在用招聘民工的钱招聘神仙,其次我也是想让各位看看,运维工程师要担负多少责任。
我去面试过的一些公司都说,你什么都会,什么都不精。我说对,正是需要我们这些什么都会的人领导什么都精的人。
我这句话没有贬低大牛的任何意思,只是当时一个临场的发挥。虽然说完就知道这个面试白来了,但是我还是想为广大的运维工程师出口气。
不怕千招会,就怕一招精。这仍旧是我给大家的建议。
最后给大家最后最大最重要的建议,做什么工作都可以,千万别做
我把
你可以做研发,出了问题可以测试,可以想办法慢慢解决;你可以做
这就是大家羡慕的
我公司是每月发
有的东西是企业机密,我不能透露也不能给你相关文档。
现在你要做的,就是设计你的服务器架构和网络架构。
这要先看你的网站是做什么的,每日有多少的人数访问,
例如,我打算站点初期每日有
然后可以用测试环境用软件检测在你的真实环境下的服务器压力,比如在
那么你可以得到你大致配置,其实市面上的标准服务器配置都足够你用了,比如现在的
等服务器,足够我跑一个这样简单的网站。其实说白了,双奔
站点现在是一台独立服务器,未来采用的是分布式架构,比如
mysql
哪些服务器可以放在一个防火墙下,哪些服务器不用防火墙保护,哪些服务器是内网服务器,
需要什么样的网络连接,最好是画出大致拓扑,方便你预算设备花费。
说的简单点就是买什么机器,你可以和
或者也可以和我一样,去挑选品牌服务器当然,现在你要看你服务器做什么的,
你可以亲自去电脑城看组装服务器,也可以打电话到
当然你不要告诉他们你只买一台,那你就别指望测试了。我告诉供货商
那么不到
最后就是价钱问题了,这个你自己看着办吧。让你公司的财务或者采购出马砍价付钱就是了。当然,除了服务器的服务,你最好还是想想有利于自己的服务,比如人家公司可以帮你拆箱子了什么的。我做的最弱智的一件事情就是,来了
机器选型的时候你也要为自己考虑,比如
首先要看你服务的地区是哪里,然后再去找当地的电信机房。毕竟,虽说全国已经互联了,但是各地的网速还是有差异的。
或者说有的
我的做法是在全国各个机房的服务器用
当然,你也可以到你目标服务的地方,找个可以上网的地方进行网络测试,比如说网吧包个机器……
好了,网络测试完了。那么你已经决定去哪个
然后你就可以电话或者自己提着礼品登门拜访一下
当然,你也可以找代理服务商,因为他们拿到的价钱有时候比电信或者网通给你的价钱低,但是,关键还是一个服务,因为你毕竟服务器放在那,晚上关键着急没人给你重启,机器出了问题其实按个
提着东西拜访一下服务商老大是礼节性的东西,东西不在多而在精,这样你未来谈事情人家也给你绿色通道,做事情要好做很多。当然,我也不反对你空手去,你一次租个
最后你要知道现在的中国还是卖方市场,你给人家牛,那你买的产品只能是……蒙牛
细心的检查一下空调数量,空调出厂和最后维护日期,网络布线类型和架构,是否可扩展,主备从电力等。
基本都是非常关键的东西,出问题了,人家可以给你更换一个新的,服务很好,但是你服务器挂一天的损失是多少,你可以自己掂量。
还有机柜电力,现在的机柜放置
或者不限制你用电,但是插线板只有
最后,我的一个机房包间里
结果我机器至少被热死了
好了,要是你买的服务器到了,你会发现你接到电话后,楼下一个
我最霉气的是:来了
你可以说,找电信的帮忙撒,废话,这个我还不知道。那我告诉你,我在某电信大楼工作时,从
虽然我在这个地方只干了
你可以说,雇民工撒,我又不是没雇过,钱得你自己支付,公司不给你报销的话,爽不?
下面是拆箱子,面对着堆积如山的
这时候,我的办法是……我打电话找来了
这么多箱子,除了机器和电源线留下,里头的导轨光盘等等你全部拿走,谁拆的多谁拿的多……
最后按照我的要求帮忙搬到机柜上……于是我们
于是人家
要是我们几个人拆,估计…………
最后再说个行价,服务器箱子一个价值
42U
好了,面对几千台服务器开始装系统,我不知道你会怎么想……
全部是
其次,我们公司安全部要求:必须得一台一台安装,先安装光板的系统(比如没有
办法1
这个时候前期的准备就比较重要了(我公司多用
我的办法是,我一看
当然这时候你最好是买个
办法2
办法3
办法4
办法5
还有更多的办法,只是暂时没想到,大家也可以谈论自己的办法。互相交流嘛。(
所以我喜欢
windows
好了系统装好了,电源线和网线连接完,和瀑布一样的。这时候还是尽量把他扎一下吧。
否则机器通风不畅,会导致热死。
简单办法就是电源线扎一边,网线扎一边。有钱的公司可以买个网线序号标,没钱就自己拿胶布标。
你可以随便扎,或者和给你老婆梳头一样,好好扎。哈哈
插交换机的时候,从上往下,从
想来想去这里也没啥值得关注的地方。所以就几行带过。
假如你的机器只有
一共大约有
这时候怎么办?
每季度和财务小
到了机房就是我一个人干活点资产,小
可怜我们这些干活的,短裤背心,
1,必须有资产管理系统,虽然这个其实是个很简单的数据库,但是你可以把每一台机器的品牌,硬件信息,操作系统信息,购买年限,质保年限等,你非常关注的东西做一个详细记录,并配发同一的资产编号。
比如我们的资产号,
服务器-
比如我现在的板凳就是一个资产号是:服务器-
购买时间是
有历史吧……
2,送到机房
看过我这个服务器去过的地方,羡慕不?见证我们公司的发展史。
服务器在购买合同确定以后,就应该按照配置记录资产,并且在财务备案,资产编号一定和财务记录相同。这样这个服务器走到哪里,都有备案和记录。现在要把这个服务器送到某个机房去,搬着走吧……汗
送到机房,我们要给服务器按照财务给的表格粘贴资产编号,选个顺眼的地方,不会磨损的地方。
一般是机器正面某个地方,然后是机器屁股后面某个地方,然后机器侧面把手的地方,粘贴
然后在粘贴这个机器的应用资产号和
应用资产号举例:
IP
并且在安装服务器的时候。把
这样远程上来都非常清晰自己在哪个服务器上,出问题时候也非常容易找到这个机器,不要闲麻烦,一切的麻烦都是为了以后快速的解决
当然啦,甚至在密码管理上你也可以用这个规则来设置密码,但是最好规则别让别人知道了……
3,把这些信息全部录入你的资产管理系统
系统无非服务器名,
4,资产系统软件交互,也可以说是监控系统。
企业可以开发一个软件,在装机的时候安装到服务器上。然后资产管理系统定时去取服务器上的信息,比如网络流量,
当然啦,你也可以在资产系统里集成一个远程桌面管理系统,自动载入用户名和密码,还有随机码,就可以登录系统。省的还得管理服务器密码。
然后用户的访问权限不同,看到的节面权限就不同。
比如说,监控人员没有登录权限,或者
5,还是IDC
话题继续回到我和财务小
小
虽然按照资产管理系统里导出的信息,机柜号,
怎么办?
库房管理的工作用上了,哈哈。你买服务器或者买笔记本电脑的时候有没有注意到箱子上的条码?
那个条码非常清楚的记录了这个机器的详细信息。所以黑莓手机或者
那么剩下的就简单了。
去买个这种条码标签的打印机,编辑成自己需要的条码,一个一个贴好,上面有你所有需要盘点的信息……
比如我们是从资产到机柜号到服务器名字到内外网
打印出来贴上去。然后买个扫描枪,和超市那种一样,不过你要买有存储功能的,否则你要端着笔记本去扫描,
然后我和财务
表上写的非常清楚你哪个机架没有哪个机器,哪个机器不在特定的位置上,哪个机器缺少……等等
这样比如说,机器位置不对扣
监控架构其实每个地方都有自己的做法,我也知道我的办法不是很先进,但是仍然拿出来和大家一起讨论
首先谈谈监控软件,一说起这个常用的东西
要是要监控服务一类的,那就只好启用大名鼎鼎的
或者就是自己做个脚本去定时探一下,不通了给你发邮件了啥的,你
作为
每天看着这些流量图是很枯燥的事情,那么我们没事只能想办法让他自动报警给我们了,于是
这里只谈经验,不谈详细的技术,因为我一说我的系统架构地球人都知道我是哪个公司的了,虽然已经离职,但是咱也有个职业道德,谢谢。
当然了,有些公司是有网络监控部门的。但是我就一直在想这个问题,所有的数值都可以用短信报警,你随时都可以收到信息。用这个部门干啥,让一群可怜的家伙
我就不清楚设置个节点,出现问题告诉人,人去操作会死啊,非要让人和机器一样一动不动的盯着显示器,
上面的帖子位子已经满了,下来的帖子在这里写。
我大概通读了
1,自动化,流程化你的信息管理
为什么要自动化,这年头流行办公自动化,你丫没事还拿着工单四处签字,老土了吧。
为什么要流程化,这念头流行流程管理,假如你公司没有一个固定的流程管理,出了事情,大家都不知道怎么做,各个部门的电话乱打,大家都一锅粥没有效率。所以,未雨绸缪,在没有出问题的时候,模拟出问题,多多准备,建立规范的流程,公司的每个人都要遵守,这样,流程化的管理
上面说的是一个原理和意思,用这样的理念去管理你的服务器应该如何去做?当然了,你假如只有
首先服务器采购录入资产管理系统(详细见上面有写),服务器的去向和调度都在管理系统里有提现。
这里说的是:如何去上架,维修,下架等流程控制
先说上架下架:服务器到机房以后,别人要用服务器怎么办?先可以到你的资产管理系统里,看你机房还有什么配置的机器多少台,然后让他们选择自己项目服务器的配置,数量。在流程管理系统中,把这些机器选中,生成一个表单,表单名字为
维修也一样了,机器坏了,或者需要重装系统,按照上面的流程,一步步走一遍,就可以了。年底统计机房一天要干多少活,省的某些领导认为机房人
在流程系统里重启服务器,重启服务器要是要流程,就太慢了,那么你可以做一个绿色通道,写清楚原因,重启哪个机器,直接提交给相关机房人员,在你的流程系统里绑定一个短信网关,机房人员可以收到需要重启服务器的短信。准确无误。
这样代替了无纸化办公,既有自己做的事情的每一个记录,又有相关人员管理,可以量化自己的工作,免得年终奖的时候
2,如何升级你的服务器
服务器老了,或者需要加内存加硬盘,怎么升级。
虽然说是很简单换个
但是,如何控制你的配件不丢失,确定的安装到机器上利用了呢?
简单,在服务器上做一个探测服务器配置的客户端,每天探测一次硬件配置发送到资产管理服务器上。
与资产管理系统的硬件配置做对比,出了问题就报错发一封邮件到机房工作人员,抄送流程控制人员一封就可以了。
至于的加内存的时候注意型号啥的问题就不说了,大家应该都没问题了
要说的是,假如你一个机柜上放的机器比较多,比如
简单,一个办法,但是还是需要你有力气,虽然有力学原理
比如有
你可以拽住最下面的把
下面最关键:
拉到最后,前面要留出来一点,轻轻的把上面
上面
所以在推进去的最后仍旧要留一点在外面,最后放下来了再推进去这最后一点。
然后就可以换或者加内存了。相对比较省劲,不危险,不会压倒自己,不会砸坏服务器的办法就是这样了。
【编辑推荐】
大多数系统管理员小组时间紧、资金少。这种情况下,要做的头一件事就是,借助自动化、时间管理和组织结构,最充分地利用现有资源。系统管理员需要掌握哪些软技能?系统管理员怎样才能减少工作场所中的压力和冲突?本文将为你提供一些指导。文章作者
系统管理员和系统运维的工作内容好理解,就是在技术上确保企业的
大多数系统管理员小组时间紧、资金少。这种情况下,要做的头一件事就是,借助自动化、时间管理和组织结构,最充分地利用现有资源。一旦做到了这一点,小组经理就可以改善系统管理员小组在别人心目中的看法和形象,从而争取更多的资源。
应对资源缺乏问题的一个好办法是,使那些最耗费时间的任务实现自动化,从而为系统管理员挤出更多的时间。自动化节省时间的途径有两个:一是让任务更迅速地完成,二是确保一致性,从而减少支持电话。
推荐阅读:
不妨先编写一段脚本,让输出的命令可自动执行任务。系统管理员只需要审阅命令以确保正确,编辑命令以用于特殊情况,然后把它们粘贴到命令行中。编写这样的脚本,通常比整个过程实现自动化更容易做到,有望为流程实现进一步的自动化打下基础。
与尽可能实现任务的每个方面都自动化的一套庞大系统相比,有助于处理普通情况的一段简单脚本可能更有用。使
寻找厂商提供的可使操作系统安装等任务实现自动化的工具,并积极使用它们。还要弄清楚如何使针对你环境所作的定制工作实现自动化。如果可能的话,使客户经常请求的那些任务实现自动化,并建立一个网页,让这些请求成为自助服务式请求。这个方法不但为系统管理员和客户都节省了时间,而且提高了客户满意度。
想最充分地利用可用资源,另一个办法就是运用各种众所周知的时间管理方法。时间管理意味着明智地运用时间——更聪明地工作,而不是更卖力地工作。系统管理员如何更有效地管理时间,这个话题本身就可以出一本书了。时间管理对系统管理员来说可能特别困难,原因是他们的工作常常受到打扰。为了提高工作效率,重要的是打破这个怪圈。你可以把请求写入到自己的个人待办事项清单,告诉对方你稍后会处理请求,这样可以避免工作受到打扰。要是你没法把请求写下来,那么礼貌地请对方给你发送电子邮件或故障单请求。注意选用对你来说最恰当的措辞,让对方觉得更容易接受。
一天当中工作效率最高、最不会受打扰的时间通常是早上,所以不要把这段宝贵时间浪费在收阅邮件上。迅速检查一下监控系统,看看有没有问题;浏览一下邮件,找出标记为“紧急”的邮件。然后编辑你当天的待办事项清单,确定工作事项的轻重缓急;要是事项太多,重新安排一下,把一些不太重要的事项留到下一天。每天的事项尽量排得细化点(比如半小时、一小时、两小时或半天),前提是要适合自己。为当天的待办事项确定轻重缓急,就更容易、更迅速地决定“下一步该怎么做?”把这头一个小时的其余时间用来处理优先级最高的事项。一天结束后,把待办事项清单上仍没有完成的事项重新挪到下一天的待办事项清单上。
每次处理一个文件或电子邮件。要是你根本没时间去处理,那看也不要看。每个文件或邮件第一次就要完全处理好,而不是挤成一堆,之后非得重新阅读。你在处理每个文件或邮件时,先看一下,决定是不读就扔掉、读后就扔掉、处理好后扔掉,还是回复后再扔掉?有时候,处理一个文件或邮件意味着要把它记入到待办事项清单中。而有时候,你可以马上回复邮件,或者把回复意见写到纸张文档的空白处,然后交还给发送方。文件或邮件尽量少归档。若有怀疑,就扔掉。
使尽可能多的电子邮件处理工作实现自动化。比如说,自动将电子邮件归类到不同文件夹,可按电子邮件列表或论坛、社交网站发来的通知、博客帖子、非垃圾邮件优惠券、最新资讯和厂商的特惠广告来归类。然后确定你想多久扫描那些文件夹,收阅感兴趣的内容,甚至可以设置在某几天后就自动删除。让文件夹将信息保存一段指定的时间(比如保存一周、一个月、两个月、六个月或一年),然后自动删除超过指定时间的邮件。要不断完善和更新你的自动化机制。
保持注意力集中。干净的办公桌、干净的电脑桌面、每个任务的虚拟屏幕以及干净的电子邮件信箱,可以减少分心、帮助你集中注意力。禁用电子邮件到达提醒功能也有帮助。安排好收阅电子邮件的时间,而不是立即收阅到达的每封邮件。《
想方设法减少每项任务所花的时间。自动化是可以做到这点的一个方法。另一个方法是预先想好决定,比如决定:始终在编辑文件之前先备好一份,随身带着个人数字助理(
让系统管理员提高工作效率、少受到干扰,那样可以最充分地利用手头的有限资源。从一项工作换到另一项工作要花时间。系统管理员换着处理的工作越多,浪费的时间就越多,工作效率也就越低下。控制系统管理员在一天当中受到的干扰次数,恐怕是减小压力、提高工作效率的最有效方法。
通过改变系统管理员小组的结构,就能做到控制干扰。对系统管理员小组进行划分,以便一线支持人员处理客户要求迅速予以处理的请求。处理起来比较费时间的请求则可以交给二级工作人员。高级系统管理员则负责大型项目,比如创建服务。这样的分工可以确保:你的优先事项与你同事的预期要求相一致,保护正在处理长期项目的人员不会老是受到干扰。听起来像是只有庞大的系统管理员小组才可以这么做,但其实连只有两名系统管理员的小组同样能得益于这个方法。一名系统管理员可以在早上保护另一人不受干扰,而在下午对方反过来可以保护他不受干扰。这个方法就是所谓的彼此保护不受干扰。
改善看法和形象
系统管理员面临的许多压力因素(包括缺乏资源)可能来自于看法和形象方面的问题。
◆看法是指别人怎么看待你;这是衡量质量的一种指标。
◆形象是指别人有多看重你;它是衡量数量的一种指标。
别人对你看法好的重要性很明显;而形象好的重要性也许不大明显。当系统管理员不引人注目时,同事可能觉得他们没有在作贡献、没有忙于工作、人浮于事或资金过多,或者纯属多余。这可能导致资金和人手不足,进而导致更坏的看法和更差的形象。
这里讨论的方法大多数侧重于如何改善别人对系统管理员的看法。要注意:要是别人对你的看法很坏,需要大量时间和精力才能改变别人对你的看法。系统管理员可以通过许多办法来改善其工作在别人心目中的形象,但只有在真正把工作做好的时候,才应该竭力提升形象。换句话说,不要拿搞砸的产品大吹大擂。
比如说,要提升你的形象,可以制作一个系统状态网页,以便你每天都出现在客户眼前。制作的这个网页还要有其他实用信息和链接,以便它可以成为一个主页。定期会见经理,既帮助他们了解你所做的工作,又帮助你在经理心目中有重要地位。
注意你的办公场地。与客户打交道的人应该选择比较显眼的办公场地。可以在市政厅举行用户组会议,那样每个想法、每个请求或每个批评都可以客观公正地记录下来。要弄清楚:记录下来是为了表明会认真考虑问题,未必是要落实什么。
内部通讯常常由系统管理员小组编制,但客户很少去阅读。编制内部通讯要花大量工作,可是太容易被忽视。与客户一起吃午饭、参加社交活动是保持良好关系的一个简单方法,而且通常比内部通讯来得更有效、更省时间。
想为你和你小组的正面形象负责任?那就要改善系统管理员小组在别人心目中的看法和形象。而系统管理员经理到时可以利用小组的正面形象,争取更多的资源。
未来需要怎样的软技能
由于新技术的出现以及客户要求越来越高,系统管理员的工作在不断变化。那么这些变化在如何改变所需要的哪些软技能呢?
当我母亲开始从事系统管理员(其实是“操作员”)时,只有系统管理员才能使用机器;他们把同事的程序输入到读卡器,然后等程序处理完毕后,将结果返回给同事。她的同事对于多快完成完成的要求与我们现在司空见惯的要求大不相同。她的客户群小得多,比较精通技术,但不像现在凡事都依赖电脑。她的工作也不像现在这样经常受干扰;她没有电子邮件要处理,她的一天主要是处理项目工作,而不是为许多不同的人处理许多小的任务。所需的软技能天生就与本文讨论的那些软技能不一样。
在过去的四十年,系统管理员需要的软性能发生了很大的变化;我预计,在接下来的四十年,会出现更大的变化,而这主要将归因于技术方面的变化;可问题是,我们不可能事先很早地预测到这些技术变化。不过我们可以预料:在接下来的几十年,本文中讨论的软技能对系统管理员来说会变得越来越重要。
网络一族的人数在继续增加,而保持连接、与别人进行联系的方式也在继续增加,因而使得沟通越来越以电子方式为主。人们越来越要求“始终联通”:如果你在线(为什么你不在线呢?),就能立即回复任何消息。电子沟通难免会带来干扰。时间管理和控制电子沟通,而不是让电子沟通来控制我们,将对每个人来说会变得越来越重要,对经常受干扰的系统管理员来说尤为重要。
考虑到我们大家收到的电子沟通数量势必会继续增加,我们就要关注自己发送的信息的质量和数据。系统管理员必须学会简洁扼要,态度又不能粗鲁。这既节省了自己写东西的时间,又节省了同事读东西的时间。
系统管理员的客户群会变得越来地遥远、越来越移动。对更多的人来说,远程办公将变得切实可行,在上下班途中办公也会变得切实可行。外包和国际化办公会继续成为两大因素,让系统管理员处在远离客户的地方。当系统管理员与同事没有挨得很近时,他们需要确保处理好本文提到的看法和形象问题。另外值得一提的是,打电话常常比通过电子邮件或即时通讯来联系远地的同事更有效。这样更有人情味,可以更迅速地处理问题,并减小引起误解的可能性。这还让你有机会运用之前提到的沟通技能。
移动计算设备只会变得越来越普遍——它们是每个人确保工作效率的一个重要部分,尽管它们也随之带来了技术挑战。不要排斥移动计算设备,而是要看到它们的好处,并积极迎接挑战,然后满足你同事的支持要求。对于将来的技术,也要这么做。要及早采用技术。关注最新技术如何有助于每个人、为此需要作什么样的变化。
随着计算设备继续变得更无所不在,之前独立的系统会日益融入到系统管理员支持的计算机和网络中。由于越来越要求系统“正常工作”,一旦某部分停止运行,面临的压力也会越来越大。你的一些同事会提出一些更高的要求,而一些要求比较低的同事会依赖于你所支持的系统。你需要培养这种能力:与同事积极有效地沟通,并支持技术水平各异的客户。
结论
系统管理员是一份充满压力的工作。但是一旦意识到造成压力的某些因素,就可以解决大部分的压力,同时能够明白这份工作的确是值得的。有众多方法可以减少与同事的冲突、处理资源缺乏问题和常受干扰的环境、解决优先事项相互冲突的矛盾,以及积极接受这个现实:系统管理员要对每一个失败负责。
【
原文:
本文分享的都是系统管理员在工作的时候容易犯的错误,比如安装
本文分享的都是系统管理员在工作的时候容易犯的错误,经抚琴煮酒整理并提供解决方法,希望可以给大家一些指导,避免在工作中出现此类问题。
作者简介:余洪春(
问题描述:
装惯了
我要求
2G For /
4G For swap
10G For /root
256M For /boot
其余 for /usr
安装正常,结果安装重启后便出现杯具了:
>> FreeBSD/i386 BOOT
Default: 0:da(0,a)/boot/kernel/kernel
boot:
原因:
通过网上查资料,了解到手动引导的全过程,发现了问题所在:
由于独立分区
解决方法:
通过
boot: 0:da(0,e)/loader
可以解决引导问题,然后进入
*
同样由于默认
ok load kernel/kernel
获得
ok boot
这样就可以正常引导了。
但是这样还没有彻底解决问题,随后还需要在磁盘挂载的时候输入
mount root>ufs:/dev/da0s1a
才能进入系统,而且每次重启都手动一次。所以其实问题没有彻底解决。
所以,为了避免以上的
2048M For /
4096M For swap
其余的均For /usr
问题描述:
公司有系统管理员离职了,有不少
解决办法:
大家养成好习惯,每次更改完
问题描述:
系统总监嫌托管的新
解决方法:
这个问题只要养成良好的习惯就可以预防,就是大家更改完
问题描述:
我在配置某机房
解决方法:
下面介绍的这个方法及其有用,强烈推荐给大家:为了预防此类问题出现,可以配置一计划任务
*/5 * * * *? root /bin/sh/root/firestop.sh
firestop.sh
service iptables stop
这样即使你的脚本存在错误设置(或丢失的)规则时,也不至于将你锁在计算机外而无法返回与计算机的连接。这样你就可以放心大胆的调试你的脚本啦。这都是生产环境下逼出来的,呵呵。
问题描述:
同事在处理
解决办法:
耐心跟他讲解了
mount –o remount,rw /
将
问题描述:
同事远程处理一台机房的
解决方法:
这时只有请专人到机房去处理问题了……
问题描述:
一个开发小组都是用内部机房的
解决办法:
此时处理办法有
问题描述:
我们的
/libexec/ld-elf.so.1: Shared object "libintl.so.8" notfound, required by "bash"
Connection to 192.168.21.36 closed.
解决方法:
①用单用户模式进入系统;
②扫描磁盘
fsck -y
③将文件系统重新挂载
mount -a
④将
chsh -s sh
重启后一切正常。
问题描述:
普通用户用
解决办法:
其实只要保存时加上:
:w !sudo tee %
就可以了。
“
系统管理员容易犯的错误和解决方法暂时就总结到这里,希望对大家有帮助!如果大家有什么问题,也欢迎在评论中沟通。
【
【编辑推荐】
系统管理员在面对书写文档的要求时,总会拿“系统应该自我记录”或“我没有时间写文档”为挡箭牌而拒绝编写文档,甚至还有人认为“缺乏文档使他的工作更安全”。但事实上,这些理由都是荒谬的。一个优秀的系统管理员应该将适当经历投入到良好文档的编写当中去。
本文是上周在美国召开的
系统管理员在面对书写文档的要求时,总会拿“系统应该自我记录”或“我没有时间写文档”为挡箭牌而拒绝编写文档,甚至还有人认为“缺乏文档使他的工作更安全”。
我对这个课程特别感兴趣,因为我是
编写文档时首先应该考虑的是谁是目标读者。如果目标读者是管理员,客户或管理层,那么文档的风格和内容将有所不同。弄明白目标读者后,写起文档来思路也会更清晰,最终的文档用途也更大。
高效编写文档的关键是在读者已经知道的需要知道的内容之间建立起连接,列举读者已知的一些内容可以帮助他们理解文档和减少文档被驳回的可能性。试问如果你写的文档目标读者都已经全部了解了,那你这个文档还有存在的必要吗?同样,如果你写的文档让目标读者丈二和尚摸不着头脑,那么他们会有兴趣读下去吗?
重要的信息在文档中可能会出现多次,但要注意措辞适当,不要一味使用重复的字眼,那样会让读者觉得你在反复炒剩饭。
编写文档时还需要注意语态。如果是技术文档,常常使用被动语态,如果是教学用文档,使用主动语态更好(编者注:这个比较适用于英文的情况)。此外还需要注意词性,不要表错了情,会错了意。象对待卷宗一样对待文档是个好主意,举证责任在撰稿者,前面没有介绍过的东西在后面就不能提,否则在接受盘问时你会被问的四分五裂。
文档写完后,编辑和校对很重要。编辑最好由理解材料的人进行,他们可以帮助重新排列文档章节以提高可读性;校对则需要敏锐的眼光审查拼写和语法,校对人员不一定要完全了解文档中的技术术语。经过编辑和校对的文档应该拿给既不是目标读者,又不熟悉该主题的人阅读。如果他读完后不能根据文档的内容确定目标读者,那说明文档还存在严重的问题。本来你是写给同为系统管理员的人看的,但却不见一条命令或操作步骤,这就好比是牛头不对马嘴,这样的文档只能被扔进垃圾桶。
系统管理员必须展示文档对自己的工作和整个组织都是有益的,否则就没有存在的必要。
有多人参与编写相同的文档时,就涉及到使用协作工具了。没有哪一个协作工具是最好的,重要的是确定需求,选择最适合的工具。一般来说,任何工具都能够处理多种格式的文档(如数字和印刷)。
文档写完后事情并没有就此结束,还应该定期评估和保持更新。确保文档的准确性非常重要,如果不这样做,文档就会渐渐失去其价值,这种情况在现实工作中是很常见的。一开始大家都兴致勃勃地编写文档,当写完后就放在硬盘的某个角落,不管文档记录的事情如何变化,都无人再问津,久而久之,文档就成了摆设,等到需要使用的时候才发现文档已经失效了。因此文档应经常更新,养成良好的文档维护习惯是成为优秀系统管理员的必备素质。
原文:
【编辑推荐】
本文是一位资深系统管理员所写的职场经验。对于刚刚入职的系统管理员来说,这些都是十分宝贵的意见和建议。本文作者告诉大家如何处理好在企业内同事与领导之间的关系。相信刚刚走进系统管理员的你会对自己的工作明朗很多。
编者按:本文是一位资深的系统管理员对自己工作经历的描述,并且告诉大家在职场中需要注意的事情。这些宝贵的经验对于一个刚刚入职的系统管理员来说无疑是一份无价的财富。
一、良好的人际关系比什么都重要。
俗话说得好:先做人,再做事,良好的人际关系是你成功的关键条件之一和愉悦工作的基本条件之一,千万不要以为技术第一,其实技术人成功的条件之中,技术未毕是排在第一位的。其实在公司的人事架构中,技术类岗位往往是排在中下位的,所以我觉得仅仅只跟本部门的技术类同事打交道是不够的;你应该多跟其它部门的同事,如行政部、人事部等部门的同事多接触下,多了解下公司的企业文化和内部规定及人事架构,这样对自己的成长也是有帮助的;抚琴煮酒以前在公司上班时,往往三个月都不知道自己公司的董事长和总经理长什么样,其实这样不好,万一哪里在他们心里留下一个目空一切的印象,很影响仕途的噢。尽量在不影响公司的内部规定的前提下,帮助能帮助的人,多跟其它部门的同事多聊聊,多沟通,这样就算你是在一个新公司里,也能够很快溶进去,很快进入自己的角色。
二、正确处理跟本部门同事的关系。
有句老话:不要跟同事做朋友。很不幸,这句话并不能适用在系统管理员身上。如果是一个大型公司,比如超过
切忌的二件事:第一、不要以技术压人,这个没意思,我从来不作;二、也不要以老员工的身份欺负技术新人,这个更不推荐了,这只能说明你的无知。系统管理的工作其实就是搭积木,只要愿意花时间的话基本没什么难度。而网络及网络安全这块,我跟他们沟通得就更多了,比如要将内网的某台服务器作
不要冷冰冰的做人,一张笑脸比什么都重要。在本部门同事的处理关系上,我的做法是:能做同事就做同事,能做朋友就尽量做朋友,毕竟多一个朋友多一条路;所以,以前公司的同事们,只能能够聊得来的,我基本都保持联系;平时或周末都会跟他们聚下餐,大家轮流聊会天,既减轻压力,又相互了解对方公司的一些趣事,何乐不为
关于饮酒·聚餐
周末,同事聚餐。我们选择是平时总在一起吃饭的地点“三顾茅芦”,点了六个菜,连我在内四个人,我做东;因为前面几次都是同事们请了,这次算我回请,我们实行轮询制
三、遇见领导要服软。
二个原则:一、在原则性的问题要服从上级领导的管理;二、千万不要越级报告,无论是国营还是外企,这二个心得体会赠予给刚刚上班的小愤青们,如果确实体会不了,建议仔细阅读《杜拉拉升职记》三部文章,里面许多故事都是挺真实的,特别是越级报告这个问题,短期来看,你可能会取得局部的胜利,但从长远来看,你绝对是最大的输家,因为没有领导会喜欢一个越级报告的下级,哪怕你的能力再高也是一样。抚琴煮酒第一工作是在某大型国营企业做企业网管,主要是负责
我当时就很迷惑:为什么许多没有能力的人都当了
四、明确你的发展定位也是很重要的。
作为一个系统管理员,即
另外,这里说个题外话,英语对系统管理员很重要,因为许多新产品和新技术,基本上都是从国外引进的;要想熟练的掌握及应用,英文是必不可少的基本功之一;而外企是不用说了,我们向国外的上级
五、系统管理员一定要明确自己的企业定位。
老板们现在越来越喜欢
作为系统管理员,并不是你的作用有多大,而是你将技术转为生产力有多高而矣,所以千万不要以为公司缺了你就不转,一定要抱着平常心的态度去工作和生活,我现在认识的大牛们,基本上都是谦虚和平民化的,这个也值得我们学习。平时还是要注意学习的,毕竟新技术是层出不穷的,能力不是天生的,这个需要后天培养。你还可以通过博客等形式发布自己的工作或者学习心得,或是率先掌握一门新技术,并率先向社会推广这门新技术。分享是一门艺术。在分享的同时,一定会伴随着理解、应用、总结、提高、表达甚至推广方面的提高,这对个人的技术提高和社会影响力的建立有着非常的意义的,这个目前我也是努力的方向和目标之一。
六、一定要有效率和简单的工作。
其实作为系统管理员,许多工作都是重复性的,特别是一些维护和备份工作,这个时候你完全可以编写一段
七、系统管理员要明白自己在公司的作用。
作为系统管理员,一般都会职守公司的
另外,随便透露公司的资料及敏感信息、上班时间接私活,这些事情尽量都不要做,都是些犯忌讳的事情;另外一件事就比较头疼的事情就是,每个公司,无论大小,都会有一些政治斗争,这个时候该怎么办了
下次工作时,记得找一个工作环境比较单纯点,这些事情其实遇见一次是好事
八、其它方面就是身体相关了。
有时候,服务器迁徙的活还是比较重的,
另外一个就是夜班值守的问题,这个就比较头疼了。我一般就是白天注意多休息下,晚班的时候会将手机邮开通,音量调到最大,下半夜时能睡会是一会。别的网站崩溃了不要紧,如果是电子商务型和广告类型的,那就是钱了。所以系统管理员也要注意锻炼身体,平时可以办一张健身卡,周末去锻炼下身体,平时能走路的话就不要打车了。
另外,要注意心里方面的压力,因为我们的平均故障处理时间不能超过
作者博客:
【编辑推荐】
春节长假将至,有些系统管理员们被老板要求写一份公司的软硬件维护清单,对于没写过此类文档的运维朋友们而言会感到很苦恼。本文整理收集了一些软硬件系统维护清单,有些来自微软、
春节长假将至,有些系统管理员们被老板要求写一份公司的软硬件维护清单,对于没写过此类文档的运维朋友们而言会感到很苦恼。
系统维护清单该怎么写?
其实不光是在长假前后,系统管理员平时也应该养成按时(比如每天、每周、每月)按照维护清单进行软硬件维护的习惯。
简单而言,系统维护主要包括如下几个方面:
保持软件和系统的更新。软件更新通常包含
杀毒软件的更新和定期查杀病毒。
检查你的系统监控数据是否完好的保存。各种监控。
检查系统的备份是否完好的保存。备份的重要性相信不用再强调了!
检查机房的物理环境,如温度、湿度等。
检查硬盘
……
从某种角度而言,系统维护清单都应该是系统管理员们必须遵守的铁律。
具体的系统维护清单,其实不少厂商(尤其是微软和
微软BizTalk Server
Steps | Reference |
Check for failed disks in the hardware RAID (reliability check). | "View Disk Properties" in the Windows Server 2003 product Help at http://go.microsoft.com/fwlink/?linkid=104161 |
Check for messages requiring manual intervention such as suspended messages (reliability check). | For information about manually checking for suspended messages see "Investigating Orchestration, Port, and Message Failures" in BizTalk Server 2006 R2 Help at http://go.microsoft.com/fwlink/?linkid=104169 For information about performing automated monitoring using Microsoft Operations Manager 2005 see "Suspended Message Alerts" at http://go.microsoft.com/fwlink/?linkid=105059 |
Check the event logs for errors and warnings (administration check). | BizTalk Server 2006 R2 errors and warning events are saved in the application log. The event source is "BizTalk Server 2006". We recommend that you monitor the event log using an automated solution such as Microsoft System Center Operations Manager. For more information, see Monitoring with MOM 2005 or Operations Manager 2007. |
Steps | Reference |
Ensure that each host has an instance running on at least two physical BizTalk servers (reliability check). | |
Ensure that each receive location is redundant (reliability check). | |
Ensure that the SQL Server Agent service is running on the SQL server (administration check). | Monitoring SQL Server Agent Jobs How to Start the SQL Server Agent Monitoring SQL Server Agent Jobs and Databases "SQL Server Agent" in SQL Server 2005 Books Online athttp://go.microsoft.com/fwlink/?LinkId=106728 |
Ensure that all SQL Server jobs related to BizTalk Server are working properly (administration check). | |
Ensure that the SQL Server jobs responsible for backing up BizTalk Server databases are running normally (administration check). | |
Ensure that the latest security updates are installed (security check). | Microsoft Update site at http://update.microsoft.com/microsoftupdate/v6/default.aspx |
Analyze weekly performance monitoring logs against baseline and thresholds (performance check). | Monitoring Throttling Using Performance Threshold Rules Using the Performance Analysis of Logs (PAL) Tool |
Ensure that the system is not experiencing frequent auto-growth of BizTalk Server databases (performance check). | Defining Auto-Growth Settings for Databases Guidelines for Sizing the Tracking Database Identifying Bottlenecks in the Database Tier "Database File Initialization" in the SQL Server 2005 Books Online athttp://go.microsoft.com/fwlink/?LinkID=101579. "SQL Server Maintenance" in Best Practices for Configuring SQL Server |
Run SQL Server Profiler during high load to check for long response times and high resource usage (performance check). | "Using SQL Server Profiler" in the SQL Server 2005 Books Online athttp://go.microsoft.com/fwlink/?LinkID=106720 |
Ensure that message batching for all adapters is appropriate for resource consumption or latency (performance check). | Configuring Batching to Improve Adapter Performance "How to Design a Performant Adapter" in the BizTalk Server 2006 R2 Help athttp://go.microsoft.com/fwlink/?LinkId=106720 |
Ensure that the large message threshold is appropriate for resource consumption (performance check). | How to Adjust the Message Size Threshold "How BizTalk Server Processes Large Messages" in the BizTalk Server 2006 R2 Help at http://go.microsoft.com/fwlink/?LinkId=82351 |
Steps | Reference |
Ensure the master secret key is backed up and readily available on offline storage (reliability check). | |
Ensure that failover for all clustered services has been tested (reliability check). | |
Ensure that the Enterprise SSO service is clustered (reliability check). | |
Ensure that the BizTalk Server databases are clustered under SQL Server services (reliability check). | |
Ensure that at least two physical BizTalk servers are part of the BizTalk group (reliability check). | |
Determine whether any unstable code is being used, and if so, use separate hosts (reliability check). | |
Perform functional testing of all new BizTalk applications (reliability check). | "Staging Tasks for BizTalk Application Deployment" in BizTalk Server 2006 R2 Help athttp://go.microsoft.com/fwlink/?LinkID=103092. |
Determine whether there are any unnecessary BizTalk applications, artifacts, and configurations (administration check). | Remove all unnecessary BizTalk applications, artifacts, and configurations. For more information about removing a BizTalk application or artifact using the BTSTask command-line tool see "RemoveApp Command" in BizTalk Server 2006 R2 Help athttp://go.microsoft.com/fwlink/?LinkID=106721. For more information about removing an artifact from an application using either the BizTalk Server Administration console or the BTSTask command-line tool, see "How to Remove an Artifact from an Application" in BizTalk Server 2006 R2 Help at http://go.microsoft.com/fwlink/?LinkId=106722. |
Check the BizTalk Server Administration console for any non-approved changes (administration check). | "Using the BizTalk Server Administration Console" in BizTalk Server 2006 R2 Help athttp://go.microsoft.com/fwlink/?LinkId=106723. |
Check BTSNTSvc.exe.config for any non-approved modifications (administration check). | "BTSNTSvc.exe.config File" in BizTalk Server 2006 R2 Help at http://go.microsoft.com/fwlink/?LinkId=106724. |
Check the BizTalk Server-related registry keys for any non-approved modifications (administration check). | "Windows registry information for advanced users" article at http://support.microsoft.com/kb/256986 |
Run the Best Practices Analyzer for BizTalk Server (administration check). | "BizTalk Server 2006 Best Practices Analyzer" article at http://go.microsoft.com/fwlink/?LinkId=83317 |
Ensure that the latest service packs and updates are installed (administration and security check). | Microsoft Update site at http://update.microsoft.com/microsoftupdate/v6/default.aspx |
Ensure that the artifacts for different trading partners are not installed on the same host (security check). | |
Ensure that BizTalk Server is using only domain-level users and groups (security check). | "Domain Groups" in BizTalk Server 2006 R2 Help at http://go.microsoft.com/fwlink/?LinkId=106725. |
Ensure that the MSDTC Security Configuration is enabled (security check). | "Set the appropriate MSDTC Security Configuration options on Windows Server 2003 SP1 and Windows XP SP2" entry in "Troubleshooting Problems with MSDTC" in BizTalk Server 2006 R2 Help athttp://go.microsoft.com/fwlink/?LinkID=101609. |
Determine whether the BizTalk Server cache refresh interval needs to be increased (performance check). | |
Determine whether the throttling options of each host need to be adjusted (performance check). | |
Determine whether unnecessary tracking is enabled, such as orchestration, shape, and Business Rule Engine (BRE) event tracking (performance check). | Best Practices for Maintaining Performance (under "Monthly Performance Checks") "Best Practices for Health and Activity Tracking" in BizTalk Server 2006 R2 Help athttp://go.microsoft.com/fwlink/?LinkId=106726. |
Determine whether you are using a dedicated host for tracking maintenance (performance check). | |
Determine whether the default XML send pipeline is being used instead of the PassThrough send pipeline (performance check). | "Managing Send Ports Using BizTalk Explorer" in BizTalk Server 2006 R2 Help athttp://go.microsoft.com/fwlink/?LinkId=106727. |
Check the BizTalk Server database sizes for an increasing trend (performance check). | For more information about sizing the tracking database, see Guidelines for Sizing the Tracking Database. For more information about sizing the MessageBox, BizTalkDTADb, and BAMPrimaryImport databases, see Identifying Bottlenecks in the Database Tier. |
Determine whether the system is encountering database contention (performance check). | For more information about avoiding contention in the MessageBox database, see Avoiding Disk Contention. |
IBM Lotus Domino
Task | Frequency |
Back up the server | Daily, weekly, monthly |
Monitor mail routing | Daily |
Run Fixup to fix any corrupted databases * | At server startup and as needed |
Monitor Administration Requests database (ADMIN4.NSF) | Weekly |
Monitor databases that need maintenance | Weekly |
Monitor replication | Daily |
Monitor modem communications | Daily |
Monitor memory | Monthly |
Monitor disk space | Daily, weekly, monthly |
Monitor server load | Monthly |
Monitor server performance | Monthly |
Monitor Web server requests | Monthly |
Monitor server first domino servers | Daily |
另外也有非官方文档,其他系统管理员的经验分享:
The Basics | | |
Hardware Manufacturer: | | |
Model Number: | | |
Serial Number: | | |
Tower/Rack/Blade | | |
Physical Location of Server: | | |
Purchase Date: | | |
Warranty/Service Contract Number: | | |
Warranty/Service Telephone Number: | | |
Date Warranty Expires: | | |
| | |
CPU | | |
Number of CPU Sockets: | | |
Number of Installed CPUs: | | |
CPU Model: | | |
CPU Ghz Speed: | | |
Number of Cores per CPU: | | |
Type of Hyperthreading: | | |
Is Hyperthreading on or off: | | |
CPU L2 Cache Size: | | |
CPU Bus Speed: | | |
Motherboard BIOS Version: | | |
Is BIOS Version Current: | | |
| | |
Memory | | |
Current Amount of RAM: | | |
Additional RAM Capacity Available: | | |
Number of Memory Slots Used: | | |
Number of Memory Slots Available: | | |
ECC Memory: | | |
| | |
Network Adapter | | |
Hardware Manufacturer: | | |
Model Number: | | |
Speed: | | |
Number of Ports per Card: | | |
Number of Cards: | | |
BIOS Version Number: | | |
Is BIOS Version Current: | | |
NIC Speed/Duplex Setting: | | |
Is the NIC Power Saving Feature Off: | | |
| | |
Storage | | |
Type: Local, DAS, SAN, Combo: | | |
| | |
Local/Integrated RAID Controller | | |
Number of Local RAID Controllers: | | |
Type: SCSI, SAS, etc. | | |
Controller Hardware Manufacturer: | | |
Number of Ports: | | |
Controller Model Number: | | |
Controller Cache Size: | | |
Is There a Cache Battery: | | |
Is Write Back Caching On: | | |
Controller BIOS Version Number: | | |
Is Controller BIOS Version Current: | | |
| | |
External RAID Controllers | | |
Number of External RAID Controllers: | | |
Type: SCSI, SAS, etc. | | |
Controller Hardware Manufacturer: | | |
Controller Model Number: | | |
Number of External Ports: | | |
Controller Cache Size: | | |
Is There a Cache Battery: | | |
Is Write Back Caching On: | | |
Controller BIOS Version Number: | | |
Is Controller BIOS Version Current: | | |
| | |
Local Disk Configuration | | |
RAID Configuration: | | |
Number of Physical Drives: | | |
Physical Dimension of Drives: | | |
Drive Capacity: | | |
Drive Speed/RPM: | | |
Total Available Disk Space: | | |
| | |
HBAs for External Storage | | |
Number of HBAs: | | |
Type: iSCSI, Fibre Channel, etc: | | |
Type of Connectors: | | |
HBA Hardware Manufacturer: | | |
HBA Model Number: | | |
HBA BIOS Version Number: | | |
Is HBA BIOS Version Current: | | |
| | |
DAS Disk Configuration | | |
RAID Configuration: | | |
Number of Drives: | | |
Physical Dimension of Drives: | | |
Drive Capacity: | | |
Drive Speed/RPM: | | |
Total Available Disk Space: | | |
| | |
SAN Disk Configuration | | |
SAN Manufacturer: | | |
SAN Model: | | |
iSCSI, Fibre Channel, etc: | | |
SAN Cache Capacity: | | |
SAN Software Version: | | |
Is SAN Software Current: | | |
Number of Attached LUNs: | | |
RAID Configuration per LUN: | | |
Number of Drives Used per LUN: | | |
Capacity of Drives Used in LUNs: | | |
Speed of Drives Used in LUNs: | | |
Available Disk Space per LUN: | | |
Are LUNs Shared or Dedicated: | | |
| | |
High Availability | | |
Redundant Power Supplies: | | |
Redundant NICs: | | |
Redundant Controllers: | | |
All Components Connected to UPS: | | |
Is Server Physically Secure: | | |
If Cooling Required, is it Redundant: | | |
| | |
Clustering | | |
Number of Cluster Nodes: | | |
Number of Active Nodes: | | |
Number of Passive Nodes: | | |
Type of Quorum: | | |
Type of Shared Storage: | | |
Are HBAs Redundant: | | |
Are Storage Switches Redundant: | | |
Are NIC Switches Redundant: | | |
Are NICs Redundant: | | |
| | |
Backup | | |
Tape Drive: Internal/External: | | |
Tape Drive Manufacturer: | | |
Tape Drive Model: | | |
Local Disk: | | |
DAS Disk: | | |
SAN Disk: | | |
Daily Operations Checklist
Checklist: Performing Physical Environmental Checks
Usethis checklist to ensure that physical environment checks are completed.
Task:
·
·
·
·
Checklist: Check Backups
Task:
·
·
·
·
·
·
·
·
Checklist: Check Disk Use
Followthe checklist and record the drive letter, designation, and available diskspace.
Task
·
·
·
·
·
·
Drive Letter | Designation (drives with transaction logs, drives with queues, and other drives) | Available space MB | Available % free |
Your data here | | | |
Your data here | | | |
Your data here | | | |
Checklist: Event Logs
Checkevent logs using the following checklist.
Task
·
·
·
·
Weekly Maintenance Checklist
Checklist: Create Reports
Usethis checklist to create status reports to help with capacity planning, servicelevel agreement (SLA) reviews, and performance analysis.
Task:
·
·
·
·
Checklist: Incident Reports
Usethis checklist to create incident reports.
Task
·
·
·
·
Checklist: Antivirus Defense
Usethis checklist to perform your antivirus defense.
Task
·
·
Checklist: Status Meeting
Usethis checklist to conduct weekly status meetings during which the tasks arereviewed.
Task
·
·
·
·
·
·
本文所讲的门户网站运维,一般是服务器规模大于
原文地址:
对于网站运维,感觉大家还是比较迷惘与不解,确实,这是一个新兴岗位;近来闲而无事,在此结合自已以往的一些经历,与大家先共同探讨一下“什么是门户网站运维”?
首先明确一下,全文所讲的”运维“是指:门户网站应用运维,与其它运维如网络、系统的区别还是蛮大的;然后我们再对大型网站与小型网站进行范围定义,此定义主要从运维复杂性角度考虑,如网站规范、知名度、服务器量级、
其它小型网站可能没有真正意义上的运维工程师,这与网站规范不够和成本因素有关,更多的是集合网络、系统、开发工作于一身的“复合性人才”,就如本版有些同僚将公司的合同采购都纳入了运维职责范围,还有如
我们再来说说一个般产品的“出生”流程:
1
2
3
4
首先明确一点不是说前三步就与运维工作无关了,恰恰相反,前三步与运维关系很大:应用的前期架构设计、软
应用上线后,运维工作才刚开始,具体工作可能包括:升级版本上线工作、服务监控、应用状态统计、日常服务状态巡检、突发故障处理、服务日常变更调整、集群管理、服务性能评估优化、数据库管理优化(大于
a
b
c
在此说明一下其它配合工种情况,在整个项目中,前端应用对于网络
上面说了很多,我想大家应该对运维有一些概念了,在此打个比方吧,如果我们是一辆高速行驶在高速公路上的汽车,那运维工程师就是司机兼维修工,这个司机不简单,有时需要在高速行驶过程中换轮胎、并根据道路情况换档位、当汽车速度越来越快,汽车本身不能满足高速度时对汽车性能调优或零件升级、高速行进中解决汽车故障及性能问题、时刻关注前方安全问题,并先知先觉的采取规避手段……这就是运维工作
最后说一下运维工程师的职责:“确保线上稳定”,看似简单,但实属不容易。运维工程师必须在诸多不利因素中进行权衡:新产品模式对现有架构及技术的冲击、产品高频度的升级带来的线上
另外在此聊点题外话,我在本版看到有很多人要
a
b
c
做为一名运维工程师需要什么样的技能及素质呢,首先说说技能吧,如大家上面所看到,运维是一个集多
技能方面总结以下几点:
1、开发能力,这点非常重要,因为运维工具都需要自已开发,开发语言:
2、通用应用方面需要了解:操作系统(目前国内主要是linux
3、系统、网络、安全等需要有所了解,至少知道其原理
(
个人素质方面:
1 沟通能力、团队协作:运维工作跨部门、跨工种工作很多,需善于沟通、并且团队协作能力要强;这应该是现代企业的基本素质要求了,不多说了。。。
2 工作中需胆大心细:胆大才能创新、不走寻常路,特别对于运维这种新的工种,更需创新才能促进发展;心细,运维工程师是网站
3 主动性、执行力、精力旺盛、抗压能力强:由于IT
4 其它就是一些基本素质了:头脑要灵光、逻辑思维能力强、为人谦虚稳重、亲和力、乐于助人、有大局观
5 最后一点,做网站运维需要有探索创新精神,通过创新型思维解决现实中的问题,因为这是一个处于幼年的职业(国外也一样,但比国内起步早点),没有成熟体系或方法论可以借鉴,只能靠大家自已摸索努力
1
2
3
4
5
6
7
应用运维不像其它岗位,如网络、系统、安全运维岗位及研发工程师、测试工程师等,有非常明确的职责定位、职业规划、社会认同、比较有职业成就感;而应用运维工作可能给人的感觉是系统
针对这个问题我谈一下网站运维的现状及发展前景(也在思考中,可能不太深入全面,也请大家斧正补充)
运维现状:
1
2
3
4
5
发展前景:
1
2
3
4
5
6
7
1、
首先我们先要明确集群的概念,集群不是泛指各功能服务器的总合,而是指为了达到某一目的或功能的服务器、硬盘资源的整合(机器数大于两台),对于应用来说它就是一个整体,目前常规集群可分为:高可用性集群(
接下来,我们再谈谈如何科学的管理集群,有以下关键几点:
I、监控
主要包括故障监控和性能、流量、负载等状态监控,这些监控关系到集群的健康运行,及潜在问题的及时发现与干预;
a
b
II、故障管理
a
b
III、自动化
自动化:简而言之,就是将我们日常手动进行的一些工作通过工具,系统自动来完成,解放我们的双手及枯燥的重复性劳动,例如:没有工具前,我们安装系统需要一台一台裸机安装,如
2 大并发网站的设计
网站架构设计中,非常重要的一个要素,就是确保架构的可扩展性、这是高并发网站的基石。往往,一个网站的大流量不是与生具来的,而是有一个积累过程
高并发架构需满足的一些因素、要点:
I负载均衡架构
首先网站前端需要采用负载均衡群集解决用户高并发的响应,目前常用方法包括
a
b
c
II 高性能中间件选择、优化
中间件选择、优化非常重要,当服务流量大于一定承度时,性能的稍微提升,对于整体硬件成本控制、服务的整体性能提升都是非常可观的。对于
III扩展性问题
扩展性对于高速发展期间的网站非常重要,大家可以经常在网上看到某某网站的发展励途,那简直就是一部进化史,过程曲折而痛苦
另一点就是应用本身的扩展性了,原则其实很简单,应用设计时应尽量确保应用的层次化、采用高性能的中间件、逻辑复杂及大数据量交互的功能尽量做成独立模块
当以上两点很好的解决后,现在唯一的问题就是每半年根据业务的
IV应用设计、开发中的注意点
架构层设计好后,应用层设计就是我们重点关注对象了,这也是一个项目成功的关键,好的设计主要体现在:性能
1
2
(本部分内容缺失,包括
4
网站安全是一个系统性工作,影响安全的因素也很多,如
1
首先在网络设计时需考虑到安全因素;在主干出口处,对非业务端口进行屏蔽(如非
2
系统层主要是操作系统安全加固、系统安全
3
应用方面安全就不多说了,主要是开发细节上需把好关,不留逻辑上的漏洞,并对上传接口严格控制、越界检查、
4
对于日常内网准入方面需有严格流程,统一入口,技术方面如
5
偶尔由于人为失误会导致一些漏洞的出现,如由于工作需要临时变更了某些安全参数,但忘记开启。。。这个问题其实是最大的,往往出问题也多是人为失误,需要定期对全网关键安全点进行巡查;而且这也是
[转载]系统运维秘诀大分享专题,布布扣,bubuko.com
原文:http://www.cnblogs.com/drudy/p/3836693.html