最近发现公司服务器搭建的网站访问缓慢,服务器输入命令也反应慢,处理步骤如下:
1、通过top命令查看服务器CPU、内存、IO等使用情况
发现CPU基本在80%以上;内存还好,有富余;CPU平均加载率Load Average也是达到40左右
2、通过vmstat、iostat参看相关参数,确认是CPU占用很高,CPU不够用,当时以为服务器CPU被用完了,但是应用不是很多,两CPU是够用的
3、后来慢慢看进程和服务线程以及端口号占用和包发送,(w、procinfo、ps、uptime、netstat),只看到被应用的日志占用大多的CPU资源
4、后来百度了一下,有个类似的帖子,《解决centos删除文件后没有释放空间》(来源:blog.51cto.com 作者:cj397428869)
4.1、其帖子如下:
现象:
发现当前磁盘空间使用情况:
[root@ticketb ~]# df -h
Filesystem Size Used Avail Use% Mounted on
/dev/sda1 981M 203M 729M 22% /
none 16G 0 16G 0% /dev/shm
/dev/sda9 2.9G 37M 2.7G 2% /tmp
/dev/sda7 4.9G 1.9G 2.7G 42% /usr
/dev/sda8 2.9G 145M 2.6G 6% /var
/dev/mapper/vghome-lvhome
20G 19G 11M 100% /home
/dev/mapper/vgoradata-lvoradata
144G 48G 90G 35% /u01/oradata
/dev/mapper/vgbackup-lvbackup
193G 7.8G 175G 5% /u01/backup
通过下面的命令找到无用的文件,然后删除
[root@ticketb ~]# find /home/oracle/admin/dbticb/udump/ -name"dbticb_*.trc" -mtime +50 | xargs rm -rf
然后在查看磁盘空间使用情况,发现没有/home空间没有变化
[root@ticketb ~]# df -h
Filesystem Size Used Avail Use% Mounted on
/dev/sda1 981M 203M 729M 22% /
none 16G 0 16G 0% /dev/shm
/dev/sda9 2.9G 37M 2.7G 2% /tmp
/dev/sda7 4.9G 1.9G 2.7G 42% /usr
/dev/sda8 2.9G 145M 2.6G 6% /var
/dev/mapper/vghome-lvhome
20G 19G 11M 100% /home
/dev/mapper/vgoradata-lvoradata
144G 48G 90G 35% /u01/oradata
/dev/mapper/vgbackup-lvbackup
193G 7.8G 175G 5% /u01/backup
这个郁闷啊,明明删除文件了,怎么空间没有被释放啊,rm命令应该是直接删除啊,在查看下/home下还有什么占用空间
[root@ticketb ~]# du -h --max-depth=1 /home
16K /home/lost+found
2.6G /home/oracle
2.6G /home
可这里显示空间已经释放了啊,于是google下,
未释放磁盘空间原因:
在Linux或者Unix系统中,通过rm或者文件管理器删除文件将会从文件系统的目录结构上解除链接(unlink).然而如果文件是被
打开的(有一个进程正在使用),那么进程将仍然可以读取该文件,磁盘空间也一直被占用。而我删除的是oracle的告警log文件
删除的时候文件应该正在被使用
解决方法
首先获得一个已经被删除但是仍然被应用程序占用的文件列表,如下所示:
[root@ticketb ~]# lsof |grep deleted
oracle 12639 oracle 5w REG 253,0 648 215907 /home/oracle/admin/dbticb/udump/dbticb_ora_12637.trc(deleted)
oracle 12639 oracle 6w REG 253,0 16749822091 215748 /home/oracle/admin/dbticb/bdump/alert_dbticb.log(deleted)
oracle 12639 oracle 7u REG 253,0 0 36282 /home/oracle/oracle/product/10.2.0/db_1/dbs/lkinstdbticb (deleted)
oracle 12639 oracle 8w REG 253,0 16749822091 215748 /home/oracle/admin/dbticb/bdump/alert_dbticb.log(deleted)
oracle 12641 oracle 5w REG 253,0 648 215907 /home/oracle/admin/dbticb/udump/dbticb_ora_12637.trc (deleted)
oracle 12641 oracle 6w REG 253,0 16749822091 215748/home/oracle/admin/dbticb/bdump/alert_dbticb.log (deleted)
。
。
oracle 23492 oracle 6w REG 253,0 16749822091 215748 /home/oracle/admin/dbticb/bdump/alert_dbticb.log(deleted)
oracle 23492 oracle 7u REG 253,0 0 36282/home/oracle/oracle/product/10.2.0/db_1/dbs/lkinstdbticb (deleted)
oracle 23492 oracle 8w REG 253,0 16749822091 215748 /home/oracle/admin/dbticb/bdump/alert_dbticb.log(deleted)
oracle 23494 oracle 10u REG 253,0 0 36307 /home/oracle/oracle/product/10.2.0/db_1/dbs/lkinstrmandb(deleted)
从输出结果可以看到/home/oracle/admin/dbticb/bdump/alert_dbticb.log还被使用,未被释放空间
如何让进程释放呢?
一种方法是kill掉相应的进程,或者停掉使用这个文件的应用,让os自动回收磁盘空间
我这个环境有很多进程在使用的这个文件,停掉进程有点麻烦,再有就是风险很大
当linux打开一个文件的时候,Linux内核会为每一个进程在/proc/ 『/proc/nnnn/fd/目录(nnnn为pid)』建立一个以其pid
为名的目录用来保存进程的相关信息,而其子目录fd保存的是该进程打开的所有文件的fd(fd:filedescriptor)。
kill进程是通过截断proc文件系统中的文件可以强制要求系统回收分配给正在使用的的文件。
这是一项高级技术,仅到管理员确定不会对运行中的进程造成影响时使用。应用程序对这种方
式支持的并不好,当一个正在使用的文件被截断可能会引发不可预知的问题
所以我还是采用停应用来解决
restart oracle数据库,发现/home/oracle/admin/dbticb/bdump/alert_dbticb.log对应的空间被释放
在查看磁盘空间的使用情况,发现空间已经回收了
[root@ticketb ~]# df -h
Filesystem Size Used Avail Use% Mounted on
/dev/sda1 981M 203M 729M 22% /
none 16G 0 16G 0% /dev/shm
/dev/sda9 2.9G 37M 2.7G 2% /tmp
/dev/sda7 4.9G 1.9G 2.7G 42% /usr
/dev/sda8 2.9G 145M 2.6G 6% /var
/dev/mapper/vghome-lvhome
20G 2.6G 16G 15% /home
/dev/mapper/vgoradata-lvoradata
144G 48G 90G 35% /u01/oradata
/dev/mapper/vgbackup-lvbackup
193G 7.8G 175G 5% /u01/backup
ok,问题解决,然后做下收尾工作即可
-------------------------------------------------------------------------------------------------
4.2、我用:ll /proc/pid/fd,查看了下这目录的文件,很多全是红色高亮的文件,而且是被标注为已经被删除了的
4.3、我又使用命令 :lsof | grep deleted查询了下被删除而没被及时收回空间的文件
4.4、在确认没有用的情况下kill -9 pid直接杀掉进程,删除部分进程后,top系统,CPU使用率下降不少,继续将其他被删除的文件清理出进程。
4.5、CPU太平了,降到1%以下,负载的数值也从原来的40降到了0.X。
不过有个问题是:有两个文件标注了被删除的,但是指向的软连接却是现在用起的应用下的文件,查了下现在应用的进程号和被删除进程好对比,两者不同,我就将其直接kill掉,却发现运行中的应用程序挂了,重启应用程序后,在 lsof | grep deleted 依然有那文件,也是标注被删除的文件,进程号都一致了,关掉相应应用程序,查看此文件也不在了,启动应用又出现,此文件是应用自动产生,没办法删除掉,确实还没解决这个问题??????
本文出自 “云之上” 博客,请务必保留此出处http://weimouren.blog.51cto.com/7299347/1846835
原文:http://weimouren.blog.51cto.com/7299347/1846835