我们一个使用 MS SQLSERVER 数据库的重要应用系统,丢失了大约 4 天的数据,也是很诡异的事情,现在找不到原因。
系统的硬件使用的是 1 台 WEB 服务器+1 台 SQL 服务器+1 台光纤存储的方式,操作系统是 Windows Server 2016 标准版,数据库是 MSSQLSERVER 2008 R2,操作系统和数据库都是采购的正版。
事情经过:
1、23 日接到运维人员电话远程不上 SQL 服务器( DELL R930,该服务器之前也出现过这个问题,远程是黑屏界面,机房内插上鼠标键盘电源灯不亮,接显示器也是黑灰色屏),没办法,只能通过 iDrac 口远程重启。
2、重启后,通过反查操作系统日志,发现 8 月 20 日早 8 点后一直到重启的时间点( 23 日下午 6 点),操作系统就没有任何的日志记录了(与之前出现这个问题是一样的表现)。出现异常的时间应该是 20、21、22、23 日共 4 天时间。
3、查看应用程序日志,看到重启后 MSSQLSERVER 很多报错,但大多是报表报错,好在各个数据库启动正常。不过凭经验感觉数据库运行应该有问题,就联系技术想确认一下数据完整性。
4、通过查看应用系统数据库中的过程表、日志表这些数据,发现最新的记录停留在了 20 日早上 8 点,也就是说 4 天操作系统异常期间的数据一条都没写进去,看到这我人都崩溃了。去查 SQLSERVER 的日志,发现这 4 天数据库也没有任何的日志记录,进一步崩溃。
5、诡异的是,这些天应用系统是正常运行的,不管是我们内部的管理使用人员,还是对外提供服务的注册用户,都在正常使用,也从没有人提出系统使用有问题。从 WEB 服务器上看 IIS 日志,这 4 天一直是正常的。
DELL 这台服务器从去年采购后,就经常爆出这样的问题,所以一直没敢用它跑数据,DELL、微软、供货商和我们排查了一年了,都找不出原因。今年突然有一两个月没问题了,我们就部署上应用了,然后就发生了这次导致数据丢失的严重事故。
微软的 SQLSERVER 不应该会丢掉这么多天的数据啊,如果数据库服务停止了,那我们 WEB 与数据库的交互应该报错才对,这 4 天的数据去哪里了,还能不能找回呢。
问题到底出在哪里,还望大神给予指点,感激不尽!
系统的硬件使用的是 1 台 WEB 服务器+1 台 SQL 服务器+1 台光纤存储的方式,操作系统是 Windows Server 2016 标准版,数据库是 MSSQLSERVER 2008 R2,操作系统和数据库都是采购的正版。
事情经过:
1、23 日接到运维人员电话远程不上 SQL 服务器( DELL R930,该服务器之前也出现过这个问题,远程是黑屏界面,机房内插上鼠标键盘电源灯不亮,接显示器也是黑灰色屏),没办法,只能通过 iDrac 口远程重启。
2、重启后,通过反查操作系统日志,发现 8 月 20 日早 8 点后一直到重启的时间点( 23 日下午 6 点),操作系统就没有任何的日志记录了(与之前出现这个问题是一样的表现)。出现异常的时间应该是 20、21、22、23 日共 4 天时间。
3、查看应用程序日志,看到重启后 MSSQLSERVER 很多报错,但大多是报表报错,好在各个数据库启动正常。不过凭经验感觉数据库运行应该有问题,就联系技术想确认一下数据完整性。
4、通过查看应用系统数据库中的过程表、日志表这些数据,发现最新的记录停留在了 20 日早上 8 点,也就是说 4 天操作系统异常期间的数据一条都没写进去,看到这我人都崩溃了。去查 SQLSERVER 的日志,发现这 4 天数据库也没有任何的日志记录,进一步崩溃。
5、诡异的是,这些天应用系统是正常运行的,不管是我们内部的管理使用人员,还是对外提供服务的注册用户,都在正常使用,也从没有人提出系统使用有问题。从 WEB 服务器上看 IIS 日志,这 4 天一直是正常的。
DELL 这台服务器从去年采购后,就经常爆出这样的问题,所以一直没敢用它跑数据,DELL、微软、供货商和我们排查了一年了,都找不出原因。今年突然有一两个月没问题了,我们就部署上应用了,然后就发生了这次导致数据丢失的严重事故。
微软的 SQLSERVER 不应该会丢掉这么多天的数据啊,如果数据库服务停止了,那我们 WEB 与数据库的交互应该报错才对,这 4 天的数据去哪里了,还能不能找回呢。
问题到底出在哪里,还望大神给予指点,感激不尽!