Comunicado de incidente en servicios de hosting compartido

 
Whosting.mx - Incidente en servicios de hosting compartido    (9 julio 2013)      

El día martes 9 de julio, Whosting.com.mx experimentó una intermitencia importante en diversos servicios de hosting compartido incluyendo el servicio de mail primario, bases de datos SQL Server 2005, mysql 5, sitio web de whosting.mx y panel de control (control.whosting.com.mx). El servicio de bases de datos quedó reestablecido el jueves 11 a las 9 am CST y el servicio de email quedó parcialmente funcionando el miércoles 10 a las 10:30 am CST. Sin embargo la funcionalidad y recuperación total del servicio de mail así como del panel de control aún está en proceso y esperamos quede 100% funcionando en los siguientes días.

El incidente inicialmente se presentó en uno de nuestros servidores del IDC de Monterrey, México que contenía los servicios antes mencionados. Otros servicios como DNS, ftp, web y los servicios de servidores dedicados virtuales y servicios del IDC de Austin, TX. no fueron afectados de ninguna forma.  Se determinó que el incidente fue derivado de una falla física en uno de los discos duros del servidor en cuestión que ocurrió el lunes 8 a las 5:35 pm. CST.  Debido a que se cuenta con un arreglo RAID 10, el disco fue cambiado “en vivo” como es el procedimiento estándar y se monitoreó durante su resincronización.  Al término de ésta, el sistema nos indicó que su estado era óptimo.  El día martes  9 de julio, el arreglo de discos dejó de ser accesado por el servidor.   Después de investigar lo sucedido, se determinó que la tarjeta controladora del RAID tuvo una falla y corrompió la información de los discos.  En dichos discos existían dos servidores, los cuáles fueron afectados totalmente.  Este incidente se ha reportado al equipo de soporte del fabricante del servidor y se trabaja en conjunto con ellos para determinar la causa exacta y la forma de evitarlo en el futuro.

En Whosting.mx contamos actualmente con equipos en dos IDC's, cada uno con conexiones a internet redundantes; servidores Dell con fuentes de poder redundantes, arreglos de disco en RAID 1 y RAID 10; así como sistemas de backup y una infraestructura descentralizada y virtualizada de todos los servicios. Esto significa que no todos los servicios compartidos (web, ftp, mail, bd, dns) de un cliente residen en el mismo servidor como la mayoría de los servicios de hosting. Esto ayudó para que la afectación fuera sólo parcial. Estamos en proceso de revisión e implementación de medidas para que esto no suceda nuevamente.  En los próximos días se les indicarán las características de este plan de contingencia.

Durante toda nuestra historia que incluye 16 años de proveer hosting empresarial, hemos proveído 99% de uptime anual en todos nuestros servicios y hemos mejorado nuestra infraestructura y planes de contingencia.  Este es el nivel que nuestros clientes esperan de nosotros y el nivel que nosotros mismos esperamos. Les hemos fallado en esta ocasión y estamos conscientes de  esto.  Tomamos muy en serio nuestro negocio así como el de ustedes, por lo tanto, de parte de todo el gran equipo que labora en la empresa y le proporciona los servicios de Whosting, extendemos una sincera disculpa por los eventos ocurridos y agradecemos por su paciencia y comprensión.

Seguimos a sus órdenes vía telefónica y por correo electrónico para apoyarlos en la normalización de sus servicios. 

 

Jorge Eurán Graham
Director
Alveni

Tel. (81) 5515.8250