Facebook, junto con Instagram y WhatsApp, vuelve a estar en línea después de estar fuera de línea durante varias horas ayer a última hora.
los La empresa culpó del problema a un «cambio de configuración incorrecto» Dentro de su infraestructura de red que tuvo un «efecto en cascada» que llevó a que las plataformas de la empresa fueran «tiempo de inactividad».
Aquí hay una mirada más cercana al incidente.
¿Qué pasó?
Justo antes de las 5 de la tarde, la gente comenzó a notar que no podían acceder a Facebook u otros servicios que él posee y con los que trabaja, como Instagram y WhatsApp.
Pasarán más de cinco horas antes de que el servicio comience a regresar.
Las interrupciones en las principales plataformas no son infrecuentes, pero de una duración tan inusual, y quedó claro que Facebook estaba luchando por solucionar el problema.
Mientras tanto, otras plataformas como Twitter y la aplicación de mensajería Signal han experimentado enormes picos de tráfico a medida que las personas recurren a ellos para volver a conectarse, y algunos usuarios de Twitter incluso informaron problemas en un momento dado que la plataforma se vio afectada por el peso de la repentina explosión de usuarios.
A última hora de la tarde, el acceso a Facebook e Instagram estaba de vuelta para la mayoría de los usuarios, mientras que WhatsApp dijo que había vuelto a funcionar «al 100%» a las 3.30 a.m. de esta mañana.
¿Cuál es la causa del problema?
En un comunicado, Facebook dijo que el problema fue causado por un cambio de configuración en los «enrutadores centrales» que coordinan el tráfico entre los centros de datos de la empresa. Esto ha provocado el efecto cascada que ha provocado un descenso en los distintos servicios de la empresa.
La compañía aún no ha proporcionado más idea sobre qué causó exactamente el problema o cómo solucionarlo.
Pero, la empresa de seguridad e infraestructura web Cloudflare brindó un desglose detallado del incidente tal como lo vio desarrollarse, y dijo que gira en torno a dos mecanismos clave que hacen que Internet funcione: el sistema de nombres de dominio (DNS) y el protocolo de puerta de enlace fronteriza (BGP).
En esencia, DNS es la libreta de direcciones y BGP es la hoja de ruta de Internet, que ayuda a las personas a navegar por la vasta red de redes conectadas que componen Internet para ayudarles a encontrar el sitio web que desean y luego la ruta más rápida hacia él.
Cloudflare dijo que Facebook le dijo al BGP, a través de una serie de actualizaciones el lunes, que parece una coincidencia, que las pistas de todo lo que Facebook ejecuta ya no existen, lo que significa que las personas ya no pueden encontrar una forma de acceder a la red social.
Los expertos dijeron que esto probablemente fue causado por un error de software en las actualizaciones o un error humano, aunque algunos han sugerido que Facebook no ha descartado un error en su declaración; sin embargo, actualmente no hay evidencia que sugiera que este sea el caso.
¿Por qué tomó tanto tiempo arreglarlo?
Parece que el problema no solo eliminó las plataformas de redes sociales, sino que también interrumpió todo lo que Facebook ejecuta, incluidos sus sistemas internos, con informes de que los empleados han sido expulsados de las oficinas debido a que los sistemas de entrada con tarjeta de acceso conectados a Internet se han roto y no pueden tener acceso a ellos. eso. su plataforma de comunicaciones internas.
Como resultado, fue difícil para el personal diagnosticar y coordinar para resolver el problema al principio.
Ha habido informes en los EE. UU. De que Facebook tuvo que enviar un equipo a uno de sus centros de datos para restablecer manualmente los servidores para solucionar el problema.
Un experto también señaló que las medidas de distanciamiento social en curso debido a la pandemia y el trabajo a distancia también pueden haber influido.
El experto en pruebas de software Adam Leon Smith de BCS, el Chartered Institute of Information Technology, dijo: “Es poco probable que los problemas sean causados por personas que trabajan desde casa, pero es muy posible que lleve mucho tiempo restaurar el servicio debido a la reducción de personal dentro del centro de datos.
«Esto agravaría el problema porque la naturaleza de la falla significaba que el acceso remoto al centro de datos tampoco estaba disponible».
¿Se puede hacer algo para evitar que esto vuelva a suceder?
Este último incidente, después de las principales interrupciones asociadas con Cloudflare en 2020 y Fastly a principios de este año, volverá a poner de relieve los problemas potenciales de tener una gran parte de Internet dependiente de unas pocas empresas grandes y donde un pequeño problema puede llevar a derribar enormes segmentos de servicios en línea.
Actualmente no hay soluciones claras para esto, pero es probable que esta última interrupción reavive el debate sobre la infraestructura de Internet.
Para muchas personas y empresas también, el incidente mostró cuánto confiaban en Facebook y sus servicios no solo para comunicarse, sino también para iniciar sesión en otras plataformas.
En respuesta, se ha alentado a las personas a que consideren el uso de credenciales distintas de sus datos de inicio de sesión de Facebook para acceder a otros servicios en línea.