Inteligencia artificial y su impacto en nuestro centro de datos

Puede ayudar a descubrir nuevos niveles de eficiencia, pero la compensación es un aumento significativo en la demanda de ancho de banda.

Nunca permitirá a los cineastas introducir conceptos que parecen estar muy lejos de la realidad en ese momento, pero estos conceptos se incorporan a nuestras vidas diarias en el tiempo. En 1990, la película Total Recall de Arnold Schwarzenegger nos mostró «Johnny Cab», un vehículo no tripulado que puede llevarlos a donde quieran. Ahora, la mayoría de las principales compañías de automóviles están invirtiendo millones de dólares para llevar esta tecnología al público. Y debido al regreso al Futuro II, Marty McFly evadió la mafia en el hoverboard, y nuestros niños ahora están golpeando muebles (y entre ellos), similar a lo que vimos en 1989.

En 1968 (algunos de nosotros aún podemos recordar) Cuando introdujimos la inteligencia artificial (IA) con HAL 9000, la HAL 9000 era una computadora perceptiva en la Nave Espacial Discovery One en 2001: Space Roaming. HAL es capaz de reconocer el habla y el rostro, procesar el lenguaje natural, leer los labios, apreciar el arte, interpretar el comportamiento emocional, el razonamiento automático y, por supuesto, las habilidades informáticas favoritas de Hollywood, jugar al ajedrez.

Avanzando rápidamente en los últimos años, puede determinar muy rápidamente que la IA se ha convertido en una parte integral de nuestra vida diaria. Puede preguntar a su teléfono inteligente las condiciones meteorológicas de su próximo destino de viaje, el asistente virtual puede reproducir su música favorita y su cuenta de redes sociales le proporcionará actualizaciones de noticias y anuncios basados en sus preferencias personales. En ausencia de compañías de tecnología insultantes, esto es AI 101.

Pero suceden más cosas en el fondo, y no creemos que ayude a mejorar o incluso a salvar vidas. La traducción de idiomas, las fuentes de noticias, el reconocimiento facial, el diagnóstico más preciso de enfermedades más complejas y el descubrimiento acelerado de medicamentos son solo algunas de las aplicaciones que las empresas desarrollan y despliegan AI. Según el pronóstico de Gartner, se espera que el valor comercial de la inteligencia artificial derivado en 2022 alcance los $ 3.9 billones.

Servidor pensativo

Entonces, ¿cómo afecta la IA al centro de datos? Bueno, ya en 2014, Google implementó Deepmind AI (utilizando aprendizaje automático, aplicaciones de AI) en una de sus instalaciones. ¿resultado? Pueden reducir constantemente la energía utilizada para la refrigeración en un 40%, lo que equivale a una reducción del 15% en la sobrecarga general de PUE después de considerar las pérdidas eléctricas y otras ineficiencias de no refrigeración. También produjo el PUE más bajo en el sitio. Basándose en estos importantes ahorros, Google espera implementar la tecnología en otros sitios y aconsejar a otras compañías a hacer lo mismo.

La misión de Facebook es «capacitar a las personas para construir comunidades y conectar el mundo más estrechamente», que se describe en el Libro Blanco sobre el aprendizaje automático a máquina de Facebook: Perspectiva de la infraestructura del centro de datos. Describe la infraestructura de hardware y software que admite el aprendizaje automático en todo el mundo.

Para darle una idea de cuánta potencia de computación se requiere para AI y ML, Andrew Ng, científico jefe de Baidu Silicon Valley Labs, dijo que el modelo de reconocimiento de voz chino de Baidu requiere no solo 4 TB de datos de entrenamiento, sino también 20 sistemas informáticos o todo el ciclo formativo. 20 mil millones de veces de operaciones de aprendizaje.

Pero ¿qué pasa con nuestra infraestructura de centro de datos? ¿Cómo afecta la IA al diseño y la implementación de todas las instalaciones de diferentes tamaños y formas que deseamos construir, arrendar o actualizar para adaptarse a esta tecnología innovadora, que ahorra costos y salva vidas?

ML puede ejecutarse en una sola máquina, pero debido a la gran cantidad de datos, generalmente se ejecuta en múltiples máquinas, todas ellas interrelacionadas para garantizar una comunicación continua durante el entrenamiento y el procesamiento de datos, baja latencia, y nunca interrumpir las yemas de los dedos de servicio, la pantalla o dispositivo de audio. Como ser humano, nuestro deseo de obtener más y más datos impulsa el crecimiento exponencial en la cantidad de ancho de banda necesario para satisfacer nuestras ideas más simples.

Estos anchos de banda deben distribuirse en múltiples instalaciones y en múltiples instalaciones utilizando diseños arquitectónicos más complejos, donde las redes de espinas y hojas ya no lo cortan; estamos hablando de redes de superspinas y de súper hojas, que ofrecen autopistas para todos los algoritmos complejos. El flujo entre diferentes dispositivos y eventualmente volverá a nuestros receptores.

Opciones de despliegue técnico para el centro de datos.

Aquí es donde la fibra óptica desempeña un papel clave para garantizar que sus momentos especiales (o estúpidos) de imágenes o videos se transmitan al mundo para ver, compartir y comentar. La fibra se ha convertido en el medio de transmisión de facto para nuestra infraestructura de centro de datos, gracias a sus capacidades de alta velocidad y ultra alta densidad en comparación con su primo de cobre. A medida que avanzamos hacia velocidades de red más altas, estamos introduciendo una nueva complejidad en los híbridos: ¿qué tecnología usar?

Las redes tradicionales de Capa 3 utilizan el núcleo, la agregación y la conmutación de borde para conectarse a diferentes servidores en el centro de datos, donde el tráfico entre servidores se comunica entre sí en el norte y el sur a través de dispositivos activos. Sin embargo, ahora, estoy muy agradecido a AI y ML por los altos requisitos computacionales e interdependencias que los juegos traen al juego. La mayoría de estas redes se implementan utilizando una red de 2 capas de lomo y hoja, donde los servidores son extremadamente bajos debido a los requisitos de producción y capacitación de la red. Retraso, dirección este-oeste.

Desde la aprobación de IEEE de 40G y 100G en 2010, ha habido muchas soluciones propietarias que compiten entre sí que han juzgado a los usuarios que no están seguros de cuál es el camino a seguir de manera algo sombría. Para explicar, antes de 40G y otros tenemos SR o modo de distancia corta, multimodo y LR , o larga distancia. Ambos usan un par de fibras para transmitir señales entre dos dispositivos. No importa qué dispositivo utilice o qué transceptor esté instalado en el dispositivo, esta es una simple transacción de datos a través de dos fibras.

Pero el IEEE aprobó la solución en 40G y más, y el hermano de su competidor cambió las reglas del juego. Ahora estamos estudiando dos tipos de fibras que utilizan tecnología WDM no interoperable aprobada o patentada, así como protocolos de aceptación estándar o de múltiples fuentes para ópticas paralelas que utilizan ocho fibras (cuatro transmisiones y cuatro fibras) (MSA) e ingeniería tecnología de recepción) o 20 fibras (10 transmisiones, 10 recepciones de fibra)

Si desea continuar utilizando soluciones certificadas estándar y reducir los costos ópticos, ya que no necesita la capacidad de distancia de la fibra monomodo, puede elegir ópticas paralelas multimodo para romper interruptores de 40 o 100 G de mayor velocidad. el puerto entra en un puerto de servidor 10 o 25G más pequeño. Cubriré esto con más detalle en este artículo.
Si desea extender la vida útil de su fibra dúplex instalada y no le importa mantenerse en contacto con su proveedor de hardware preferido sin interoperabilidad y sin la necesidad de distancias más largas, puede elegir uno de los WDM multimodo. solución.

Ahora les diré que la mayoría de las compañías de tecnología que implementan AI en gran escala están diseñando las redes de hoy y de mañana … la óptica paralela de modo único . Hay tres razones simples para esto.

Costo y distancia

La tendencia actual del mercado es que la solución óptica paralela se desarrolla y lanza por primera vez, y las soluciones WDM están cerca de los próximos años, por lo que la cantidad de paralelos es mucho mayor, lo que reduce los costos de fabricación. También soportan distancias más pequeñas que las soluciones WDM de 2 km y 10 km, por lo que no necesita demasiados componentes complejos para enfriar el láser y multiplexar y demultiplexar las señales en ambos extremos. Aunque hemos visto el tamaño y la escala de estas instalaciones «super-grandes» explotando en el tamaño de 3-4 campos de fútbol en grandes campus, nuestros propios datos muestran que la longitud promedio de despliegue de la fibra monomodo no ha excedido 165 en estos instalaciones. Por lo tanto, no hay necesidad de pagar por transceptores WDM más costosos para recorrer las distancias que no necesitan soportar.

El modo único paralelo también usa menos potencia que las variantes WDM. Como hemos visto en los ejemplos anteriores de Google de su uso de energía, cualquier trabajo que pueda reducir el mayor costo de operación del centro de datos debe ser algo bueno.

Flexibilidad

Una de las principales ventajas de la implementación de ópticas paralelas es la capacidad de usar puertos de conmutador de alta velocidad, como 40G, y dividirlos en puertos de servidor 4x10G. Los avances en puertos brindan enormes economías de escala porque los puertos de baja velocidad pueden reducir significativamente la cantidad de chasis o unidades de montaje en rack para dispositivos electrónicos de 3: 1 (y el centro de datos no es barato) y usar menos energía, lo que requiere Un menor enfriamiento puede reducir aún más los costos de energía, y nuestros datos muestran que esto equivale a un ahorro del 30% en una solución de modo único. El proveedor del transceptor también confirmó que una parte significativa de todos los transceptores de fibra paralelos enviados se implementó para aprovechar esta función de ramificación de puertos.

Migración simple y clara.

La hoja de ruta tecnológica para los principales proveedores de conmutadores y transceptores muestra una ruta de migración muy clara y simple para los clientes que implementan ópticas paralelas. Mencioné que la mayoría de las compañías de tecnología siguen esta ruta, por lo que cuando las ópticas están disponibles y migran de 100G a 200 o 400G, su infraestructura de fibra aún existe y no se requiere ninguna actualización. Las empresas que decidan utilizar una infraestructura de fibra dúplex 2 pueden esperar actualizar a más de 100 G, pero es posible que los sistemas ópticos WDM no estén disponibles dentro del plazo de su plan de migración.

Impacto en el diseño del centro de datos

Desde la perspectiva de la conectividad, estas redes son infraestructuras de fibra altamente interconectadas para garantizar que ningún servidor tenga más de dos saltos de red entre sí. Sin embargo, tales requisitos de ancho de banda no son suficientes incluso a partir de la tradicional relación de aprovisionamiento de 3: 1 del interruptor de la columna vertebral al interruptor de la paleta y se utilizan más típicamente para la computación distribuida desde las superespinales entre diferentes salas de datos.

Debido al aumento significativo en la velocidad de conmutación IO, los operadores de red están trabajando arduamente para aumentar la utilización, aumentar la eficiencia y la latencia ultra baja. Diseñamos sus sistemas utilizando una tasa de suscripción 1: 1 desde la columna vertebral a la hoja, que es un requisito costoso pero necesario. El entorno de la IA de hoy.

Además, después de que Google anunció recientemente el lanzamiento del último hardware de inteligencia artificial, hemos pasado del diseño tradicional del centro de datos a otra transformación, que es un ASIC personalizado llamado Unidad de Procesamiento de Tensor (TPU 3.0), en su enorme grúa En la cabina Diseño, la función se mejorará en ocho veces. Más de 100 petaflops de TPU el año pasado. Sin embargo, agregar más potencia de cómputo al silicio también aumenta la cantidad de energía que lo impulsa, lo que aumenta el calor, por lo que el mismo anuncio indica que están cambiando a refrigeración líquida al chip porque el calor generado por el TPU 3.0 ha excedido Los datos anteriores. Limitaciones de las soluciones de refrigeración central.

La conclusión

La inteligencia artificial es la próxima ola de innovación empresarial. Ofrece ahorros de costos operativos, flujos de ingresos adicionales, interacciones con el cliente simplificadas y una forma de trabajo más eficiente y basada en datos que brinda los beneficios de ser demasiado atractiva, no solo para sus directores financieros y accionistas, sino también para sus clientes. Un panel de discusión reciente confirmó esto cuando el moderador habló sobre el uso del sitio web de ChatBots y afirmó que si la eficiencia no es alta y la atención del cliente no es suficiente, abandonará la conversación y la empresa nunca más aceptará su negocio.

Por lo tanto, debemos aceptar esta tecnología y aplicarla a nuestras fortalezas, lo que también significa pensar en el diseño e implementación del centro de datos de diferentes maneras. Como el rendimiento del ASIC ha mejorado significativamente, eventualmente veremos un aumento en la velocidad de IO e incluso haremos que la conexión sea más profunda. Su centro de datos necesita redes ultra eficientes, de alto contenido de fibra, de latencia ultra baja, espina y hoja este-oeste para adaptarse a su tráfico de producción diario, al mismo tiempo que admite el entrenamiento de ML en paralelo, y es fácil de resumir.

Hemos visto cómo las principales empresas de tecnología aceptan la inteligencia artificial y cómo implementar el modo único paralelo para ayudarles a lograr mayores costos operativos y de capital que los métodos dúplex tradicionales, que han prometido reducir los costos desde el principio. Sin embargo, el segundo día comenzó a operar el centro de datos y continúa creciendo, porque los hábitos y los métodos de comunicación de nuestros individuos y profesionales están cambiando constantemente, aumentando la velocidad y aumentando la complejidad. Ahora, instalar la solución de infraestructura de cableado adecuada le dará a su empresa mayores beneficios económicos desde el inicio, retener y atraer a más clientes, y permitir que sus instalaciones prosperen, sin importar los requisitos.

Fuente artical original: https://www.datacenterdynamics.com/analysis/artificial-intelligence-and-the-impact-on-our-data-centers/

Blog