Diferencias entre la interconexión de voz y la interconexión de datos
Históricamente voz y datos operaban en redes separadas (redes de conmutación de circuitos para voz y redes de conmutación de paquetes para datos). La convergencia tecnológica hacia redes IP está difuminando algunas fronteras físicas hasta el punto de que voz y datos comparten la misma plataforma de transporte.
Pero esta convergencia tecnológica no ha disuelto (al menos a día de hoy) importantes diferencias entre los modelos económicos, arquitecturas tecnológicas y marcos regulatorios de ambos servicios de interconexión.
Diferencias en el modelo económico de interconexión de voz e interconexión de datos
La diferencia más fundamental radica en cómo se paga por el tráfico intercambiado entre redes de datos o de redes voz:
- Voz (El que llama paga / Monopolio de Terminación): La interconexión de voz se ha regido históricamente por el principio de «el que llama paga» (Calling Party Pays – CPP). Dado que una red tiene el monopolio exclusivo para entregar una llamada a su propio suscriptor, se genera un «monopolio de terminación«. Esto permite a los operadores cobrar tarifas de terminación a otras redes para completar las llamadas. Si no se regulan, estas tarifas pueden ser artificialmente altas para generar ingresos o perjudicar a la competencia,.
- Datos (Bill-and-Keep / Peering): La interconexión de Internet (datos) se basa mayoritariamente en acuerdos voluntarios y comerciales, conocidos como peering. En el 99,9% de los casos de peering, el modelo es «libre de pago» (settlement-free) o Bill-and-Keep,. Aquí, las redes intercambian tráfico gratuitamente bajo la premisa de beneficio mutuo: el proveedor de contenido quiere entregar datos y el ISP quiere que sus usuarios los reciban. No existe un «monopolio de terminación» natural en los datos porque el contenido puede entregarse por múltiples rutas o acercarse al usuario mediante redes de entrega de contenido (CDNs).
Diferencias a nivel de arquitectura técnica y elementos de red entre redes de voz y redes de datos
Convergencia sobre redes IP
La transmisión de voz ha evolucionado de tecnologías legacy (como TDM o multiplexación por división de tiempo) hacia arquitecturas basadas en IP. Esto significa que la voz se digitaliza y se divide en paquetes de datos, viajando por los mismos cables de fibra óptica, routers y conmutadores que el tráfico de internet convencional (correos, web, vídeo).
Dado que la transición a IP del tráfico de voz todavía no se ha completado en su totalidad, aún existen elementos de infraestructura que funcionan como puentes entre las redes modernas y la redes legacy. Por ejemplo, los Legacy Network Gateways (LNG) se utilizan para convertir el tráfico de voz tradicional (TDM) al formato de datos (SIP) para que pueda viajar por las nuevas redes IP compartidas con el tráfico de datos, permitiendo que la infraestructura vieja y nueva se comuniquen durante la transición.
Las redes IP se diseñaron fundamentalmente para transportar datos, sin hacer una distinción entre unos u otros (neutralidad de la red). Sin embargo, el tráfico de voz representa aplicaciones especializadas de este transporte de datos y en cierto sentido una excepción a la neutralidad de la red.
Separación de señalización y medios:
En las comunicaciones IP modernas (que transportan voz sobre redes de datos), existe una separación clara entre la información de señalización (datos para controlar y configurar la sesión, usando protocolos como SIP) y la información de medios (RTP, audio y video digitalizados). Estos flujos se mueven por caminos separados, a diferencia de las redes tradicionales donde solían estar más integrados.
Al igual que la señalización (ej. SIP) y los medios (ej. RTP), los datos «puros» comparten la misma infraestructura física (cables Ethernet, routers, switches, fibra óptica). Todo se transmite como paquetes IP a través de la misma red troncal.
Requisitos de Tráfico y Calidad de Servicio (QoS)
La principal distinción no es si viajan por caminos separados, sino cómo los trata la red:
- Medios (Voz/Video): Requieren baja latencia y poca fluctuación (jitter). Los routers y switches priorizan estos paquetes mediante mecanismos de Calidad de Servicio (QoS), asegurando que lleguen rápidamente. En las redes 5G, por ejemplo, se definen indicadores objetivos para comunicaciones ultra fiables y de baja latencia (URLLC), como no exceder 1 milisegundo de latencia, algo que no era prioritario en redes de datos anteriores.
- Señalización (SIP): También puede recibir cierta prioridad para asegurar que las llamadas se establezcan y terminen rápidamente, pero su volumen es muy bajo.
- Datos «Puros» (Navegación, Archivos): El tráfico de voz representa ahora una fracción minúscula del tráfico total en las redes, habiendo sido superado masivamente por los datos, y específicamente por el video, que representaba aproximadamente el 82% del tráfico IP global en 2021. Generalmente se consideran tráfico “best-effort”. No se priorizan de la misma manera que la voz. Si la red se congestiona, los paquetes de datos pueden retrasarse o descartarse temporalmente para dar paso a la conversación de voz.
A diferencia de la separación lógica clara entre el plano de control (señalización) y el plano de usuario/medios (RTP para voz), los datos «puros» simplemente residen en el plano de usuario y compiten por el ancho de banda general, sujetos a las políticas de QoS establecidas por el administrador de la red.
Seguridad y cifrado
A nivel de interconexión, las medidas de seguridad para la voz (VoIP) y los datos puros comparten muchas bases (cortafuegos, VPNs, control de acceso), pero difieren en la aplicación de protocolos específicos y la naturaleza de las amenazas, especialmente en lo que respecta a la confidencialidad de la conversación en tiempo real y la autenticación de llamadas.
Mientras que los datos puros se centran en la integridad del archivo o la sesión web, utilizando protocolos maduros y ampliamente adoptados como:
- HTTPS (HTTP Secure) para navegación web cifrada, usando Transport Layer Security (TLS).
- VPNs (Redes Privadas Virtuales) para crear túneles seguros a través de redes no confiables como Internet.
- Cifrado de Archivos y Comunicaciones: Uso de SSL/TLS para correos electrónicos, transferencias de archivos (SFTP/FTPS), etc.
También sobre el propio contenido se pueden aplicar medidas como antivirus y antimalware que inspeccionan el contenido de los paquetes de datos en busca de amenazas (ej. adjuntos maliciosos, enlaces de phishing).
El tráfico de voz, debido a su naturaleza en tiempo real y su separación en plano de señalización y plano de medios, requiere medidas específicas en dos niveles (señalización y medios) con protocolos diseñados para garantizar la confidencialidad en tiempo real y la autenticación de identidad de llamada:
- SRTP (Secure Real-Time Transport Protocol): Es el protocolo específico para cifrar el flujo de medios (el audio), garantizando la privacidad de la conversación.
- SIP-TLS (Session Initiation Protocol – Transport Layer Security): Utilizado para cifrar el tráfico de señalización SIP, protegiendo los datos de configuración de la llamada.
- STIR/SHAKEN: Son estándares emergentes diseñados específicamente para autenticar la identidad de la persona que llama y combatir las llamadas no deseadas (spam de voz y suplantación de identidad o caller ID spoofing).
En entornos corporativos modernos (como MS Teams), la voz sobre redes de datos requiere medidas de seguridad específicas, como el cifrado de señalización (TLS) y de medios (SRTP), requisitos que no eran nativos en las centralitas (PBX) tradicionales.
Interconexión y Peering: requisitos técnicos para asegurar la conexión
El intercambio de tráfico entre diferentes redes (interconexión) se realiza a través de enlaces de peering y tránsito que no discriminan necesariamente por el tipo de contenido (voz o datos), sino que conectan sistemas autónomos para permitir la conectividad global:
- Puntos de Intercambio (IXPs): Son infraestructuras físicas donde múltiples redes (ISPs, CDNs, operadores móviles) conectan sus cables para intercambiar tráfico IP, que puede contener tanto llamadas de voz VoIP como datos de navegación web.
- Protocolos Comunes: El uso de protocolos estándar como SIP (Session Initiation Protocol) permite gestionar sesiones de voz y multimedia a través de la infraestructura de datos existente, facilitando servicios como Microsoft Teams o Google Voice sobre la red de internet pública.
Elementos de gestión específicos
Aunque comparten las «tuberías» físicas, la voz requiere una gestión específica dentro de esa infraestructura compartida para garantizar la calidad y seguridad. Para ello se utilizan controladores de borde de sesión (SBCs). Estos dispositivos actúan como «fronteras» dentro de la red de datos para asegurar el tráfico de voz, gestionar la señalización y garantizar la interoperabilidad entre diferentes redes IP, asegurando que la voz (sensible a la latencia) conviva correctamente con el tráfico de datos masivo
La interconexión de datos se centra en el enrutamiento eficiente a través de protocolos como BGP y el uso de Puntos de Intercambio de Internet (IXPs). A diferencia de la voz, que requiere un circuito (virtual o físico) de extremo a extremo en tiempo real, la entrega de datos se optimiza mediante el almacenamiento en caché (CDNs) dentro de la red del ISP o en puntos de peering cercanos, reduciendo la distancia que recorren los datos.
Marcos regulatorios de la interconexión de voz frente a la interconexión de datos:
Debido a sus distintos modelos económicos así como filosofías fundacionales tras los mismos, los reguladores han tratado estos servicios de forma diferente:
Monopolio de Terminación vs. Acuerdos Voluntarios
En las redes de voz, históricamente existe un «monopolio de terminación«, ya que solo un operador puede entregar la llamada al suscriptor final. Esto ha llevado a un modelo regulado de «el que llama paga» (Calling Party Pays), donde se imponen tarifas de terminación para completar las llamadas.
Debido al riesgo de abuso del «monopolio de terminación», los reguladores (como la Comisión Europea) han intervenido durante décadas para fijar precios máximos de terminación de voz (eurorifas) y garantizar la interoperabilidad,. La regulación asegura que cualquier usuario pueda llamar a cualquier otro («any-to-any connectivity«).
Por el contrario, la interconexión de datos en Internet se basa en acuerdos voluntarios de «peering» (intercambio de tráfico) y «tránsito», que suelen ser libres de pago (settlement-free) y buscan el beneficio mutuo sin la imposición de tarifas de terminación reguladas.
Regulación de Precios:
Los precios mayoristas de terminación de voz han sido objeto de una fuerte regulación y reducción a lo largo de los años (por ejemplo, el modelo TSLRIC+ utilizado en Australia) para evitar rentas monopólicas. En las redes de datos, la interconexión ha prosperado sin regulación de precios, aunque recientemente algunos operadores de telecomunicaciones (como los miembros de ETNO) han propuesto introducir tarifas de uso de red obligatorias (fair-share) para los grandes generadores de tráfico de datos, intentando replicar el modelo de voz.
Existe una fuerte armonización a nivel de la Unión Europea. Los precios de terminación móvil, por ejemplo, tienen topes establecidos por reglamentos europeos, lo que ha provocado un descenso significativo de los precios de la voz en los últimos años.
El mercado de interconexión IP (tránsito y peering) se ha desarrollado en gran medida sin intervención regulatoria, basándose en negociaciones comerciales. Organismos como BEREC han concluido repetidamente que este mercado funciona bien por sí mismo debido a la dinámica competitiva y la capacidad de las redes para adaptarse (por ejemplo, durante la pandemia de COVID-19).
