martes, 4 de diciembre de 2018

feliz aniversario, RAR cumple 25 años, la historia de la compresión de archivos



Repasamos los veinticinco años de historia de este gran compresor de archivos, un clásico que arrasa desde 1993.
RAR nació en el corazón de la URSS
Corría el año 1986. En la fría ciudad rusa de Cheliabinsk, a 1.400 kilómetros de Moscú, un muchacho de catorce años lograba montar un ordenador Radio-86K con la ayuda de su hermano mayor, siguiendo las instrucciones proporcionadas por la popular revista de electrónica Радио.





Ese muchacho que consiguió montar su primer ordenador se llamaba Yevgenii Lazarevich Roshal, Eugene Roshal para los americanos. Era el mismo que en 1993 crearía RAR, un formato de compresión de archivos cuyo acrónimo significa, de hecho, Roshal ARchiver, el archivador de Roshal.
Ya en 1991, Roshal, que por aquel entonces estaba en la universidad, se había interesado por los algoritmos de compresión mientras intentaba reducir el espacio ocupado por unos archivos de código. Unos años más tarde, el 10 de marzo de 1993, lanzó la primera beta de RAR.
El éxito llegó gracias a FidoNet
Los noventa fueron la época dorada de los compresores. Un disco duro de 500mb podía costar 750 dólares de entonces (corregido por la inflación, 1.500), y las conexiones de datos a través de módem eran muy caras. Cualquier utilidad que permitiese reducir el espacio ocupado por un archivo era casi imprescindible. En un mismo disquete de alta densidad podían caber así muchos más documentos y programas.




Captura de una BBS típica. A principios de los noventa, la Red era esto
La primera versión que tuvo cierto impacto comercial fue la 1.3, distribuida durante el otoño de 1993. La persona clave en la difusión de RAR fue Ron Dwight,  un norteamericano afincado en Finlandia que coordinaba FidoNet, la más grande red de tablones de anuncios electrónicos (BBS) del momento. FidoNet era un “pre-Internet”, y Dwight era su cabeza visible. Sin él, RAR no habría salido de la URSS.



Ron Dwight, coordinador de FidoNet en los noventa y mecenas de RAR
Las primeras referencias a RAR en Internet datan de 1994. En un mensaje publicado el 15 de mayo de 1994 en el grupo de noticias comp.compression, Roger Burton-West anunciaba la subida al repositorio SimTel de rar1_402.exe, un “compresor de archivos que viene de Rusia, más potente que ARJ o PKZip”. Esa versión 1.402, liberada en marzo de 1994, ya era capaz de crear archivos RAR autoextraíbles y multivolumen.





Algo más tarde, en junio de 1994, RAR alcanzó la madurez con la versión 1.5, que pasó por varias actualizaciones hasta alcanzar la versión 1.55 el 16 de agosto de 1995. Una de las betas podía ejecutarse ya con interfaz gráfica bajo Windows 3.1, pero fue la versión 2.0, lanzada el 6 de septiembre de 1996, la primera en llamarse oficialmente WinRAR. Windows 95 e Internet estaban por aquel entonces en plena expansión.
Con WinRAR 3.0 llegó el formato RAR4
En mayo de 2002 llegó la revolucionaria versión 3.0, que introducía el algoritmo RAR 2.9 (o RAR4). Entre otras cosas, el formato RAR4 introducía cifrado AES de 128 bits, extensiones seriadas para volúmenes (.r01, .r02, etc.) y soporte para archivos de tamaño superior a 9 GB, compatibles con el sistema de archivos NTFS de XP. La interfaz era muy parecida a la que ya conocemos: una gran botonera y dos paneles.






Dos actualizaciones importantes fueron WinRAR 3.60, que añadió soporte multihilos –que mejora el rendimiento al comprimir- y WinRAR 3.90, por fin plenamente compatible con Windows 7 de 32 y 64 bits.
En 2010, WinRAR estrenó la versión 4, que apenas supuso cambios, ya que seguía usando el algoritmo de compresión RAR4, pero que era un 30% más rápida descomprimiendo. Al mismo tiempo, dejaba de ser compatible con Windows 98 y NT.
Veinte años después, WinRAR 5.0

La verdadera revolución ha llegado de la mano de WinRAR 5.0, que estrena nuevo algoritmo, RAR5. Este nuevo formato es incompatible con las versiones anteriores, pero presenta características muy interesantes, como cifrado de 256 bits y una mayor facilidad a la hora de recuperar archivos dañados.

Pero......



 ¿Qué significa comprimir un archivo?

Comprimir es lograr que un archivo ocupe menos sin corromperlo.
Los archivos almacenados en tu disco duro ocupan un espacio determinado sobre la superficie del disco. Si se siguen añadiendo más datos, llegará un momento en el que ya no quedará espacio.
Antes de que se inventara la compresión de archivos, solo había dos opciones: borrar los archivos o añadir más espacio comprando un nuevo disco duro. Dos opciones poco prácticas.
La compresión aplica métodos matemáticos -algoritmos- a los datos para conseguir que estos ocupen menos espacio en el disco, quitando la necesidad de borrar o ampliar el espacio.

Compresión sin pérdida (lossless) vs. Compresión con pérdida (lossy)

Existen dos tipos principales de compresión: sin pérdida de datos (lossless) y con pérdida de datos (lossy). Ambos tipos de compresión tienen sus ventajas e inconvenientes. En la siguiente tabla puedes ver algunos ejemplos de formatos de archivo y su tipo de compresión:
Ten en cuenta que, a veces, se usa un formato para juntar varios archivos en uno sin compresión, cosa que ocurre, por ejemplo, con el formato ISO. En ese caso hablamos de empaquetado de archivos, operación para la que también sirve el formato ZIP.

Compresión sin pérdida o lossless: inflar y desinflar globos

La compresión sin pérdida o lossless consiste en analizar el archivo en busca de repeticiones y patrones que se puedan resumir. Es lo más parecido a comprimir un acordeón. Mira, por ejemplo, este documento con varios tipos de datos:
Cuando lo comprimimos en formato ZIP, que es lossless, esto es lo que ocurre al “acordeón” original que es nuestro archivo de ejemplo:
Como ves, los sectores que se repetían se han reducido mucho, pero los datos no se han perdido: el formato ZIP ha guardado instrucciones que indican cómo “reinflar” el archivo para usarlo.
Nota también cómo algunos de esos sectores (los grises) no se han comprimido apenas: esto se debe a que el nivel de redundancia de esas partes es menor. En otras palabras, si no hay nada que se repita, el compresor no hace nada. Eso explica por qué comprimir archivos muy optimizados, como los JPG, es inútil.
Encontrar repeticiones en un texto es fácil. Por eso la compresión es muy eficaz con los TXT
Otra razón por la que pueden quedar partes sin comprimir es que cada tipo de dato requiere un enfoque distinto a la hora de ser comprimido sin pérdida. Es por ello que hoy en día se prefiere usar compresores específicos para determinados tipos de archivos, llamados comúnmente códecs.
Prácticamente todos los compresores de archivos (WinZipWinRAR7Z) recurren a la compresión lossless porque es fiable y segura: la integridad de los datos se mantiene, y esa es su mayor ventaja. Si necesitas disminuir el espacio ocupado por documentos importantes, la compresión lossless debe ser tu primera elección.
El inconveniente principal de la compresión lossless es que no siempre resulta eficaz, y que el ahorro de espacio que consigue es inferior al que obtienen las técnicas lossy.

Compresión con pérdida o lossy: quitar las piezas no-esenciales

La compresión lossy disminuye el espacio ocupado por un archivo usando una técnica bastante más radical: elimina información que resulta irrelevante para los sentidos humanos.
Por ejemplo, la compresión JPG reduce las variaciones de brillo y color de una foto, mientras que el formato MP3 elimina frecuencias de sonido inaudibles para el oído humano.
Arriba, la forma de onda de un archivo WAV sin compresión; abajo, la versión MP3 a 40kbps (fuente: Audio Grains)
Una cosa a tener en cuenta es que mientras la compresión lossless siempre es máxima, la compresión lossy es ajustable por el usuario como si de un control de televisión se tratara.
La diferencia entre la primera y la segunda Lenna es imperceptible a simple vista
Al comprimir con un algoritmo lossy, hay que preguntarse siempre qué nivel de calidad consideramos aceptable para el uso que vamos a dar al documento comprimido. Es importante consultar una vista previa y no sobrescribir el original.
El compresor de imágenes RIOT en acción. Nota la diferencia de tamaño entre las dos imágenes
La ventaja innegable de la compresión lossy es que consigue reducir el tamaño de los archivos de manera espectacular sin que el contenido pierda sentido.
Gracias a su potencia, la compresión lossy posibilitó el crecimiento de Internet a finales de los 90 gracias a las imágenes JPG. El formato MP3, por otro lado, revolucionó el panorama de la música digital (e hizo posible Napster y el iPod).
Y, desde hace unos años, los formatos de vídeo comprimido han transformado la industria del cine y la televisión. Al poder enviar más datos en menos tiempo y ocupando menos espacio, autores y consumidores audiovisuales han salido ganando.

La baja fidelidad, un fenómeno al que nos hemos adaptado

El problema de la compresión lossy radica en la pérdida de fidelidad con respecto al original, una pérdida que no se puede recuperar de ninguna manera.
La información eliminada por un algoritmo lossy se pierde para siempre. Y empeora al guardar el archivo. Mira lo que ocurre al sobrescribir un archivo JPG más de 500 veces:
Una “culpa” que se puede achacar a la compresión con pérdida de datos es que nos ha acostumbrado a una menor fidelidad audiovisual: que una película presente artefactos de compresión y tenga un sonido aplanado no nos parece importar. Es más, hay incluso quien convierte estas imperfecciones en una herramienta artística.
Un ejemplo de datamoshing, esto es, el uso deliberado de artefactos de compresión para crear video-arte
Mientras tanto, los puristas siguen alabando la fotografía analógica en gran formato y los discos compactos, dos tecnologías que, a pesar de ser obsoletas, mantienen una fidelidad máxima con el original. Y cuidado con decirle a un fan del Hi-Fi que escuche canciones MP3 con un bitrate inferior a 320kbps: torcerá la nariz y volverá a sus mini-disc.
Pero ¿guardarías tú todas tus fotos en formato BMP / RAW, tus vídeos en AVI y toda tu música en formato WAV? Obviamente no: necesitarías un disco duro veinte veces más grande que el que tienes actualmente. Y para disfrutar de esos contenidos en Internet, necesitarías una conexión de fibra óptica como las que usan las universidades.
Así pues, la compresión lossy es el pequeño precio que tenemos que pagar por disponer de una cantidad enorme de información audiovisual sin tener que gastar un dineral en infraestructuras de reproducción y conexiones ultra-rápidas a Internet. Para algunos ese precio es demasiado alto; para otros, aceptable. Y ahí radica, quizá, la gracia de la compresión.

No hay comentarios:

Publicar un comentario

Breve historia de internet

La historia de Internet y las páginas web es fascinante y está marcada por una serie de hitos tecnológicos y desarrollos innovadores que han...