El siguiente post es una traducción (con algunas adaptaciones idiomáticas) del texto realizado por David Harley publicado en el blog de ESET en inglés donde podrán ver la opinión del especialista de ESET a nivel mundial, sobre el juego de números que se realiza con respecto al índice de detección de amenazas en los antivirus.
La historia de la “linterna mágica” sigue manteniéndose a flote. La semana pasada estaba en Krems, Austria, asistiendo a la conferencia EICAR y se hacía referencia a esa historia desde un paper publicado por Eric Filiol y Alan Zaccardelle denominado: “Magic Lantern… Reloaded/Anti-Viral psychosis McAfee Case”, a pesar de que éste no ocupaba un tema central comparado con los demás tratados.
Elegí otro de esos temas tratados en el blog de SC Magazine, en particular la sugerencia de que la industria (o en todo caso uno de nuestros competidores) exagera la cantidad de amenazas existentes a través de la detección del mismo malware bajo diferentes nombres. En realidad, en mi mente, tengo bastante claro que esa sugerencia es producto de una confusión entre el número de amenazas y el número de detecciones (firmas). Por lo tanto, yo me dirigí a SC Magazine explicando esa información y la comparto a continuación:
- El número total de amenazas que una compañía ha detectado es arbitrario y subjetivo, ya que va depender en cómo se cuente. ESET, por una cuestión de políticas, no discute ese número, ya que podría ser engañoso y no resultaría útil.
- De hecho, el número de amenazas recibidas diariamente es bastante subjetivo, a pesar de que al menos nos brinda una idea de la magnitud de las mismas. En nuestro caso, yo creo que es un conteo de binarios únicos (otras compañías podrían hacerlo de forma diferente). ¡Oh, se me pasó decirles cuál es el número! ;)
- Ningún conteo tiene nada que ver con los nombres detectados, el cual es uno de los puntos de la publicación. El autor sugiere que, dado un caso en que la misma amenaza fue detectada varias veces utilizando 4 nombres diferentes, entonces significa que el proveedor en cuestión está elevando al cuádruple el número de amenazas reales. Eso es una falacia, ya que:
- Los nombres detectados evolucionan a medida que aprendemos acerca de una amenaza.
- Éstos pueden ser diferentes de acuerdo al contexto de detección (por ej. si está siendo utilizada una "heurística paranoica").
- Los nombres detectados podrían ser pensados para dar información al laboratorio que los generó, más que al consumidor final.
- Por sobre todas las cosas, no hay una metodología estándar de detección de amenazas. Quizás pueden existir varios caminos para detectarlas y todos pueden ser válidos.
Vamos a probar el ejemplo hipotético de un programa malicioso que utiliza un ofuscador malicioso conocido, ¿cómo se llama la firma?
- Un producto A puede darle un nombre que refleja el hecho de que el código base claramente pertenece a una determinada subfamilia de malware. Si la familia cuenta con 150 variantes, cada variante podría tener un nombre diferente.
- Un Producto B puede tener semejanzas con una familia más amplia y ser nombrado de modo que refleje una detección de generación única que posee 100.000 sub variantes.
- El producto C podría darle un nombre que refleja el ofuscador que se utilizó.
- El producto D podría darle un nombre que refleja el algoritmo de ofuscación.
- El producto E puede detectar todo lo que utiliza un ofuscador, es decir, cualquier ofuscador. Por lo tanto, el número de muestras que C, D y E detectan bajo un mismo nombre puede variar mucho entre un producto y otro.
- El producto F puede utilizar un nombre que refleja una de sus otras características, por ejemplo, el hecho de que utiliza autorun.inf para instalarse. En ese caso, un solo nombre podría cubrir a millones de muestras y miles de familias de otro modo no relacionado.
En este caso, dos productos pueden detectar todas las muestras de nuestro hipotético malware. ¿Cuál es mejor entre A o F? Usted podría decir que A es mejor porque tiene más firmas, o que F es el mejor porque detecta más muestras. En realidad, no se puede determinar qué es lo mejor, porque están contando cosas diferentes, y además los nombres de detección no le dicen nada acerca de los números en ninguno de los dos casos.
En el otro blog dije que no sabía si el competidor en cuestión publica el número total de amenazas que detecta. Kurt Wismer sugirió que lo hace, y llegó con este enlace de 2006. Sin embargo, a mí me parece que eso es más la interpretación de "el registro" de algunas cifras sobre las detecciones y no el número de amenazas individuales (le debo las gracias a Kurt, ya que desde ese entonces ha encontrado el post de Jimmy Kuo, el artículo al que se refiere el eegistro, y confirma que se trata de detecciones y no del volúmen bruto de amenazas).
De todos modos, yo sugeriría al lector que se tome cada afirmación de “este antivirus es el mejor porque detecta 200 millones de códigos maliciosos” con pinzas. De hecho, con muchas de ellas.
David Harley
ESET Senior Research Fellow