Ir direto para o menu Ir direto para o conteúdo

O projeto do senador Azeredo e a matemática da Abranet

Abranet diz que projeto resultará em custos de 15 milhões de reais apenas para armazenamento de dados. Projeto tem problemas, mas é preciso discussão racional.

Altieres Rohr | 30/07/2008 - 18h38

O projeto sobre crimes de internet do senador Eduardo Azeredo (PSDB-MG) tem causado muita polêmica. Até o momento, nada foi publicado sobre ele na Linha Defensiva. No dia 9, ele foi aprovado pelo Senado, ainda restando a aprovação pela Câmara.

A Folha Online publicou, dois dias após a aprovação do projeto no Senado, uma matéria que expõe vários pontos de vista, um deles o da Abranet, que afirma que o projeto custará R$15 milhões somente em armazenamento de dados aos provedores.

Colocando esse número em perspectiva: já em 2007, o Brasil tinha 6,5 milhões de usuários de banda larga. Isso significa que, para cobrir um custo de R$15 milhões, cada assinante de banda larga teria que pagar R$2,30 a mais por ano ou 20 centavos por mês.

Mas, não vamos nos deter aqui ao custo de R$15 milhões, que, vimos, é relativamente baixo. Vamos ver o que há de verdadeiro nestes R$15 milhões.

Quanto custa para armazenar os dados solicitados pelo projeto

O artigo que exige que provedores armazenem dados é o 22. Seu inciso I possui o seguinte texto:

Art. 22. O responsável pelo provimento de acesso a rede de computadores mundial, comercial ou do setor público é obrigado a:

I – manter em ambiente controlado e de segurança, pelo prazo de três anos, com o objetivo de provimento de investigação pública formalizada, os dados de endereçamento eletrônico da origem, hora, data e a referência GMT da conexão efetuada por meio de rede de computadores e fornecê-los exclusivamente à autoridade investigatória mediante prévia requisição judicial;

Enquanto alguns gritavam pela eliminação deste artigo, ficou perdida na discussão a ambigüidade em relação ao que é uma conexão. Falarei disso mais adiante. As explicações dadas pelo Senado dizem que esse trecho exige apenas as informações relativas ao início e ao fim da conexão: “[Provedores devem] guardar por três anos os chamados “logs de acesso” que nada mais são do que a identificação da hora de conexão e desconexão à Internet.”

Um relatório de conexão, com os dados exigidos, fica mais ou menos dessa forma (para um usuário que conectou no dia primeiro de janeiro de 2008 exatamente à meia-noite em horário brasileiro e desconectou-se 10 minutos depois com o IP 254.254.254.254):

[01/Jan/2008:00:00:00 -0300] - 254.254.254.254 - nome-de-usuario - inicio-de-conexao
[01/Jan/2008:00:10:00 -0300] - 254.254.254.254 - nome-de-usuario - fim-da-conexao

Isto dá 168 bytes, mas vamos arrendondar os números (para cima, sempre) e deixar 170 bytes. (Cada caractere em um arquivo de texto ASCII ocupa 1 byte e o fim da linha em arquivos de texto Unix, que é o sistema mais usado pelos provedores, ocupa mais um byte). Note que os softwares provavelmente irão gerar logs diferentes e com outras informações, porém estas linhas possuem todas as informações exigidas pelo projeto.

Não consegui encontrar dados muito bons a respeito do número de assinantes que o Brasil tem e a freqüência com que conectam na rede. Mas vamos utilizar o número de 40 milhões, que é o número de usuários brasileiros na rede e, por isso, provavelmente maior do que o de assinantes únicos, já que muitas pessoas acessam a rede no trabalho ou por Lanhouses/cibercafés. Vamos supor também que todos estes 40 milhões conectem e desconectem todo dia da Internet, gerando 170 bytes de arquivos de registro.

Esta quantidade de usuários gera 6,8GB de relatórios de conexão diariamente (170 * 40 000 000).1

Vamos armazenar estes dados em um disco rígido de alta performance como um Seagate Cheetah SCSI de 15 000 RPM, que custa R$879 e possui apenas 73GB de espaço. Com este preço, temos um custo de R$12 por GB só no HD. Lembrando que os provedores provavelmente não precisam de um disco de 15 000 RPM para esta tarefa e poderiam utilizar algo mais barato.

Para armazenar os 6,8GBs diários, teremos um custo de R$81,6 por dia. mas vamos arredondar para R$82. Em um ano, isto tem um custo de R$29 930 reais para armazenar ~2,4 Terabytes. Mas vamos arredondar para R$30 mil por ano (lembrando que um HD de 1TB pode custar R$700 ou menos, o que reduziria o custo de 2,4TB para apenas R$1680).

Vamos multiplicar este número por 3, uma vez para os discos duplos em RAID e outra para o backup. Como os provedores podem ser multados se não respeitarem esta ordem, faz sentido manter os discos em RAID espelhado (dois discos armazenando os mesmos dados). Mas reparem que o preço do backup está bem acima aqui; fitas de backup podem ter um custo de até 70 centavos por GB.

Isso nos deixa com R$90 mil. Vamos colocar 100% em cima disso para cobrir mão-de-obra e eventuais HDs quebrados. Existem também custos de energia e espaço físico. Porém, não vale somar isto, porque já estamos colocando 100% aqui (um exagero) e não adicionamos o fator da compressão de dados nessa conta, que reduziria drasticamente o espaço necessário para o armazenamento, mesmo considerando-se a segurança necessária em sua manutenção, exigida pelo projeto (obtido em parte com criptografia, o que aumenta o espaço necessário). Mesmo um ZIP reduz muito o tamanho de arquivos simples como relatórios.2

Isso nos deixa com R$180 mil. Vamos arredondar para R$200 mil. Isso dá uma diferença de R$13,8 milhões em relação ao menor número estimado pela Abranet (R$14 milhões).

Vamos ignorar essa conta e usar outra, o Amazon S3. O S3 cobra 18 centavos de dólar por GB por mês para armazenar dados na Europa (15 se for nos EUA). Vamos imaginar que o dólar está a R$2 e transformar os 40 centavos em 50, para adicionar um “custo brasil”.

Eles ainda cobram 10 centavos (de dólar) por GB transferido para eles, nos deixando com um custo de 70 centavos de real por GB por mês. Em 3 anos, isto é um custo de R$25,20 reais por GB. Mas vamos aumentar para R$26.

O total de dados necessário em 3 anos (o prazo exigido pelo projeto), com base nos cálculos acima, é de aproximadamente 7,5 TB ou 7 500GB. A R$26 por GB, temos um custo R$195 000 no Amazon S3, sem considerar a compressão dos dados.

O preço não está totalmente fora dos padrões brasileiros: o plano Premium da Locaweb tem 250GB de espaço e custa R$179, dando um custo de R$25,77 por GB em 3 anos.

Fica a pergunta: que tipo de dados e custos a Abranet levou em consideração para chegar nos R$15 milhões?

A Abranet foi consultada uma semana antes da publicação desta matéria, mas a Linha Defensiva não recebeu nenhum comunicado. Se a Abranet se pronunciar, o texto será editado com as explicações fornecidas.

Problemas com este cálculo

O cálculo feito acima não é para ser uma estimativa correta. Uma estimativa correta teria que considerar o preço do espaço físico seguro e eletricidade, incluindo do equipamento para resfriamento, além de colocar um valor fundamentado nos custos de mão-de-obra e substituição de hardware defeituoso. É preciso ressaltar que a maioria dos provedores já possui um ambiente seguro deste gênero ou, se não possui, aluga em um dos vários datacenters brasileiros.

Certos aspectos do cálculo foram exagerados. Usar o mesmo preço do disco para o backup é errado, como é usar um disco de 15 000 RPM para uma tarefa pouco intensiva como a gravação de logs simples. Por outro lado, outros custos foram desconsiderados, como por exemplo o preço de gabinetes/servidores de armazenamento. Mesmo assim, o preço destes é inicial (caso o provedor ainda não possua).

E mesmo considerando isso, é difícil ver como chegaríamos em R$15 milhões. Usando o cálculo de 7 500GB durante os 3 anos, que é definitivamente exagerado por não considerar a compressão de dados, com R$45 milhões (15 milhões por ano, 3 anos) o custo por GB seria de R$6000 — impossível considerando-se a baixa necessidade de performance desta tarefa.

O objetivo do cálculo feito aqui era para demonstrar o exagero. Não existe a pretensão de oferecer uma estimativa 100% precisa. Mesmo com uma margem de erro de R$2 milhões para mais, a diferença ainda é enorme.

É claro que existe também o custo extra, que é a interceptação de dados caso isto seja requisitado por uma ordem judicial. Estes dados são mais caros, pois o uso de disco é contínuo (por armazenar todo o tráfego de rede). Há também um custo de processamento e memória, pois utilizar sniffers (que gravam os dados que passam pela rede) consome recursos intensamente.

Embora seja possível, muito provavelmente, colocar um custo por GB nessa tarefa, não é possível saber quantas ordens judiciais deste tipo serão realizadas, nem quanto tempo durarão, muito menos qual será o movimento de tráfego do cidadão investigado. Estas variáveis serão definitivas na hora de calcular estes custos.

Não fica claro se o cálculo da Abranet já levou em conta estes custos e, se o fez, como fez.

Próxima página: O que é uma conexão? E quem precisa guardar os dados?

  1. Embora o número seja na verdade 6,3GB, discos rígidos usam base 10 para calcular sua capacidade, então, em um disco, isto seria o equivalente a 6,8GB. Voltar
  2. Mesmo se provedores quiserem manter os dados em algo mais refinado com um banco de dados, é possível exportar os dados para formatos mais fáceis de compactar para fins de arquivamento. Voltar
Sobre o autor

Altieres Rohr é editor-chefe e fundador da Linha Defensiva.

Conteúdo Relacionado

Fechar
  • Web Social
  • E-mail
Anuncie | Termos de Uso | Política de Privacidade | WP | KP | ASAP
©2004-2008 Linha Defensiva. Todos os Direitos Reservados.