Acerca do DRE Tretas
🔗 Introdução
Este site disponibiliza uma cópia tão fiel quanto possível do Diário da República Electrónico, em caso de dúvida deverá sempre recorrer à fonte oficial.
Em 2012, em resposta directa à baixíssima qualidade que o site oficial apresentava, foi concebido e implementado este site. Na altura os objectivos principais foram:
- Permitir aos motores de busca indexar os documentos do DRE;
- Proporcionar um motor de busca moderno, rápido e intuitivo ao utilizador final;
- Disponibilizar os documentos em HTML (fáceis de visualizar em qualquer plataforma);
- Permitir criar ligações do exterior para os documentos.
Pensamos que todos estes objectivos foram amplamente alcançados.
Depois de alguns percalços o site oficial foi actualizado em Setembro de 2014. O site apresenta uma interface moderna mas, infelizmente, nessa altura ainda não permitia o acesso livre aos documentos (o acesso era pago). Escrevi em Abril de 2016 um post sobre a situação do DRE.
Finalmente em Novembro de 2016 o DRE foi finalmente aberto. Com a abertura do DRE desapareceram muitos dos motivos para a existência deste site. No entanto, devido às seguintes razões decidiu-se manter o site no ar:
- O custo da manutenção do site é muito baixo, tanto em tempo como em dinheiro;
- O site, de forma consistente, tem cerca de 10000 visitas diárias (excluindo a pletora de bots que o assaltam constantemente);
- Os motores de busca continuam a ter alguma dificuldade em indexar o site oficial, assim começámos a ligar todos os documentos à respectiva fonte oficial. Desta forma os motores de busca ficam com conhecimento das páginas oficiais e indexam-nas;
- O site oficial continua a não disponibilizar o corpo de documentos para download fácil. Nós disponibilizamos a base de dados para quem a desejar usar, por qualquer motivo;
- Quando colocámos a hipótese de desactivar o dre.tretas.org vários utilizadores pediram para não o fazermos.
Todos os cidadãos são convidados a utilizar este site. Qualquer comentário, crítica ou sugestão pode ser enviado para: webmaster@tretas.org.
Helder Guerreiro
José Lopes
🔗 Direito ao esquecimento
Nós, no dre.tretas.org, não temos qualquer influência sobre a INCM (Imprensa Nacional Casa da Moeda), que compõe e publica o Diário da República. Se julga que a presença do seu nome ou de quaisquer outros dados pessoais em documentos publicados no Diário da República atenta ao seu direito à privacidade, terá de levar o problema à INCM.
Compreendemos, no entanto, que queira remover conteúdos sensíveis dos motores de busca ao abrigo do Direito ao Esquecimento. Pode tentar fazer com que os motores de busca deixem de listar o seu nome com base numa decisão do Tribunal de Justiça da União Europeia (C-131/12, PDF, 13 de maio de 2014). Para o efeito tem várias alternativas:
- O Google tem um formulário onde pode fazer esse pedido, pode aceder a esse formulário nesta página;
- O Bing, tem este formulário
Finalmente, se assim o entender, pode enviar-nos um mail para webmaster@tretas.org. Nesse mail deve de indicar o URL das páginas que pretende retirar dos motores de busca, deve também de indicar o motivo para a retirada das páginas. Se considerarmos que o motivo tem mérito, acrescentaremos um código às páginas em questão que fará com que os motores de busca que respeitem esse código não indexem a página. Evidentemente não nos podemos responsabilizar pelas acções dos motores de busca nem garantir que estes irão obedecer às nossas directivas.
🔗 Nota técnica
Este sistema corre sobre Linux, utilizam-se os seguintes sistemas principais:
- Base de dados PostgreSQL;
- Índice feito utilizando a biblioteca Xapian;
- Interface web feita com Django;
- O brasão de armas (esfera armilar e o escudo português) foi retirado desta página. É uma obra de Vítor Luís Rodrigues e António Martins-Tuválkin contratada pela Presidência da República em Junho de 2004 com o fim expresso de ser posta no domínio público;
- Os icons utilizados no site foram retirados da colecção de icons do Projecto KDE, estão sob licença GPL v2.
Corre num servidor HP ML310 G8.
🔗 Desenvolvimento deste sistema
Todo o site foi feito usando software livre.
A escolha óbvia para a licença do próprio sistema foi a GPL v3. Pode obter o código fonte do site, colaborar no desenvolvimento, abrir bug reports, etc, na página do projecto no GitLab.
🔗 Base de dados
Pode fazer o download de toda a legislação que recolhemos do 'dre.pt' na ligação seguinte:
- Download corpo de legislação
- Base de dados em formato JSON (cerca de 90MB). Neste formato apenas temos os metadados;
- Dump da base de dados com a ferramenta 'pg_dump' da base de dados PostgreSQL (cerca de 1.2GB), inclui os metadados e o texto dos documentos;
- Uma base de dados SQLite (cerca de 1.4GB), inclui os metadados e o texto dos documentos. Este formato foi introduzido em Junho de 2024, tem a vantagem, em relação aos outros formatos, de se poder usar imediatamente com qualquer ferramenta compatível com o SQLite.
Note, por favor, o seguinte:
- Os ficheiros foram comprimidos usando a ferramenta bzip2. Depois de descomprimidos expandem para ficheiros relativamente pesados, com várias vezes o tamanho original (por exemplo, o ficheiro SQLite comprimido, com 1.4GB, expande para 10GB);
- Temos uma explicação sobre o formato dos ficheiros JSON e do dump PostgreSQL neste post. Para mais informações sobre o formato SQLite consultar este outro post;
- Estes ficheiros são gerados todos os Domingos por volta das 10:00 (Europa/Lisboa).
🔗 Lista de funcionalidades
- Procura em texto livre usando a biblioteca Xapian:
- Procura probabilística;
- Procura booleana estruturada;
- Procura usando prefixos;
- Possibilidade de ordenar os resultados de busca por data;
- Possibilidade de transformar uma busca num feed RSS, neste caso os resultados são sempre apresentados ordenados por data descendente, desta forma o feed apresenta sempre os últimos diplomas sobre o assunto da busca. Evidentemente não convém usar buscas com modificadores de data pois, se o fizer, o feed RSS será estático para essa data;
- Navegação por datas:
- Filtragem por uma série de critérios:
- Série;
- Tipo de documento;
- Palavra chave;
- Filtragem por uma série de critérios:
- Reconhecimento de citações entre documentos (com tooltip e hiperligação);
- Lista de referencias feitas num dado documento;
- Lista de documentos que referem um dado documento;
- Procura de documentos relacionados;
- Top dos documentos mais consultados no último dia, na última semana ou no último mês;
- Suporte de utilizadores com áreas próprias:
- Anotação de documentos (suporta markdown);
- Manutenção de uma lista de marcadores:
- Filtragem de marcadores (por datas, palavra chave e etiquetas);
- Sistema de etiquetagem;
- Sistema de anotação;
- Possibilidade de ter os marcadores e anotações públicos ou privados;
- Ferramentas para gestão do perfil de utilizador:
- Dados pessoais;
- Palavra chave;
- Gestão de etiquetas;
- Definições várias (controlo geral de privacidade, ajustes da interface).
- Lista com os trezentos documentos mais recentes adicionados à base de dados - para benefício dos motores de busca.
🔗 Versões deste documento
Tal como referido mais acima todo o código fonte deste sistema é aberto e público. Pode consultar as versões anteriores desta página no GitLab.