Ciencia de Dados A Estruturacao Dos Dados - v1 - 1704035168
Ciencia de Dados A Estruturacao Dos Dados - v1 - 1704035168
Ciencia de Dados A Estruturacao Dos Dados - v1 - 1704035168
CONTEÚDO
2
www.resumosdeti.com.br
O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados
− Dados
o São matéria-prima, constituem elementos da informação e incluem os itens que
representam factos, textos, gráficos, imagens estáticas, sons, segmentos de vídeo
analógicos ou digitais, etc.
− Informação
o Propriamente dita são os dados que passam por algum tipo de processamento
para serem exibidos de uma forma inteligível às pessoas que irão utilizá-los.
3
www.resumosdeti.com.br
O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados
− Conhecimento
o Pode ser definido como informações cuja relevância, confiabilidade e importância
foram avaliadas.
o Neste caso, o conhecimento é obtido pela interpretação e integração de vários
dados e informações.
− Inteligência
o É o nível mais alto desta hierarquia e pode ser entendida como a informação com
oportunidade, ou seja, o conhecimento contextualmente relevante que permite
atuar com vantagens no ambiente considerado.
o Também pode ser vista como o conhecimento que foi sintetizado e aplicado a
determinada situação para ganhar maior profundidade e consciência dela.
o Complementando, diz-se que a inteligência é a parte do conhecimento que
habilita a tomada das melhores decisões.
4
www.resumosdeti.com.br
O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados
− CASTRO e FERRARI (2016) destacam que, de forma simplificada, dados são valores
quantitativos ou qualitativos associados a alguns atributos.
Dados Estruturados
− Uma base de dados é estruturada quando os dados estão armazenados em campos fixos
em um arquivo – por exemplo, uma tabela, uma planilha ou um banco de dados.
o Assim, os dados estruturados dependem da criação de um modelo de dados,
incluindo a descrição dos objetos juntamente com suas propriedades e relações.
5
www.resumosdeti.com.br
O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados
Dados Semiestruturados
− O dado semiestruturado é um tipo de dado que não possui a estrutura completa de um
modelo de dados, mas também não é totalmente desestruturado.
− Nos dados semiestruturados em geral são usados marcadores (por exemplo, tags) para
identificar certos elementos dos dados, mas a estrutura não é rígida.
− Essa terminologia normalmente se refere a textos livres, imagens, vídeos, sons, páginas
web, arquivos PDF, entre outros.
− Os dados não estruturados costumam ser de difícil indexação, acesso e análise (CASTRO
e FERRARI, 2016).
6
www.resumosdeti.com.br
O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados
De forma resumida, temos a tabela a seguir que diferencia os três tipos de dados:
Dados Estruturados Dados Semiestruturados Dados Não Estruturados
Ex.: Banco de Dados, Tabela, Ex.: XML, HTML, JSON, Ex.: Textos, Documentos,
Planilhas. RDF. Imagens, Vídeos, Áudios,
Redes Sociais.
Estrutura rígida, projetada Estrutura flexível, Sem estrutura (ou com
previamente, representação representação estrutura mínima de
homogênea. heterogênea. arquivo).
Cada campo de dados tem Cada campo de dados Mais de 80% dos dados
um formato bem definido. tem uma estrutura, mas gerados no mundo é deste
não existe uma imposição tipo.
de formato.
Dados de um mesmo O esquema é criado com
registro possuem relação a definição de elementos
entre eles. internos dos arquivos
(nós), legíveis para seres
humanos.
FONTE: Adaptado de <https://bit.ly/332OR9z>. Acesso em: 26 set. 2020.
7
www.resumosdeti.com.br
O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados
Dados Abertos
− Por sua vez, quando os dados são produzidos, coletados ou custodiados por autoridades
públicas e disponibilizados em formato aberto, considera-se que são dados abertos
governamentais.
− Os dados abertos também são pautados pelas três leis e oito princípios.
As 3 Leis
− As chamadas três “leis” dos dados abertos não são leis no sentido literal, promulgadas
por algum Estado.
− São, em suma, um conjunto de testes para avaliar se um dado pode, de fato, ser
considerado aberto.
o Elas foram propostas pelo especialista em políticas públicas, ativista dos dados
abertos e palestrante de políticas públicas na Harvard Kennedy School of
Government David Eaves.
− São elas:
1. Se o dado não pode ser encontrado e indexado na Web, ele não existe;
2. Se não estiver aberto e disponível em formato compreensível por máquina, ele não
pode ser reaproveitado; e
3. Se algum dispositivo legal não permitir sua replicação, ele não é útil.
− As leis foram propostas para os dados abertos governamentais, mas pode-se dizer que
elas se aplicam aos dados abertos de forma geral, mesmo fora de ambientes
governamentais.
o Por exemplo, em empresas privadas, organizações da sociedade civil e
organismos internacionais.
8
www.resumosdeti.com.br
O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados
− Dados também podem ser abertos voluntariamente por organizações privadas, por
diversos motivos.
o Nos últimos anos, especialistas têm discutido a abertura de dados pelo setor
privado para ações que beneficiam o interesse público, os chamados
“colaborativos de dados”.
Os 8 Princípios
− Em 2007, um grupo de trabalho de 30 pessoas reuniu-se na Califórnia, Estados Unidos
da América, para definir os princípios dos Dados Abertos Governamentais.
− Chegaram num consenso sobre os seguintes 8 princípios:
1. Completos.
o Todos os dados públicos são disponibilizados.
o Dados são informações eletronicamente gravadas, incluindo, mas não se
limitando a, documentos, bancos de dados, transcrições e gravações
audiovisuais.
o Dados públicos são dados que não estão sujeitos a limitações válidas de
privacidade, segurança ou controle de acesso, reguladas por estatutos.
2. Primários.
o Os dados são publicados na forma coletada na fonte, com a mais fina
granularidade possível, e não de forma agregada ou transformada.
3. Atuais.
o Os dados são disponibilizados o quão rapidamente seja necessário para
preservar o seu valor.
4. Acessíveis.
o Os dados são disponibilizados para o público mais amplo possível e para os
propósitos mais variados possíveis.
O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados
8. Licenças livres.
o Os dados não estão sujeitos a restrições por regulações de direitos autorais,
marcas, patentes ou segredo industrial.
o Restrições razoáveis de privacidade, segurança e controle de acesso podem
ser permitidas na forma regulada por estatutos.
− Além disso, o grupo afirmou que a conformidade com esses princípios precisa ser
verificável e uma pessoa deve ser designada como contato responsável pelos dados.
O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados
− No que diz respeito à transparência ativa, a LAI traz consigo conceitos de dados abertos,
em especial em seu art. 8º:
o Art. 8º É dever dos órgãos e entidades públicas promover, independentemente
de requerimentos, a divulgação em local de fácil acesso, no âmbito de suas
competências, de informações de interesse coletivo ou geral por eles produzidas
ou custodiadas.
o (…)
o § 2º Para cumprimento do disposto no caput, os órgãos e entidades públicas
deverão utilizar todos os meios e instrumentos legítimos de que dispuserem,
sendo obrigatória a divulgação em sítios oficiais da rede mundial de
computadores (internet).
o § 3º Os sítios de que trata o § 2º deverão, na forma de regulamento, atender,
entre outros, aos seguintes requisitos:
o (…)
o II – possibilitar a gravação de relatórios em diversos formatos eletrônicos,
inclusive abertos e não proprietários, tais como planilhas e texto, de modo a
facilitar a análise das informações;
o III – possibilitar o acesso automatizado por sistemas externos em formatos
abertos, estruturados e legíveis por máquina;
11
www.resumosdeti.com.br
O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados
Legislação
− Sobre a Política de Dados Abertos:
o Lei de Acesso à Informação, em especial o seu art. 8º, e o Decreto 7.724/2012,
que a regulamenta no Poder Executivo federal
o Instrução Normativa SLTI/MP nº 4/2012
o Decreto 8.777/2016, que institui a Política de Dados Abertos do Poder Executivo
Federal
o Decreto 9.903/2019, que transfere a gestão da Política de Dados Abertos do
Poder Executivo Federal para Controladoria-Geral da União (CGU)
o Resolução nº 3 do Comitê Gestor da Infraestrutura Nacional de Dados Abertos
(CGINDA)
12
www.resumosdeti.com.br
O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados
13
www.resumosdeti.com.br
O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados
Formatos e Tecnologias
XML
− O XML é uma linguagem de marcação, assim como o HTML (usado para construir
páginas da Web), definido e mantido pelo World Wide Web Consortium (W3C).
o O objetivo do XML é o foco na simplicidade, generalidade e usabilidade por toda
a Internet.
14
www.resumosdeti.com.br
O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados
Marcadores e Conteúdo
− Um arquivo XML possui duas características principais:
o marcadores e conteúdo.
− Geralmente, as sequências de caracteres que começam com < e terminam com > são
chamadas de "marcadores".
o Sequências de caracteres que não são marcadores são consideradas "conteúdo".
Tags
− As tags são os marcadores que começam com < e terminam com >.
− São três os tipos de tags:
o Tags de início;
▪ Por exemplo: <Localidade>
o Tags de término;
▪ Por exemplo: </Localidade>
Elementos
− Os elementos são componentes do XML que começam com uma tag de início e
terminam com uma tag de término correspondente, ou consistem apenas de uma tag
de elemento vazia.
− A sequência de caracteres entre as tags de início e término, se existirem, são o conteúdo
do elemento e podem incluir marcadores, incluindo outros elementos, que são
chamados de "filhos".
15
www.resumosdeti.com.br
O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados
Atributos
− Os atributos são pares de "nome/valor" que existem dentro da tag de início ou tag de
elemento vazia.
Declaração XML
− Os documentos XML devem começar declarando alguma informação sobre si mesmos,
como no exemplo:
CESPE
XML consiste em um padrão de representação de informação extensível que, por isso,
pode ser usado para representar tanto informação estruturada como não estruturada.
XML pode ser utilizado como linguagem padrão para a integração de fonte de dados de
diferentes formatos.
O modelo XML (extended markup language) usa estruturas de árvores hierárquicas,
combina conceitos de banco de dados com os de modelos de representação de
documentos.
XML é uma metalinguagem capaz de descrever linguagens de marcação, utilizada
também como elemento de integração entre sistemas.
A XML (extensible markup linguage) é uma linguagem que objetiva descrever o
significado dos elementos de dados de um documento, de modo que uma pessoa ou
processo computacional que leia tal documento possa interpretar os rótulos (tags) XML
presentes nesse documento e fazer associações semanticas a partir desses rótulos.
Em XML, as tags definem elementos de dados e o texto fornece o dado real representado
no documento.
Um documento XML pode conter definições para o elemento raiz e para os elementos
filhos, podendo também conter elementos vazios.
16
www.resumosdeti.com.br
O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados
Um documento XML sempre deve ter um elemento principal, também conhecido como
root tag.
Em um XML, os dados devem estar organizados de forma hierárquica.
Uma tag em XML começa com o símbolo < e termina com o símbolo >. Pode ser de três
tipos: tag de início, como em <section>; de fim, como, por exemplo, em </section>; ou de
elementos vazios, como, por exemplo, <line-break/>.
Em cada documento XML pode haver elementos e atributos; os atributos fornecem
informações que descrevem elementos; os elementos são identificados por tags; os
nomes de tags estão inclusos entre sinais de menor e de maior; os elementos complexos
são construídos hierarquicamente a partir de outros elementos; nomes de tags são
definidos de modo a descrever o significado dos elementos de dados.
JSON
− O formato JSON (JavaScript Object Notation) é um formato aberto usado como
alternativa ao XML para a transferência de dados estruturados entre um servidor de
Web e uma aplicação Web.
o Sua lógica de organização tem semelhanças com o XML, mas possui notação
diferente.
17
www.resumosdeti.com.br
O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados
18
www.resumosdeti.com.br
O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados
CSV
− Os arquivos CSV (do inglês "Character-separated values" ou "valores separados por um
delimitador") servem para armazenar dados tabulares (números e texto) em texto
simples.
o O "texto simples" significa que o arquivo é uma sequência de caracteres puros,
sem qualquer informação escondida que o computador tenha que processar.
− Um arquivo CSV abriga um número de "registros", separados por quebras de linha (cada
"registro" permanece numa linha do arquivo) e cada registro possui um ou mais
"campos", separados por um delimitador, os mais comuns sendo:
o A vírgula (",")
o O ponto e vírgula (";") e
o O caractere "invisível" que surge ao se pressionar a tecla "tab".
− Arquivos CSV são simples e funcionam na maior parte das aplicações que lidam com
dados estruturados.
− Fazendo uma comparação com linhas e colunas numa planilha, os "registros" de um
arquivo CSV são as linhas e os "campos" são as colunas.
o Os valores dos "campos" do primeiro "registro", ou seja, da primeira linha,
normalmente são os nomes das colunas.
− Apesar de não existir um padrão internacional para o CSV, suas variações são simples o
suficiente para que os aplicativos compatíveis possam consertar facilmente as
diferenças.
− Tipicamente, é assim que um arquivo CSV é exibido quando aberto num editor de
textos:
19
www.resumosdeti.com.br
O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados
− Esse arquivo possui três colunas separadas pelo delimitador ponto e vírgula (";"):
o Continente, País e Capital, como descrito na primeira linha.
o Ao todo, são oito registros.
▪ O primeiro é a tríade África-Angola-Luanda e o último Ásia-Japão-Tóquio.
− Se o mesmo arquivo CSV fosse aberto num processador de planilhas, ele seria exibido
assim:
20
www.resumosdeti.com.br
O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados
SQL
− O SQL (do inglês, "Structured Query Language" ou "Linguagem Estruturada de
Requisição") é uma linguagem de programação especialmente desenvolvida para
gerenciar dados em sistemas de bancos de dados relacionais.
− O "dump" de uma base de dados normalmente resulta numa lista de comandos SQL e
permite que qualquer pessoa possa reconstruir essa base a partir do seu esquema de
dados e dos valores contidos nela.
− Enquanto os formatos CSV, XML e JSON podem ser criados facilmente em editores de
texto comuns, uma base SQL requer maior refinamento e conhecimento técnico.
21
www.resumosdeti.com.br
O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.