546 5018 1 PB
546 5018 1 PB
546 5018 1 PB
Resumo: Os termos mineração de dados, ciência de dados, aprendizado de máquina têm invadido
não só as manchetes de jornais e as redes sociais como também têm aparecido com uma maior
frequência em periódicos científicos. Os propagados avanços da Inteligência Artificial têm aberto o
debate sobre questões éticas do uso destas tecnologias no cotidiano e também no próprio fazer
científico. Assim, a questão inicial que se traz é: como as ciências sociais e as humanidades estão se
apropriando destas novas técnicas? E, em especial, como a Ciência da Informação pode contribuir
para o entendimento epistemológico destas novas áreas do conhecimento sem cair em uma narrativa
meramente comercial ou em um discurso “revolucionário” de como a sociedade será “transformada”
com o uso de tais tecnologias? Através de revisão bibliográfica e pesquisa exploratória, este ensaio
procurou analisar como a Ciência da Informação tem utilizado técnicas de mineração de dados e se o
campo pode trazer contribuições importantes para o uso de Mineração de Dados, tanto sob o ponto
de vista epistemológico como também em seus usos práticos, especificamente na área de sistemas
de organização do conhecimento.
Palavras-Chave: Mineração de Dados; Ciência de Dados; Epistemologia.
Abstract: The terms data mining, data science, machine learning have invaded not only newspaper
headlines and social media but have also appeared more frequently in scientific journals. The
propagated advances of Artificial Intelligence have opened the debate on ethical issues of the use of
these technologies in everyday life and also in scientific practice itself. Thus, the initial question that
arises is: how are the social sciences and the humanities adopting these new techniques? And, in
particular, how can Information Science contribute to the epistemological understanding of these new
areas of knowledge without falling into a merely commercial narrative or a "revolutionary" discourse
of how society will be "transformed" by the use of such technologies? Through literature review and
exploratory research, this essay sought to analyze how the Information Science has used data mining
techniques and whether the field can make important contributions to the use of Data Mining both
from an epistemological point of view and also in its practical uses specifically in the area of
knowledge organization systems.
Keywords: Data Mining; Data Science; Epistemology.
1
XX ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO – ENANCIB 2019
21 a 25 de outubro de 2019 – Florianópolis – SC
1 INTRODUÇÃO
3
XX ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO – ENANCIB 2019
21 a 25 de outubro de 2019 – Florianópolis – SC
4
XX ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO – ENANCIB 2019
21 a 25 de outubro de 2019 – Florianópolis – SC
seja, não se busca aqui listar todas as definições existentes, mas, ao contrário, delimitar o
termo para que se possa construir um raciocínio sobre o conceito de mineração de dados.
Diferentemente dos dois textos de Furner (2016) e de Capurro e Hjørland (2007) onde
os autores detalham a formação dos termos “dado” e “informação” através da história e de
sua etimologia e, tal como em um livro de suspense, constroem uma narrativa onde somente
no final da “trama”, no clímax dos respectivos artigos, trazem algumas possibilidades para a
definição dos dois conceitos, aqui se fará o caminho inverso. Uma definição será proposta e,
em seguida, o raciocínio utilizado para a escolha da mesma será detalhado. Obviamente esta
definição não tem a pretensão de ser definitiva. Pelo contrário, o objetivo é justamente
trazer novas reflexões que possam enriquecer o entendimento do assunto e delimitar o
termo para o objetivo central do artigo. Isso posto, a definição candidata dentro do modelo
teórico aqui proposto para o termo dado é: Dado é o registro do atributo de um ente,
objeto ou fenômeno.
Registro é o ato de registrar, ou seja, é a gravação ou a impressão de caracteres ou
símbolos que tenham um significado em algum documento ou suporte físico. A temperatura
de uma lâmina de aço só se transforma em dado, quando ela é medida e registrada, a cor de
uma planta só passa a ser um dado quando ela é registrada seja através de uma fotografia ou
por uma pintura à mão. Assim, se a temperatura ou a cor forem apenas observadas, mas não
houver o registro, esses atributos não podem ser considerados um dado.
Propositalmente, o termo “registro” foi escolhido justamente para trazer a ideia de
documento, ou seja, não há dado sem documento. Interessante notar que à informação
também se preconiza a existência do registro, do documento. Daí encontramos um ponto de
grande dúvida no senso comum sobre estas duas categorias: dado e informação. Se não
houver o registro, se não houver a medição, se não houver a observação, não existe dado.
Desta forma, o termo registro está intimamente relacionado ao ato de documentar e
organizar pois para que haja o registro, deve-se criar minimamente um conjunto de regras
para que tal registro fique ordenado para que futuramente possa ser recuperado.
Já o termo atributo se refere a uma característica (uma propriedade) de um ente,
objeto ou fenômeno. O termo “ente” foi uma opção preferencial pois estaria englobando
tanto os seres vivos como os inanimados e também o que se encontra no universo da
imaginação. Assim, recairia no conjunto dos entes, uma estrela, um elefante, um micróbio,
5
XX ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO – ENANCIB 2019
21 a 25 de outubro de 2019 – Florianópolis – SC
1
Do original: “data refers to entities used as evidence of phenomena for the purposes of research or scholarship”
6
XX ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO – ENANCIB 2019
21 a 25 de outubro de 2019 – Florianópolis – SC
primeiras formas de metadados é a obra de Pinakes, criada em 245 a.C. por Kallimachos de
Cirene para catalogar a Biblioteca de Alexandria de forma sistematizada (POMERANTZ, 2015,
p.6), ou seja, o termo metadado está intimamente associado à Biblioteconomia e por
consequência à Ciência da Informação.
Nota-se que o uso do termo metadado associado ao documento bibliográfico difere
da definição inicial já que, nesse contexto, a definição seria “os dados sobre o documento” e
não a definição inicial “os dados sobre o dado”. Entretanto, se o dado (ou o conjunto de
dados) for considerado um tipo de documento, as duas definições não se contradizem. E
realmente, a partir da ideia inicial de que o dado pressupõe um registro, não seria estranho
pensar que o dado pode ser considerado um tipo de documento. Furner corrobora essa
relação entre documento e os dados:
De fato, não é verdade que os documentos sejam constituídos por dados,
nem que o documento seja uma espécie de conjunto de dados: é o
contrário, em ambos os aspectos. Um conjunto de dados é constituído por
documentos; e o conjunto de dados é uma espécie de documento (p. 303,
tradução nossa)2
2
No original “it is not in fact the case that documents are made up of data, nor that the document is a species of
dataset: rather it is the other way around, in both respects. A dataset is made up of documents; and the dataset is a
species of document”.
3
No original “structured information that describes, explains, locates, or otherwise makes it easier to retrieve, use or
manage an information resource”
4
No original “Information about some physical property of a material is actually incomplete without information
about the precision of the data and about the conditions under which these data were obtained. Moreover, various
7
XX ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO – ENANCIB 2019
21 a 25 de outubro de 2019 – Florianópolis – SC
investigations of a property have often led to different results that cannot be compared and evaluated apart from
information about their background”
8
XX ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO – ENANCIB 2019
21 a 25 de outubro de 2019 – Florianópolis – SC
9
XX ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO – ENANCIB 2019
21 a 25 de outubro de 2019 – Florianópolis – SC
tenham a possibilidade de aprender. Viana (2018) reforça este argumento quando ressalta
que o termo “semântica” visa “estabelecer uma interligação dos significados das palavras, o
que as possibilita de serem compreendidas por computadores” e complementa que a Web
3.0 pretende ser um espaço digital “desambiguado” pois as máquinas poderão “entender” o
significado do conteúdo de um site ou texto sem margem para dúvida na interpretação do
que está sendo apresentado.
Apesar do termo Web 3.0 ter sido criado há quase duas décadas, percebe-se que o
desenvolvimento da Web Semântica não atingiu seus objetivos com a mesma velocidade que
as demais tecnologias da Internet (MICHALAKIDIS, 2016). Mesmo com os inúmeros avanços
tecnológicos como a criação de padrões e boas práticas e com o uso de Linked Data, RDF e
SPARQL, o ser humano continua sendo peça essencial para a criação da camada extra de
dados (e metadados) que devem ser inseridas nas páginas web para que a máquina consiga
interpretá-las. A inclusão automatizada de artefatos semânticos nas páginas web ainda não é
possível e um dos motivos é a dificuldade em representar o conhecimento.
A Representação do Conhecimento (Knowledge Representation) é a disciplina que
tem como objetivo a captura e modelagem de representações sobre o mundo que possam
ser interpretadas por algoritmos para que estes possam resolver problemas complexos. E
esta área tem uma extensa fronteira interdisciplinar com a CI, Linguística, Filosofia, Psicologia
e Inteligência Artificial (BRÄSCHER, 2014).
A pesquisadora Marisa Bräscher (2014) ressalta ainda que o conhecimento
acumulado na construção de sistemas de indexação e de organização do conhecimento como
os tesauros, ontologias e taxonomias podem contribuir no campo teórico e prático para a
superação das dificuldades enfrentadas na área de representação do conhecimento e,
consequentemente para áreas como a Inteligência Artificial e a mineração de dados. Na
seção seguinte, a interdisciplinaridade das duas ciências será ainda mais ressaltada.
3 MINERAÇÃO DE DADOS
10
XX ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO – ENANCIB 2019
21 a 25 de outubro de 2019 – Florianópolis – SC
11
XX ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO – ENANCIB 2019
21 a 25 de outubro de 2019 – Florianópolis – SC
Na prática, a chamada Ciência de Dados vem sendo disputada também pelos cursos
de CI, Ciências Estatísticas e Administração. No exterior, a maior parte dos cursos que tem no
título a expressão “Data Science” estão sendo organizados pelos departamentos de Ciência
da Computação5. Já no Brasil, o primeiro curso de graduação de Ciência de Dados estará sob
a égide do Departamento de Matemática Aplicada e Estatística da USP/São Carlos6. Assim,
seria de bom tom que o termo Ciência de Dados ainda fosse utilizado com cautela já que
existe muito ruído entre o que está no âmbito da ciência e o que é apenas marketing ou
hype.
Outro termo que também merece desambiguação é o “Aprendizado por máquina”
(Machine Learning) que algumas vezes é confundido com o processo de MD (LESKOVEC;
RAJARAMAN; ULLMAN, 2014, p.20). De fato, a mineração de dados frequentemente utiliza
algoritmos de aprendizado por máquina para resolver determinadas etapas do processo e
nem todo algoritmo de aprendizado por máquina é utilizado no processo de mineração de
dados. Resumidamente, o aprendizado por máquina é uma das tecnologias utilizadas na
mineração de dados (HAN; KAMBER; PEI, 2011). A figura abaixo mostra melhor essa relação:
FIgura 1: Tecnologias utilizadas pela Mineração de Dados
5
A lista dos cursos pode ser vista em http://datascience.community/colleges.
6
A ementa do curso pode ser vista em https://www.icmc.usp.br/graduacao/estatistica-bacharelado
12
XX ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO – ENANCIB 2019
21 a 25 de outubro de 2019 – Florianópolis – SC
revelar associações entre variáveis que formam a base para o desenvolvimento de teorias e
que podem ser posteriormente submetidas a outros tipos de testes empíricos mais rigorosos
(SHMUELI, 2010).
Já a técnicas ditas não supervisionadas procuram categorizar os objetos sem que se
saiba de antemão quantas classes existem. Retomando o exemplo dos políticos, imagine que
temos apenas as características dos políticos (dados de entrada) e nenhuma categorização
aparente (dado de saída), ou seja, não temos um modelo ou categorização prévia para
aplicar ao nosso conjunto de dados. Como podemos aprender mais sobre esse conjunto de
dados? No nosso exemplo, qual seria a melhor forma de dividir os políticos em categorias?
Será que existe apenas esquerda, direita e centro, ou há alguma outra categorização que
permita distinguir os políticos, mas que não esteja aparente? O nome desse processo de
classificação é chamado de segmentação (clustering) e o modelo teórico que fundamenta
esse processamento é baseado no princípio de maximizar as similaridades intra-classes e
minimizar a similaridade inter-classes (HAN; KAMBER, 2001).
Ainda dentro dos algoritmos não supervisionados, destaca-se a detecção de
anomalias (outliers) ou, em jargão popular, os pontos fora da curva. A detecção de anomalias
e os processos de segmentação são tarefas altamente relacionadas. O agrupamento encontra
os padrões em um conjunto de dados e os organiza em função da similaridade de suas
características, enquanto a detecção de outliers tenta capturar os casos excepcionais que se
desviam substancialmente dos padrões da maioria (HAN; KAMBER; PEI, 2011).
É importante também ressaltar um outro recurso que pode ser utilizado tanto nas
estratégias supervisionadas quanto nas não-supervisionadas: a visualização de dados. A
construção de visualizações planas ou espaciais dos dados procura aproveitar as capacidades
cognitivas dos seres humanos para favorecer percepções visuais sobre os dados que muitas
vezes os algoritmos de mineração de dados não conseguem fornecer.
A tecnologia digital implementou novas intermediações da informação por meio de
formas de ver até o momento incomuns ao sujeito informacional ordinário. Tais práticas têm
ressignificado a pesquisa em áreas como as ciências humanas, sociais e sociais aplicadas. A
forma como a informação é produzida e divulgada, compartilhada, consumida e sobretudo
apreendida pelas subjetividades de quem lhe acessa ou que por ela é (re)classificado, precisa
14
XX ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO – ENANCIB 2019
21 a 25 de outubro de 2019 – Florianópolis – SC
ser indagado à luz de seu regime sociotécnico de informação. Este é, sobretudo, um regime
marcado nos dias atuais por uma “visibilidade informacional” (PIMENTA, 2017).
Entretanto, o processo de montar visualizações em grandes bases não é trivial, pois é
necessário encontrar uma visão ou projeção que reduza a complexidade (o número de
atributos de cada objeto) enquanto captura informações importantes. O objetivo é reduzir a
complexidade perdendo a menor quantidade de informação possível (FAYYAD, 2001).
Também é possível categorizar os algoritmos de mineração de dados em função dos
tipos de suportes onde o dado está representado. Além de minerações em tabelas
relacionais, utiliza-se a mineração de dados em textos, na web, em imagens e vídeos e em
grafos.
A Mineração de Textos (Text Mining) procura categorizar ou encontrar padrões em
grandes coleções de documentos como notícias de jornal, páginas na Web, artigos de
revistas científicas e obras de um determinado autor ou período (PINTO, 2007). Também é
muito utilizado na mineração de opiniões ou análise de sentimentos (SOUZA; CAFÉ, 2018),
quando se procura encontrar padrões em conversações realizadas nas redes sociais ou
formulários online sobre algum tema específico.
A mineração na Web é uma categoria especial de mineração de texto pois necessita
de um passo extra (denominado Web Scraping ou Crawling) para transformar os dados não
estruturados de uma página web em um dado estruturado que possa ser minerado. Esse
passo extra é quase sempre manual (realizado por humanos) se a página web não contém
recursos semânticos como RDF7 ou outros tipos de metadados. Ressalta-se que o simples
processo de captura de dados na web não pode ser chamado de MD, ou seja, se a captura
não vem acompanhada de um processo de mineração em si, ela é apenas uma captura.
Ainda na área de mineração de texto, uma técnica que vem sendo muito estudada na
CI é a Modelagem de Tópicos (Topic Modeling). Muitas vezes há a necessidade de categorizar
coleções de documentos por assunto e para tal, existem método de classificação não-
supervisionada, semelhante ao agrupamento em dados numéricos, que procura descobrir
em qual categoria (tópico) cada um dos elementos pertence (NAVARRO; CONEGLIAN;
SEGUNDO, 2018).
7
RDF ou Resource Description Framework é uma especificação utilizada para modelagem e descrição formal de
metadados para que possa ser lida por um sistema computacional.
15
XX ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO – ENANCIB 2019
21 a 25 de outubro de 2019 – Florianópolis – SC
4 PESQUISA BIBLIOGRÁFICA
16
XX ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO – ENANCIB 2019
21 a 25 de outubro de 2019 – Florianópolis – SC
8
A relação completa dos artigos pode ser acessada em: https://doi.org/10.5281/zenodo.3470020
17
XX ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO – ENANCIB 2019
21 a 25 de outubro de 2019 – Florianópolis – SC
Por fim, na base do BENANCIB foram encontrados apenas 15 artigos sendo que em
2018 foram publicados 7 artigos, ou seja, quase metade do total de artigos analisados dos 8
anos anteriores. Da mesma forma que nas outras bases a preponderância se deu nas técnicas
de Mineração de Texto: 7 dos 15 artigos utilizaram tais técnicas em suas pesquisas.
5 CONSIDERAÇÕES FINAIS
18
XX ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO – ENANCIB 2019
21 a 25 de outubro de 2019 – Florianópolis – SC
REFERÊNCIAS
BERNERS-LEE, T.; HENDLER, J.; LASSILA, O. The Semantic Web. Scientific American, v. 284, n. 5,
p. 34–43, 2001.
BEZERRA, Arthur Coelho. Vigilância e filtragem de conteúdo nas redes digitais: desafios para a
competência crítica em informação. In: Encontro Nacional de Pesquisa em Ciência da
Informação, 16, 2015, João Pessoa. Anais... João Pessoa: UFPB, 2015.
BORGMAN, C. L. Big data, little data, no data: scholarship in the networked world. MIT Press.
Cambridge. 2016.
BRÄSCHER, M. Semantic Relations in Knowledge Organization Systems. Knowledge
Organization v. 41, n. 412, 2014.
BUCKLAND, M. K. Information as Thing. Journal of the American Society of Information
Science v.42, n.5, p.351-360. 1991.
CAMPOS, M.L.A. Teoria do conceito. In: ________. Linguagem documentária: teorias que
fundamentam sua elaboração. Niterói, Editora da Universidade Federal Fluminense, 2001.
CALDAS, C. O. L.; CALDAS, P. N. L. Estado, democracia e tecnologia: conflitos políticos no
contexto do big-data, das fake news e das shit storms. Perspectivas em Ciência da Informação,
v. 24, n. 2, p. 196–220, 2019.
19
XX ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO – ENANCIB 2019
21 a 25 de outubro de 2019 – Florianópolis – SC
20
XX ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO – ENANCIB 2019
21 a 25 de outubro de 2019 – Florianópolis – SC
VIANA, B. Journalism in the context of the Semantic Web. Media & Jornalismo, v. 18, n. 32, p.
187–199, 2018.
VOSTAL, F. Accelerating Academia: The Changing Structure of Academic Time. Springer, 2016.
22