CTS

Fato revelado x fato construído

Não é raro vermos cientistas de dados e advogados se apresentando como meros representantes dos fatos, que juram exercer seu labor de forma neutra e impessoal, garantindo que de seus esforços são revelados os fatos puros, que já estavam lá no mundo somente aguardando um porta-voz para revelá-los.

Essa visão é um tanto quanto complicada. Um cientista de dados é um construtor de fatos, e não um mero revelador. As verdades que serão aceitas e pactuadas pela sociedade serão consequência, e não causa de suas pesquisas. 

A ideia de o fato já existia a priori é deveras preocupante e limitadora das potencialidades do trabalho de um legal data scientist. Ao acreditar que seu trabalho é neutro e não perceber que suas escolhas impactam diretamente no que está sendo criado, o profissional estará simplesmente delegando para terceiros as escolhas que definirão o resultado de seu trabalho, sem perceber que está sendo guiado para um caminho que pode não ser o mais interessante para o seu objetivo.

Ao entender que fatos não são revelados, mas sim construídos, o legal data scientist passa a estar mais atento à sua prática cotidiana, e pode analisar as escolhas que são feitas na construção de seus dados sob a ótica de qual caminho deseja trilhar. Nenhum dado é neutro, encontrado puro na natureza. Todos tem uma história de construção onde são feitos enquadramentos que necessariamente deixam coisas de fora do cenário observado.

No desenvolvimento de inferências estatísticas e construções de teses, as citadas escolhas e vieses acabando se ocultando em pilhas de argumentos e afirmações, que acabam se “naturalizando” na construção dos fatos. Porém, essa naturalização só é possível exatamente pelo fato do “fato” estar sustentado em todos os dados enviesados que raramente são questionados e/ou compreendidos por um debatedor médio.

Quem controla e entende as escolhas feitas na construção de dados e suas implicações estará sempre muito mais preparado para defender ou atacar uma tese, apontando inconsistências, margens de erro e propondo diferentes abordagens que poderiam apontar para diferentes conclusões.

Em uma advocacia cada vez mais imersa em grandes volumes de dados e questões digitais, é imprescindível que o advogado 4.0 tenha essa capacidade argumentativa baseada em dados aprofundada, e ele somente poderá desenvolvê-la se internalizar essa dinâmica nada natural de construção de dados e fatos.

Fato revelado x fato construído Read More »

COVID-19 e a tsunami de dados

Muita gente inteligente repete como um mantra a seguinte frase: “dado gera informação e informação gera conhecimento”. Mas, poucos se perguntam uma coisa muito importante: qual a origem deste dado que principia a tão repetida sequência de fatores que levaria ao conhecimento?

O dado não é algo “dado”, que está pronto na natureza e basta magicamente ser colhido para que informações sejam extraídas dele. Seja através de pesquisas, análises, softwares, fórmulas matemáticas, observações… todo dado é construído, independente da metodologia adotada para sua confecção.

Isto significa então que não podemos confiar nos dados? Claro que não! Mas significa que precisamos entender o processo de construção dos dados que utilizaremos. Se “dados geram informações” e “informações geram conhecimentos”, podemos afirmar também que “conhecimentos geram dados”, e os detentores deste conhecimento sobre a criação dos dados estarão sempre um passo à frente dos que utilizam os mesmo dados sem conhecer sua história.

Não digo aqui que um profissional que for utilizar ciência de dados em seu trabalho precisa entender todos os detalhes de cada metodologia de pesquisa, software ou fórmula estatística utilizada no processo de construção de seus dados, mas é imprescindível que ele entenda de forma macro quais as escolhas feitas por sua equipe de pesquisadores, programadores e/ou softwares, e seja capaz de debater com eles mudanças de abordagem para a criação de dados mais eficientes para contar a história que deseja.

Assim, entendendo os dados como elementos construídos deliberadamente, que carregam em si escolhas e recortes feitos a priori, o profissional deixa de ser presa fácil para contra argumentações “baseadas em dados”. Inclusive, passa a ter elementos para se defender de antagonistas que tentem fazer seus dados “confessarem” algo que eles não foram criados para dizer.

Um exemplo que todo mundo está acompanhando agora é a evolução dos casos de COVID-19 pelo mundo. A todo momento vemos na TV e nas redes sociais gráficos sobre a evolução diária dos casos de contaminação ao redor do mundo e comparativos de sua letalidade em cada país. Mas, não vejo ninguém comentando sobre qual o caminho percorrido por esses dados, e fico com várias perguntas na cabeça sobre a história por trás destes dados

Como cada país reporta seus casos de contaminação? Aqui no Brasil, por exemplo, o sistema de saúde é descentralizado, e unidades de atendimento nas pontas enviam relatórios periódicos ao Ministério da Saúde, que não tem informações ao vivo do que está acontecendo. 

Quem está sendo testado? A diferença de espaço amostral muda totalmente uma análise estatística. Se um país só testa quem chegou doente no hospital e o outro está testando o máximo de pessoas possível, esses resultados podem ser comparados?

Ainda sobre o recorte amostral da população: todos os países estão testando seus mortos? Qual a chance de em um local pessoas estarem sendo enterradas sem nunca sabermos que estavam contaminadas, enquanto em outro lugar, que testa todas as pessoas, essas mortes serem contabilizadas?

E sobre mortos; como é decretado que alguém morreu por conta da COVID-19? Pacientes que já estavam internados com uma doença terminal e tiveram o vírus encontrado em seu sangue contam? E pessoas contaminadas que tiveram complicações generalizadas? E as pessoas com outras doenças, com alta possibilidade de cura em situações normais, que não conseguiram leitos em UTI pois todos estavam ocupados com enfermos da COVID-19, também são contabilizados como vítimas do SARS-CoV-2?

Como os testes são feitos? Existem diferentes metodologias e equipamentos para testar a presença do SARS-CoV-2 em uma pessoa, e novas formas estão sendo criadas enquanto a pandemia evolui. Os resultados serão sempre os mesmos para casos idênticos testados de forma diferente? 

Como estão sendo tratados os resultados leves? Resultados de exames de presença de um vírus no sangue não são binários. A resposta “está contaminado” ou “não está contaminado” é dada usando qual recorte de presença do agente virótico no organismo? Todos os países estão usando o mesmo critério?

E para todas essas perguntas ainda vale outro questionamento: os países estão mantendo internamente a mesma metodologia ao longo do tempo ou estão a alterando? Se um país passa a testar mais pessoas e a curva de infectados sobe, isso significa que mais pessoas se contaminaram ou que antes elas simplesmente não haviam sido aferidas?

Com todas essas reflexões não quero de forma nenhuma dizer que os dados sobre a COVID-19 são falsos, e que você não deveria confirmar neles. Afirmo sim que esses dados (assim como todos os dados do mundo) carregam consigo subjetividades originadas nas escolhas que necessariamente são feitas para a construção de um dado.

Então, o que fazer na prática? Sabendo que o dado não é uma dádiva, encontrada pura e neutra na natureza pronta para ser utilizada, se você quiser se aprofundar em um assunto e entender como uma tese está sendo construída e sustentada por números, não poderá simplesmente confiar nos dados apresentados por seus antagonistas, e necessariamente precisará compreender a origem e a confecção dos dados que estiverem sendo apresentados. Assim, sabendo quais histórias eles contam, você terá elementos para refutar conclusões que estejam sendo feitas a partir destes dados e, eventualmente, criar novos dados que revelem novos fatos sobre o mesmo caso.

Complexo esse assunto, né? Por isso que criamos um curso inteiro de “Mergulho em Ciência de Dados” no Programa Direito Inovador. Cadastre-se agora gratuitamente e tenha acesso hoje mesmo às primeiras aulas!

COVID-19 e a tsunami de dados Read More »

A follha em branco é de humanas

Sou de exatas! Grande vantagem.
“Olha, ele até que escreve bem”.
A folha em branco é de humanas.


Quando te olhar fundo nos olhos olhe de volta e grite:
“Sou de exatas!”

Desenhe um triângulo retângulo no canto inferior direito dela
adicione um valor aos catetos
e faça uma interrogação na hipotenusa.


Agora o jogo virou!
A ansiedade está toda com a folha
que não sabe se deve usar Pitagoras ou Baskara!


Enquanto a folha estiver destruída
volte para o canto superior esquerdo e escreva.
Escreva bastante, para que
quando a folha perceba
já seja tarde demais.

A follha em branco é de humanas Read More »

Manifesto Scientófago

Texto originalmente publicado no CTS Brasil Blog.

Brasil! Meu latino nortenho
Meu cientista inzoneiro
Vou sambar-te com meus papers

Ser e não estar? Eis a questão!

Califórnia, Cambridge, longe da Favela da Maré
A fuga interior de cérebros vai pro Lattes
E dá entrevistas na TV.

Me cita, me cita, me cita. Nem sempre se lê!
A gente somos inútil?
Quem cubriu o Brasil?

A gente não quer só comer,
A gente quer prazer sem um indicador!
Índio quer arbítrio e vai dar pra comer sim!

A-B-C, A-B-C, nenhuma criança vai ler o que você escrever.
Qual imagem criamos de nossos selfies?
Autor bom é autor morto!

No meio do caminho tinha uma patente, tinha uma patente no meio do caminho.
Paca, tatu, não publica não.
As entidades que gorjeiam aqui não gorjeiam como lá.

Yes, we podi!

Totenizar o complexo e virar a lata!
Uma entidade furou o asfalto, o cnpq, a capes e o comitê de estética.
Foi no mangue catar sentido, pegar empodimento e conversar com o Quipu.

Meu corpo docente, minhas regras!
Vamos denunciar nossa linguiça,
o produtivismo e a crosscitação!

Desce do trono, doutrina.
De que te vale a ciência sozinha,
Enquanto é carnaval?

Ai, ciência, deixa eu me apropriar de você
Mestiço, sabe contradizer
aqui no sul também tem saber!

#foraQualis

Manifesto Scientófago Read More »