Ciência de Dados no Brasil: Iuri Queiroz

Conforme prometido no último artigo essa semana temos a primeira entrevista com um Cientista de Dados falando sobre o seu trabalho e sobre o mercado de trabalho no Brasil: Iuri Queiroz.

Tive a oportunidade de trabalhar com o Iuri ao longo do ano de 2014 na Neocom e com certeza aproveitei muito para aprender com ele. Aliás a Neocom faz um trabalho muito legal de análise de dados em Brasília e possui uma excelente equipe. Acredito que ainda teremos a oportunidade de conversar com mais profissionais de lá.

Iuri é formado em Ciências Econômicas e mestre em Desenvolvimento Regional. Trabalha como cientista de dados desde que se formou e hoje é especialista em análise de mercado. Realiza estudos para grandes multinacionais de vários ramos da indústria como Walmart, Toyota e Hyundai, utilizando métodos e modelos de estatística, econometria espacial e machine learning. Também atua como assistente de pesquisa para o Instituto de Pesquisa Econômica Aplicada (Ipea). Possui um blog próprio Órbita Econômica onde fala um pouco sobre seu trabalho e você também pode encontrá-lo no LinkedIn através desse link.

Então vamos à entrevista:

  • Ivan: Olá Iuri! Obrigado por participar da nossa entrevista. Conte-nos um pouco sobre você e sua formação profissional.
  • Iuri: Eu que agradeço. Eu sou de Brasília mesmo, mas venho mantendo uma boa marca no que se refere a morar pelo Brasil. Até agora já cobri a boa parte do nordeste, seja no rastro das mudanças dos meus pais, para Fortaleza e Maceió (onde concluí Ciências Econômicas na federal de lá, UFAL) seja por minhas próprias pernas, para Aracaju onde concluí o mestrado em Desenvolvimento Regional em 2011. Ainda em 2011, retornei a Brasília a passeio e acabei participando de uma seleção para Analista de Estudos de Mercado na empresa Neocom, onde estou desde então. Mais recente, em 2013 apliquei currículo e projeto à uma pesquisa no IPEA, referente a dinâmica de empregos industriais no brasil, e desde então desempenho o papel de assistente em pesquisa àquela instituição.
  • Ivan: Quando você ficou sabendo do termo “Ciência de Dados”? O que achou?
  • Iuri: Da primeira vez que fiquei sabendo do termo Cientista de Dados ou “Ciência de Dados” partiu do gerente em TI da Neocom, ao elencar atividades que percebia serem realizadas dentro da área de análise em estudos adhoc. A princípio achei somente um nome diferente para o que fazia, rs, não me parecia que as atividades exercidas lá se diferenciavam muito do que tinha como ideal de economista, ainda mais um com gosto por métodos quantitativos. A impressão de que estava a fazer algo diferente veio somente muito depois, com o trabalho realizado com duas pessoas lá dentro.
  • Ivan: Pra você, o que diferencia um cientista de dados de um analista ou estatístico?
  • Iuri: Demorou um pouco para entender o que diferenciava o cientista de dados de um analista, seja um economista ou estatístico, mas acho que os sinais estavam lá, rs. Um dos pontos de estranheza foi na entrada para a pesquisa realizada no ipea, onde tive uma convivência com mais profissionais da minha área, Economia, e se por um lado o core da coleta, tratamento e estrutura de dados estava lá, era muito menos intensivo computacionalmente, digamos assim. Sendo assim os dados de uma pesquisa usualmente estavam desnormalizados e de difícil crescimento na escala deste.
  • Ivan: A ciência de dados é um campo multidisciplinar. Como você busca se manter atualizado em conhecimentos além da sua formação acadêmica original?
  • Iuri: Olha, em determinado trabalho já cheguei passar um dia ou mais imerso em artigos de epidemiologia, rs. Do período do mestrado um dos professores sempre fazia a observação de evitar livros, o tempo para um conhecimento chegar àquele livro é grande e você já estará desatualizado. Então em geral vou acumulando artigos que digam respeito ao tipo de problema que enfrentei ou pretendo enfrentar em cada trabalho, o mais comum é da técnica já existir, porém aplicada à outra área de conhecimento completamente distinta. Nesse ponto é importante se despir de preconceitos, se você moldar sua literatura de uma forma idiossincrática de que modo poderá ser surpreendido por algo novo?
  • Ivan: Qual a formação da equipe com o qual você trabalha? Também é multidisciplinar?
  • Iuri: Sim, neste momento trabalho com contadores, economistas, geógrafos, analistas de banco de dados e, mais recente, uma aproximação importante de um analista em arquitetura de software sênior, que veio dar visibilidade algumas modelagens de minha autoria e permitiu melhorar bastante meu traquejo no que se refere às melhores práticas de desenvolvimento. Além disso, como meu trabalho tem um foco em técnicas espaciais e gestão empresarial, cada um daqueles citados anteriormente já contribuíram de alguma forma com o conhecimento que tenho acumulado ao longo dos anos.
  • Ivan: A ciência de dados também envolve o uso de uma grande variedade de ferramentas. Quais você mais usa e quais prefere?
  • Iuri: Antes mesmo da universidade tive a oportunidade de aprender um pouco de desenvolvimento, à época ainda com pascal/delphi e SQL Server. Pouco deste conhecimento foi explorado durante a universidade ou mesmo o mestrado, como as necessidades eram menores, nunca houve chance de aplicar qualquer coisa àquele ferramental adquirido, utilizando sempre de ferramentais mais analíticos como o SPSS, o Eviews e num momento em particular ao Gretl, que atendia às necessidades por análises em painel, não disponível nas outras duas ferramentas. Fui retomar a programação já na Neocom, utilizando bastante de SQL Server para poder estruturar os dados conforme minhas necessidades e as dos estudos, tendo aprofundado principalmente no quesito de dados espaciais, tendo sido apresentado ao Python e os pacotes: Numpy e scipy por um amigo lá mesmo. Gostei bastante da linguagem e me senti a vontade logo de cara, ao contrário da minha experiência com R, partindo para pesquisar diversas bibliotecas de análise. Além disso, o Python conversa de forma muito natural com o ARCGIS, principal ferramental dos geógrafos da empresa, e com o SQL Server. Ainda, o desenvolvimento e suporte à biblioteca PYSAL, Python Spatial Analysis Library, específica de análise exploratória e econométrica espacial, atendem às minhas expectativas.Nesse momento em alguns cursos tenho sido reapresentado algumas ferramentas, como o octave/matlab e o R, se o primeiro me parece bem simples de usar, uma linguagem limpa e clara, falta-lhe conectividade com o legado das informações já utilizadas nos estudos, enquanto ao segundo me estranha a linguagem, e se por um lado a curva de aprendizado parece incoerente com o momento atual do trabalho, também lhe parece faltar conectividade com o legado das informações já disponíveis.
  • Ivan: Quais os métodos e modelos que você usa com mais frequência? E quais você usa com pouca frequência mas acha interessantes?
  • Iuri: Para mim há um viés muito forte em decorrência dos dois trabalhos exercidos, para economia espacial a distância é fator preponderante da maioria das análises, dado um mesmo indivíduo/loja, então a aplicação de modelos resultantes da teoria do lugar central (Losch, 1954 e Christaller, 1933) toma grande espaço, orientando modelos gravitacionais não-paramétricos e/ou também paramétricos, utilizando o ferramental de regressões com variáveis dependentes com defasagem espacial ou termo erro com defasagem espacial. Apliquei somente uma vez a título de teste (apesar de ainda estar rodando, rs) os conceitos de estatística bayesiana, modelos frequentistas me dão pouca ou nenhuma liberdade para inserção e interação com a opinião de especialistas, o que considero ser um passo importante para melhoria de alguns resultados de modelos muito sensíveis à amostra até então disponível.
  • Ivan: Como você vê a situação atual do mercado de trabalho para cientistas de dados no Brasil? E no futuro?
  • Iuri: É importante lembrar que as análises tem relação direta com a tomada de decisão das empresas, é natural que agora, após uma época de euforia dos clientes acreditando numa realidade de crescimento que os isentava de cuidado em suas decisões, venham a rever parte de suas decisões e explorar de forma mais fortuita o mercado brasileiro. Isso deve acontecer tanto no campo operacional quanto nas áreas de expansão e inteligência de mercado, exigindo uma quantidade e qualidade das análises até então não exploradas. No futuro a análise principalmente comportamental, voltada à otimização do lado operacional, deve tomar conta das empresas.
  • Ivan: Interessante. E de que outras formas você espera que a ciência de dados vá afetar as empresas e as pessoas no futuro próximo?
  • Iuri: A ciência de dados veio a dar visibilidade à muitos preceitos da administração e economia que antes somente grandes gênios nessas áreas puderam conceber em artigos teóricos. É possível que num futuro próximo a possibilidade de emergir com soluções “inovadoras” (mas aquelas inovadoras de 19**) para uma empresa de médio a grande porte, com uma medida precisa dos impactos de cada ação tomada, otimizando os resultados por parte da empresa e até mesmo da satisfação do consumidor, em ter soluções que se adequem cada vez mais a ele.
  • Ivan: Alguma dica para quem tem interesse em começar a trabalhar na área?
  • Iuri: Bom, é uma profissão de quem está disposto a assimilar toda a multidisciplinariedade que puder, não é comum ver esse economista/estatístico Frankenstein, com uma necessidade irritante de pesquisar em artigos de epidemiologia soluções para uma revenda de carros, ou supermercados… e assim por diante. Ainda, acredito ser importante ter uma base boa em estatística, por mais que não se resuma a isso, ela está lá e se tem um buraco onde você não vai querer se meter é numa análise frágil. Por fim, sempre tem alguém que já respondeu algo como o que você quer, é extremamente importante ir atrás de uma bibliografia que te dê algum suporte na interpretação inicial daquele problema. Já vi analistas experientes indo atrás de problemáticas como retorno marginal decrescente do capital, conceito ensinado no início do curso de economia, sem consultar uma literatura a respeito.

Essa foi nossa primeira entrevista. Na próxima vamos conversar com outro cientista com um background bastante diferente do Iuri. Fique ligado!

Se quiser fazer alguma pergunta, deixe seu comentário abaixo!

Pin It

4 thoughts on “Ciência de Dados no Brasil: Iuri Queiroz

  1. Boa tarde Ivan! Primeiro parabéns pela iniciativa! A minha questão é: Atualmente eu trabalho com BI Microsoft em SP, porém gostaria muito de trabalhar com algo relacionado a Big Data. Eu estou fazendo um MBA em Big Data (enfase em data science) na FIAP. Só que ainda sinto que falta muiiiitoooo conhecimento para que eu consiga de fato concorrer a alguma vaga disponível no mercado (principalmente se tratando de data scientist). E como existem N vertentes para se estudar, eu meio que acabo por ficar estudando somente o que me passam no MBA. O que você indicaria para alguém de BI como eu? Obrigado!!

    • Boa tarde Vinicius!

      Muito obrigado pela sua participação. Sua pergunta é bastante interessante e acho que existem mais pessoas com dúvidas muito semelhantes a você pelo Brasil.

      Como de costume, os “requisitos” das vagas beiram o absurdo, portanto não se desespere ao vê-las. :)

      Não conheço a grade curricular do seu curso, então fica difícil dar uma resposta mais específica. Porém acho que 2 coisas são fundamentais para quem está entrando (e deseja se consolidar) no mercado.

      A primeira dica que posso te dar é escolher uma área de conhecimento onde queira atuar. Por mais que as ferramentas e métodos de Data Science e Big Data sejam genéricas a atuação do profissional, na minha opinião, não é. Em geral o conhecimento específico de uma área auxilia (1) na hora do profissional traduzir a necessidade do negócio em um problema bem definido e que possa ser resolvido e (2) na comunicação com a equipe como um todo. O Iuri falou um pouco sobre isso na entrevista também.

      Muitas vezes os problemas na análise de dados aparecem de uma forma bastante informal, onde se tem uma ideia de onde quer chegar mas a responsabilidade em tornar aquilo um projeto estruturado e bem definido, em geral, é do cientista e sua equipe.

      Isso não significa que um cientista não possa ser útil fora da sua zona natural de trabalho, mas essa migração pode levar algum tempo.

      A segunda é o foco na matemática. Em geral os cursos no mercado “aliviam” um pouco na matemática para tornar o curso mais prático e atrair mais interessados, mas na minha opinião uma boa base matemática é fundamental. (Isso inclui matemática estatística.)

      Para ter uma ideia melhor do que estou tentando dizer, dê uma olhada nesse material gratuito de “Big Data” de Stanford e Data Science de pesquisadores da Microsoft Research:

      Leskovec, Rajaraman, Ullman – Mining Massive Datasets:
      http://infolab.stanford.edu/~ullman/mmds/bookL.pdf

      Hopcroft e Kannan – Fundamentals of Data Science:
      http://research.microsoft.com/en-US/people/kannan/book-no-solutions-aug-21-2014.pdf

      Espero ter ajudado.

      Abraços!

  2. Oi Ivan! Excelente matéria! Muito boa pra quem se interessou pela área e gostaria de conhecer mais, como eu.

    Sou bacharel e mestrando em Matemática pela UFF e tenho dificuldades em encontrar bons cursos que me capacitem a trabalhar com Data Science, como um MBA ou outro tipo de pós-graduação. Você conhece/recomenda algum?

    Por fim, uma duvida que muitos devem ter: Supondo que eu tenha obtido uma formação sólida na área, por onde devo começar? A que tipo de vagas posso me candidatar para iniciar uma carreira?

    Um abraço!

    • Olá Helton!

      Muito obrigado pelo seu comentário!

      Bom, gostaria apenas de deixar claro que essa é a minha opinião, e talvez outros profissionais da área possam discordar.

      Não recomendaria hoje uma pós ou MBA por alguns motivos.

      Primeiro, por ainda ser uma área bastante recente, talvez não seja muito interessante fazer uma pós. Ainda não temos um bom entendimento do que o campo de Data Science vai se tornar quando amadurecer, e nem como mensurar de forma objetiva a qualidade de uma especialização desse tipo (MBA, pós) no assunto. Talvez daqui a alguns anos, com a profissão mais amadurecida, seja mais interessante.

      Em segundo lugar, com uma boa formação matemática você já tem meio caminho andado. Simplificando um pouco, podemos dizer que Machine Learning é essencialmente otimização¹. Eu diria que a maior parte da matemática que usamos é cálculo, álgebra linear e estatística. Imagino que essa parte não será nenhum problema para você.

      Por fim, em termos de retorno, uma pós só vai te dar mais bagagem teórica, o que o mercado pode não apreciar tanto quanto experiência e habilidades práticas, dada a formação que você já possui.

      O que eu sugiro seria focar em (1) programação, (2) bancos de dados e (3) ferramentas analíticas. Se você já tem alguma experiência em programação, melhor ainda! Algumas das ferramentas que estão em alta na área incluem R, Python, MongoDB, Hadoop, Spark, ou até mesmo SAS e MATLAB.

      Em termos de material de estudo, eu aconselho os cursos da Stanford de mineração de dados em escala e aprendizado estatístico, além da especialização em mineração de dados da UCI no Coursera. A especialização de Data Science da Johns Hopkins University também pode ser interessante, mas talvez você queira pular alguns cursos, como o de inferência estatística.

      Em termos de vagas posso dizer que as empresas estão precisando e buscando profissionais. Dado o que disse acima sinceramente não vejo nenhum problema pra você conseguir se inserir na área.

      Espero ter ajudado e respondido suas dúvidas.

      Um abraço e sucesso!

      ¹ Não diria que é “apenas otimização,” mas certamente diria que é a base. Mais sobre o assunto aqui.

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>