Material da palestra: Mineração de Dados com SQL Server 2014 Analysis Services e além

Conforme prometido, seguem os slides da palestra que realizei ontem no Codificando Night Week disponíveis no link: http://bit.ly/1A2RyOR. :)

Regressão Linear e Árvore de Decisão

Confira também as sessões do Diego Nogare, Luan Moreno, e Fabiano Amorim pois foram muito legais!

A gravação das palestras também está disponível, no Youtube:

Vale lembrar que o evento está só começando. Ontem foi o primeiro dia, dedicado a SQL Server, e ainda teremos vários dias de palestras dedicados a diversos assuntos. Se você tiver interesse ainda dá tempo de aproveitar!

Veja a agenda de palestras aqui.

Pin It

Ciência de Dados no Brasil: Iuri Queiroz

Conforme prometido no último artigo essa semana temos a primeira entrevista com um Cientista de Dados falando sobre o seu trabalho e sobre o mercado de trabalho no Brasil: Iuri Queiroz.

Tive a oportunidade de trabalhar com o Iuri ao longo do ano de 2014 na Neocom e com certeza aproveitei muito para aprender com ele. Aliás a Neocom faz um trabalho muito legal de análise de dados em Brasília e possui uma excelente equipe. Acredito que ainda teremos a oportunidade de conversar com mais profissionais de lá.

Iuri é formado em Ciências Econômicas e mestre em Desenvolvimento Regional. Trabalha como cientista de dados desde que se formou e hoje é especialista em análise de mercado. Realiza estudos para grandes multinacionais de vários ramos da indústria como Walmart, Toyota e Hyundai, utilizando métodos e modelos de estatística, econometria espacial e machine learning. Também atua como assistente de pesquisa para o Instituto de Pesquisa Econômica Aplicada (Ipea). Possui um blog próprio Órbita Econômica onde fala um pouco sobre seu trabalho e você também pode encontrá-lo no LinkedIn através desse link.

Então vamos à entrevista:

  • Ivan: Olá Iuri! Obrigado por participar da nossa entrevista. Conte-nos um pouco sobre você e sua formação profissional.
  • Iuri: Eu que agradeço. Eu sou de Brasília mesmo, mas venho mantendo uma boa marca no que se refere a morar pelo Brasil. Até agora já cobri a boa parte do nordeste, seja no rastro das mudanças dos meus pais, para Fortaleza e Maceió (onde concluí Ciências Econômicas na federal de lá, UFAL) seja por minhas próprias pernas, para Aracaju onde concluí o mestrado em Desenvolvimento Regional em 2011. Ainda em 2011, retornei a Brasília a passeio e acabei participando de uma seleção para Analista de Estudos de Mercado na empresa Neocom, onde estou desde então. Mais recente, em 2013 apliquei currículo e projeto à uma pesquisa no IPEA, referente a dinâmica de empregos industriais no brasil, e desde então desempenho o papel de assistente em pesquisa àquela instituição.
  • Ivan: Quando você ficou sabendo do termo “Ciência de Dados”? O que achou?
  • Iuri: Da primeira vez que fiquei sabendo do termo Cientista de Dados ou “Ciência de Dados” partiu do gerente em TI da Neocom, ao elencar atividades que percebia serem realizadas dentro da área de análise em estudos adhoc. A princípio achei somente um nome diferente para o que fazia, rs, não me parecia que as atividades exercidas lá se diferenciavam muito do que tinha como ideal de economista, ainda mais um com gosto por métodos quantitativos. A impressão de que estava a fazer algo diferente veio somente muito depois, com o trabalho realizado com duas pessoas lá dentro.
  • Ivan: Pra você, o que diferencia um cientista de dados de um analista ou estatístico?
  • Iuri: Demorou um pouco para entender o que diferenciava o cientista de dados de um analista, seja um economista ou estatístico, mas acho que os sinais estavam lá, rs. Um dos pontos de estranheza foi na entrada para a pesquisa realizada no ipea, onde tive uma convivência com mais profissionais da minha área, Economia, e se por um lado o core da coleta, tratamento e estrutura de dados estava lá, era muito menos intensivo computacionalmente, digamos assim. Sendo assim os dados de uma pesquisa usualmente estavam desnormalizados e de difícil crescimento na escala deste.
  • Ivan: A ciência de dados é um campo multidisciplinar. Como você busca se manter atualizado em conhecimentos além da sua formação acadêmica original?
  • Iuri: Olha, em determinado trabalho já cheguei passar um dia ou mais imerso em artigos de epidemiologia, rs. Do período do mestrado um dos professores sempre fazia a observação de evitar livros, o tempo para um conhecimento chegar àquele livro é grande e você já estará desatualizado. Então em geral vou acumulando artigos que digam respeito ao tipo de problema que enfrentei ou pretendo enfrentar em cada trabalho, o mais comum é da técnica já existir, porém aplicada à outra área de conhecimento completamente distinta. Nesse ponto é importante se despir de preconceitos, se você moldar sua literatura de uma forma idiossincrática de que modo poderá ser surpreendido por algo novo?
  • Ivan: Qual a formação da equipe com o qual você trabalha? Também é multidisciplinar?
  • Iuri: Sim, neste momento trabalho com contadores, economistas, geógrafos, analistas de banco de dados e, mais recente, uma aproximação importante de um analista em arquitetura de software sênior, que veio dar visibilidade algumas modelagens de minha autoria e permitiu melhorar bastante meu traquejo no que se refere às melhores práticas de desenvolvimento. Além disso, como meu trabalho tem um foco em técnicas espaciais e gestão empresarial, cada um daqueles citados anteriormente já contribuíram de alguma forma com o conhecimento que tenho acumulado ao longo dos anos.
  • Ivan: A ciência de dados também envolve o uso de uma grande variedade de ferramentas. Quais você mais usa e quais prefere?
  • Iuri: Antes mesmo da universidade tive a oportunidade de aprender um pouco de desenvolvimento, à época ainda com pascal/delphi e SQL Server. Pouco deste conhecimento foi explorado durante a universidade ou mesmo o mestrado, como as necessidades eram menores, nunca houve chance de aplicar qualquer coisa àquele ferramental adquirido, utilizando sempre de ferramentais mais analíticos como o SPSS, o Eviews e num momento em particular ao Gretl, que atendia às necessidades por análises em painel, não disponível nas outras duas ferramentas. Fui retomar a programação já na Neocom, utilizando bastante de SQL Server para poder estruturar os dados conforme minhas necessidades e as dos estudos, tendo aprofundado principalmente no quesito de dados espaciais, tendo sido apresentado ao Python e os pacotes: Numpy e scipy por um amigo lá mesmo. Gostei bastante da linguagem e me senti a vontade logo de cara, ao contrário da minha experiência com R, partindo para pesquisar diversas bibliotecas de análise. Além disso, o Python conversa de forma muito natural com o ARCGIS, principal ferramental dos geógrafos da empresa, e com o SQL Server. Ainda, o desenvolvimento e suporte à biblioteca PYSAL, Python Spatial Analysis Library, específica de análise exploratória e econométrica espacial, atendem às minhas expectativas.Nesse momento em alguns cursos tenho sido reapresentado algumas ferramentas, como o octave/matlab e o R, se o primeiro me parece bem simples de usar, uma linguagem limpa e clara, falta-lhe conectividade com o legado das informações já utilizadas nos estudos, enquanto ao segundo me estranha a linguagem, e se por um lado a curva de aprendizado parece incoerente com o momento atual do trabalho, também lhe parece faltar conectividade com o legado das informações já disponíveis.
  • Ivan: Quais os métodos e modelos que você usa com mais frequência? E quais você usa com pouca frequência mas acha interessantes?
  • Iuri: Para mim há um viés muito forte em decorrência dos dois trabalhos exercidos, para economia espacial a distância é fator preponderante da maioria das análises, dado um mesmo indivíduo/loja, então a aplicação de modelos resultantes da teoria do lugar central (Losch, 1954 e Christaller, 1933) toma grande espaço, orientando modelos gravitacionais não-paramétricos e/ou também paramétricos, utilizando o ferramental de regressões com variáveis dependentes com defasagem espacial ou termo erro com defasagem espacial. Apliquei somente uma vez a título de teste (apesar de ainda estar rodando, rs) os conceitos de estatística bayesiana, modelos frequentistas me dão pouca ou nenhuma liberdade para inserção e interação com a opinião de especialistas, o que considero ser um passo importante para melhoria de alguns resultados de modelos muito sensíveis à amostra até então disponível.
  • Ivan: Como você vê a situação atual do mercado de trabalho para cientistas de dados no Brasil? E no futuro?
  • Iuri: É importante lembrar que as análises tem relação direta com a tomada de decisão das empresas, é natural que agora, após uma época de euforia dos clientes acreditando numa realidade de crescimento que os isentava de cuidado em suas decisões, venham a rever parte de suas decisões e explorar de forma mais fortuita o mercado brasileiro. Isso deve acontecer tanto no campo operacional quanto nas áreas de expansão e inteligência de mercado, exigindo uma quantidade e qualidade das análises até então não exploradas. No futuro a análise principalmente comportamental, voltada à otimização do lado operacional, deve tomar conta das empresas.
  • Ivan: Interessante. E de que outras formas você espera que a ciência de dados vá afetar as empresas e as pessoas no futuro próximo?
  • Iuri: A ciência de dados veio a dar visibilidade à muitos preceitos da administração e economia que antes somente grandes gênios nessas áreas puderam conceber em artigos teóricos. É possível que num futuro próximo a possibilidade de emergir com soluções “inovadoras” (mas aquelas inovadoras de 19**) para uma empresa de médio a grande porte, com uma medida precisa dos impactos de cada ação tomada, otimizando os resultados por parte da empresa e até mesmo da satisfação do consumidor, em ter soluções que se adequem cada vez mais a ele.
  • Ivan: Alguma dica para quem tem interesse em começar a trabalhar na área?
  • Iuri: Bom, é uma profissão de quem está disposto a assimilar toda a multidisciplinariedade que puder, não é comum ver esse economista/estatístico Frankenstein, com uma necessidade irritante de pesquisar em artigos de epidemiologia soluções para uma revenda de carros, ou supermercados… e assim por diante. Ainda, acredito ser importante ter uma base boa em estatística, por mais que não se resuma a isso, ela está lá e se tem um buraco onde você não vai querer se meter é numa análise frágil. Por fim, sempre tem alguém que já respondeu algo como o que você quer, é extremamente importante ir atrás de uma bibliografia que te dê algum suporte na interpretação inicial daquele problema. Já vi analistas experientes indo atrás de problemáticas como retorno marginal decrescente do capital, conceito ensinado no início do curso de economia, sem consultar uma literatura a respeito.

Essa foi nossa primeira entrevista. Na próxima vamos conversar com outro cientista com um background bastante diferente do Iuri. Fique ligado!

Se quiser fazer alguma pergunta, deixe seu comentário abaixo!

Pin It

O que é a Ciência de Dados?

Essa é a primeira dúvida de todo profissional de áreas relacionadas quando comento sobre o assunto. Confesso que eu mesmo me pergunto isso de vez em quando. É difícil definir exatamente o que é Ciência de Dados, por ser uma área bastante abrangente e que aproveita muito de diversas disciplinas, muitas vezes já bastante ligadas entre si como Machine Learning das Ciências da Computação, otimização matemática e inferência estatística. Para citar alguns dos principais exemplos:

  • Matemática
  • Estatística
  • Ciências da Computação
  • Marketing
  • Ciências Econômicas

Entre tantos outros…

Como o próprio nome indica o profissional cientista de dados passa o dia trabalhando com dados. Mas existem diversas tarefas diferentes que podem ser realizadas com tais dados. Uma abordagem simples para entender a Ciência de Dados é subdividí-la em suas principais atividades, que, juntas, formam as bases da profissão e que se encaixam, em parte, com a definição do Gartner sobre Business Analytics, outra área bastante relacionada. São elas:

  • Preparação
  • Análise descritiva
  • Análise prescritiva
  • Análise preditiva

Preparação dos dados

Na preparação o cientista é responsável pela coleta e limpeza dos dados. Suas principais preocupações são a disponibilidade e qualidade em geral do dado. Isso remete à famosa frase: “Garbage In-Garbage Out.”

É nesse momento que são realizadas integrações de fontes díspares, checagem de valores e às vezes até a remoção de outliers das amostras. Também poderíamos encaixar aqui o transporte dos dados de um lugar a outro, como por exemplo a extração do dado da fonte, importação do dado em algum banco de dados, o transporte entre bancos de dados distintos, entre bancos de dados e o Hadoop, ou algo do gênero.

Também relacionado, mas que particularmente eu não colocaria aqui é a preparação dos dados especificamente para a aplicação de algum modelo estatístico ou de Machine Learning, como por exemplo a normalização de dados numéricos. Esse tipo de tarefa vai variar de acordo com o modelo a ser utilizado, portanto eu classificaria como uma das fases envolvidas nas análises preditiva ou prescritiva.

Análise prescritiva

No caso da análise, o produto final geralmente é um relatório com dados e o resultado da aplicação de modelos para auxiliar na tomada de decisões. Em geral, o trabalho vai além da análise descritiva, de forma que fornece a inferência para aliviar um pouco do “achômetro” na hora de decidir. A análise prescritiva não remove de forma alguma a necessidade de avaliação por parte de executivos e analistas especializados na área (que pode ser operações, marketing, publicidade, etc.) e serve “apenas” como mais uma ferramenta, embora uma ferramenta bem mais científica do que utilizada em geral.

Análise preditiva

Já na análise preditiva ou automação, o cientista é responsável pela criação de modelos preditivos, não necessariamente se preocupando com o poder de explicação daquele modelo. O resultado principal aqui seria a capacidade preditiva do modelo, ou seja, se ele é capaz de fazer previsões com acurácia e precisão suficientemente bons. Nesse tipo de trabalho, em geral, são aplicados modelos mais complexos de Machine Learning ou até conjuntos de modelos (chamados de “ensembles“) através de técnicas como bagging e boosting.

Apesar dessa divisão, dentro de cada uma dessas principais atividades se encontram o uso de técnicas de mineração de dados, estatística aplicada e machine learning.

O que dizem os cientistas de dados sobre a sua profissão?

Já que o trabalho do cientista de dados é tão amplo e ainda é uma área relativamente nova (apesar das técnicas serem bastante antigas), talvez a melhor forma de entender realmente do que se trata é conversamos diretamente com praticantes, pessoas que estão no dia a dia executando tarefas da ciência de dados e que se dedicam para a área.

Por isso convenci um seleto grupo de amigos a participar de uma série de entrevistas para contar um pouco da experiência de cada um, como imaginam o campo de ciência de dados no futuro e como está o mercado de trabalho hoje no Brasil. Todos eles são profissionais experientes que já estavam trabalhando com dados muito antes do nome “Ciência de Dados” ser criado.

A primeira entrevista será na próxima semana. Se você quer saber mais assine o feed do blog ou siga meu twitter para não perder! ;)

Pin It

Mathematica

I’ve been using Wolfram Mathematica a lot lately. From Microeconomics classes to Econometrics to data analysis and demonstrations. Here’s what I make of it, good and bad.

The Good

Picture of an article about Mathematica in 1988

Mathematica in 1988

Mathematica truly is state of the art. It recently turned 25, which is quite some time for any piece of software. It’s been the tool I’ve used most frequently for data analysis when given the chance to choose. It’s powerful, it’s simple and it’s highly productive. If you do scientific work and/or data analysis and haven’t already, I think you should give it a try and decide for yourself.

The Language

Stephen Wolfram himself and the guys at Wolfram Research have spent a lot of time in language design and it shows. Here’s what he says about it:

“I’ve been doing language design now for 35 years—and it’s the hardest intellectual activity I know. It requires a curious mixture of clear thinking, aesthetics and pragmatic judgement. And it involves always seeking the deepest possible understanding, and trying to do the broadest unification—to come up in the end with the cleanest and “most obvious” primitives to represent things.”

The Wolfram Language is a descendant of the Lisp family of programming languages, even though it doesn’t look like it.

I’ve been programming in functional programming languages for quite some time now, and since then I’ve worked with Haskell, Erlang, Common Lisp, Scheme and even a little bit of Clojure. In my opinion, the Wolfram Language is definitely among the top ones. And for the kind of work that I do, the functional programming paradigm fits perfectly. Use the right tool for the right job, right?

The Environment

Besides the programming language, the Notebook environment is surprisingly good. I didn’t think so when I first started using it. It was different, unusual. But after some time I’ve grown used to it, and not only that but I also began missing it when working in something else. I like it better even compared to other notebook style environment like IPython notebook. This is a matter of taste, obviously, so YMMV.

Integration

One of the first things that caught my attention is that Mathematica has a “curated data backend” where you can request data from the Wolfram servers (assuming you’re online) without ever leaving it. Of course it’s far from complete, but it does have some interesting Demographic, Geographic and Economic data¹ I can work with for prototyping or exploratory analysis. It has a lot of other kinds of data as well (more on this later). This is the same data used in Wolfram|Alpha, which also integrates nicely with Mathematica.

While still in its infancy, I really hope they keep improving this service and adding more data over time!

Cross-platform

This is basic and a must-have.

Batteries included

I was quite surprised to see how easy it was to start working with geographic data in Mathematica. It works with Shapefiles (arguably the de facto standard for this kind of data) out of the box. No third-party plugins, add-on, libraries or you-name-it. In fact, it works with quite a lot of other data formats as well, some more well known than others. This includes geographic, image, sound, tabular, XML, CAD and many other kinds of data. There’s a list here.

In this regard, this is a very different user experience than that of Python or R, both of which I also use a lot.

Mathematica 8 logo

Mathematica 8 logo

Of course, being able to read or write the data is nothing if you can’t work with it. There’s a wealth of functions and data for many different kids of use. From Chemistry to Image processing. I’ve tried to explore the Mathematica ecosystem a lot, and I feel like I still have only seen 5% or so. There’s a lot of specialized stuff, so I don’t think that someone would ever benefit of this 100%, of course. Still, it’s very interesting to see how flexible Mathematica can be and how many fields it’s been applied.

Compared to MATLAB, Mathematica packs everything in a single package: Statistics, Curve Fitting, Optimization, Finance, Signal Processing, etc., which makes it a lot cheaper if you need some of these to do work. I don’t have enough experience with MATLAB so I can’t say much with regard to performance or usability, though. The little experience I do have with it left me with a very good impression.

There are many more things to talk about Mathematica, but I chose to write just about the ones I care about the most and use frequently.

The Bad

While I like much of Mathematica, I don’t mean to imply that it is a “silver bullet”. It isn’t. There are some things I dislike about it and things I think Wolfram should do differently.

These things I list here are about how Mathematica is managed, or should be managed, when taking in consideration the strong growth of open source alternatives like R and Python, which are in my opinion the strongest candidates for data analysis in the longer term.

Here’s what Google Trends shows:

The CDF thing

Please Wolfram, just forget about CDF. There was a time when it made sense, but that time has passed. We are in 2015 already. No proprietary plugins on the internet, please! Why not just output to HTML5, Javascript, SVG instead?

I would love to use Mathematica-created content on my blog, but I can’t because my readers will not have the CDF player installed, and neither would I want them to install it.

The community around Python (here) and R (here and here) are already exploring this, and so should Wolfram.

Package Management/Installation

Talking about communities, Mathematica already has a good community around it. It even has a StackExchange site, Mathematica.SE. But I was surprised to learn that there isn’t a central repository for third-party packages. Yes, I know there is the Wolfram Library Archive where I can download (sometimes decades old) packages, but I’m not talking about that. I’m talking about an automated system, something similar to Python’s pip, and R’s CRAN. Even .NET has one already, for crying out loud! (See NuGet.)

Licensing

Mathematica licensing and pricing is actually transparent. You have a bunch of options, you look for the one that fits your use case and you can go and buy directly from their website. You just need a credit card. Compare that to other vendors where you have to send an e-mail, wait for a “personalized” (aka expensive) quote and talk to a local sales representative. Quick, right?

Anyway, I don’t know if Wolfram has ever considered opening Mathematica up (as in FOSS), but if it hasn’t, it should. Maybe they can find a sustainable business model around it, maybe they can’t, but that doesn’t mean they shouldn’t look into it.

I would say that if Mathematica were open source it could compete head on with R, and maybe Julia wouldn’t need to exist.

But if Wolfram can’t make it open source, they should make it free for individuals, or at the very least free to students. Something along the lines of what SAS has done with SAS University.

Think this is too unlikely? Well, Wolfram has already done something quite similar recently with Raspberry Pi. Yup, you can use Mathematica for free with Raspberry Pi. To me, this suggests that Wolfram is indeed looking to expand its market share, mainly with regard to the so called Internet of Things, where it’ll probably be competing with (guess who?) Python.

I think they got things right this time. Maybe they can expand on that line of thought.

Pin It

Material adicional de Data Science

Essa semana tive a oportunidade de palestrar sobre Data Science e assuntos relacionados (data mining, machine learning, etc.) na Microsoft de Brasília através do grupo SQLServerDF, juntamente com o Luciano Moreira.

Iniciando a palestra Pragmatic Data Science

Iniciando a palestra Pragmatic Data Science

Foi uma ótima experiência e agradeço a todos que estiveram lá! Como sempre, o grupo estava participativo e surgiram diversas dúvidas relevantes durante a apresentação.

Disponibilizei aqui o material da palestra para quem pediu ou qualquer um que tenha interesse no assunto.

Por questões de espaço e tempo, não coloquei muitos recursos que acredito que sejam interessantes para quem quiser saber mais sobre Data Science. Então segue uma lista complementar ao que está no fim da apresentação:

Livros:

Dados:

 

Pin It