domingo, 2 de julho de 2017

Exercício de mineração de texto: As palavras usadas por Smith, Mill e Marx

Esta semana alguém compartilhou no FB o livro “Text Mining with R: A Tidy Approach” (link aqui), como me interesso pelo assunto e estou com mais tempo para aprender coisas novas depois que terminei meu mandato como diretor da FACE/UnB resolvi dar uma olhada no livro. O primeiro capítulo ensina a pegar textos e colocar como bases de dados “arrumadas” (tidy) no R, o segundo capítulo trata de análise de sentimentos, ainda não li os outros. Como gosto de aprender fazendo exercícios fiz uma, vá lá, análise das palavras que mais aparecem em alguns livros clássicos de economia e resolvi compartilhar o resultado com os leitores do blog.

Por limitações minhas as obras escolhidas tinham que estar disponíveis no Projeto Gutenberg (link aqui), uma organização que disponibiliza gratuitamente textos de livros clássicos que não estão protegidos por direitos autorais. Para o exercício considerei três autores clássicos e fundamentais para quem estuda economia: Adam Smith, Karl Marx e John Stuart Mill. Do primeiro peguei “A Riqueza das Nações” de 1776, do segundo peguei “Para uma Crítica da Economia Política” de 1857 e do terceiro peguei “Princípios de Economia Política” de 1848. O livro de Adam Smith será usado como referência, os de Marx e Mill são da mesma época e representam linhas de pensamento bem diferentes que tomaram rumos ainda mais distintos no decorrer do século XX.

Comecemos com “A Riqueza das Nações”. As dez palavras que mais aparecem no livro são: preço (price), país (country), trabalho (labour), comércio (trade), produzir (produce), quantidade (quantity), valor (value), povo (people), moeda (money) e terra (land). O fato de preço aparecer bem mais que valor pode sugerir que Smith estava mais preocupado em determinar preços do que em determinar o valor de uma mercadoria, repare que quantidade e comércio também parecem mais do que valor. Outro ponto que me parece interessante é que capital, que nem aparece na lista, aparece menos que trabalho e terra, isso talvez seja reflexo da época e da abordagem de Smith focada no trabalho.

Na lista de “Para uma Crítica da Economia Política” aparecem: valor (value), moeda (money), ouro (gold), mercadorias (commodities), circulação (circulation), troca (exchange), trabalho (labor), mercadoria (commodity), produção (production), forma (form). Se somarmos mercadorias e mercadoria esse é o termo que mais aparece, faz sentido, Marx tratou tanto da produção quanto da circulação de mercadorias em uma economia capitalista. O foco na teoria do valor também fica claro, note que preço nem aparece entre as dez palavras mais usadas. Também vale destacar a frequência com aparece a palavra moeda, uma das características marcantes da análise de Marx é que muito mais que um meio de troca a moeda é um elemento crucial no processo de produção capitalista.

Por fim chegamos em Mill, o liberal, no livro “Princípios de Economia Política” as dez palavras mais citadas foram: capital, trabalho (labor), moeda (money), valor (value), produção (production), salários (wages), custos (costs), país (country), demanda (demand) e aumento (cresciemto). A preocupação com a produção e os fatores de produção está clara, note o destaque para capital e trabalho, é curioso que capital não apareça na lista de Marx. Também há uma preocupação com valor, um tema que seria abandonado pelos economistas neoclássicos que podem ser vistos como os herdeiros de Mill. A lista de Mill também é a única em que, além de salários, aparecem as palavras custo e demanda, o que não deixa de ser interessante.

A tabela abaixo mostra as dez palavras mais frequentes nos três livros analisados. Repare que as palavras valor, produção, trabalho e moeda aparecem nas três listas. Isso me parece consistente com as preocupações dos economistas daquela época. Um exercício semelhante para autores modernos muito provavelmente não traria a palavra valor, também não ficaria surpreso se não aparecesse moeda. Por outro lado a palavras como oferta, demanda, utilidade, custos, preço e capita deveriam, creio eu, aparecer em todas as listas.

Dez Palavras mais Usadas em Cada Livro
A Riqueza das Nações, Smith
Para uma Crítica da Economia Política, Marx
Princípios de Economia Política, Mill
Palavra
Repetições
Palavra
Repetições
Palavra
Repetições
preço
1259
valor
864
capital
1032
país
1238
moeda
821
trabalho
916
trabalho
1003
ouro
646
moeda
837
comércio
970
mercadorias
620
valor
816
produzir
942
circulação
558
produção
762
quantidade
797
troca
537
salários
761
valor
794
trabalho
512
custo
632
povo
776
mercadoria
431
país
573
moeda
767
produção
413
demanda
493
terra
717
forma
333
aumento
472

Por fim vale uma comparação entre as palavras usadas nos três livros considerados no post. A figura abaixo mostra a frequência das palavras usadas por Mill e Marx em relação a frequência das palavras usadas por Smith. Palavras perto da linha são usadas mais ou menos na mesma frequência pelo autor do painel e por Smith. Palavras distantes da linha são usadas com mais frequência pelo autor do painel do que por Smith. Por exemplo, Smith e Mill usam a palavra país (country) com mais ou menos a mesma frequência, da mesma forma Smith e Marx usam a palavra capital com frequência parecida. Por outro lado, Mill usa a palavra “Adam” com mais frequência que Smith, o que me parece muito razoável e apropriado. Notem que Marx faz mais referências a moeda e circulação do que Smith, o que pode parecer contraditório, mas, creio eu, não é. Apesar do foco de Marx no processo de produção capitalista as referências a circulação e moeda apareciam pela forma como Marx acreditava que esses conceitos estavam inseridos no processo de produção e também pelas referências críticas aos conceitos de moeda e circulação em outros autores.




Apenas por curiosidade fiz o teste de correlação entre as palavras usadas por Smith e Mill e por Smith e Marx. O gráfico sugere que a correlação é maior para Mill do que para Marx. De fato, para Mill e Smith a correlação foi de 0,65 com intervalo de confiança entre 0,63 e 0,66. Para Smith e Marx a correlação foi de 0,50 com intervalo de confiança entre 0,48 e 0,53.

O exercício desse post não tem pretensões de analisar as obras de Smith, Marx ou Mill nem muito menos de apresentar alguma reflexão original sobre tis autores. Longe disso, os comentários que fiz costumam estar presentes em livros básicos de História do Pensamento Econômico e se em algum momento eu dei impressão de não ter contido a empolgação e ter ido além de um exercício de mineração de texto desde já apresento minhas desculpas. De toda forma ouso dizer que ferramentas de mineração de texto, se usadas por quem entende de história do pensamento econômico, podem ser uma ferramenta interessante para ampliar a pesquisa na área.



0 comentários:

Postar um comentário