A língua inglesa é muito mais francesa do que pensávamos, por isso

Cena 51 da tapeçaria de Bayeux retratando a batalha de Hastings, uma batalha decisiva para o futuro da língua inglesa. Imagem por Myrabella via Wikipedia Commons

EXCLUSÃO DE RESPONSABILIDADE: Eu pessoalmente não tenho uma opinião sobre a classificação do inglês e não é sobre isso que este artigo trata, eu não sou linguista. Este artigo apenas pesquisa as estatísticas por trás do vocabulário em inglês, já que atualmente não há dados disponíveis.

A língua inglesa e suas origens têm sido um tópico para um debate feroz entre muitos linguistas. O inglês é classificado como idioma germânico (ocidental), o que significa que está intimamente relacionado a outras línguas germânicas, como sueco, holandês e alemão. A outra família de línguas dominantes na Europa Ocidental é o grupo de línguas românicas: francês, italiano, espanhol … todas as línguas que brotaram do latim em algum lugar ao longo da história.

Ao contrário de outras línguas germânicas, o inglês compartilha uma grande parte de seu vocabulário com francês e latim, muitas vezes atribuído ao período do domínio francês normando na Inglaterra depois de 1066 . O tamanho dessa influência do romance no inglês, juntamente com alguns outros aspectos técnicos, como pronúncia e sintaxe, levou alguns linguistas radicais a acreditar que o inglês não deveria ser visto como uma língua germânica, mas sim como um híbrido românico-germânico . No entanto, o consenso geral é que o vocabulário geral em inglês é apenas um terço da origem do inglês antigo (portanto, germânico), mas que o vocabulário central é inteiramente inglês antigo . A palavra-chave aqui é fundamental , pois a maioria dos lingüistas afirma que a influência do francês e do latim só entra na língua através de um punhado de palavras básicas, mas de uma grande maioria de termos acadêmicos. Para muitos, esse parece ser o critério mais importante para sua classificação como língua germânica.

Eu pessoalmente não me importo muito com essas classificações , mas fiquei muito surpreso ao descobrir que, na verdade, ninguém recentemente se preocupou em pesquisar as origens do vocabulário em inglês, muito menos o núcleo. A pesquisa mais recente foi feita em 1975 por Joseph M. Williams, onde examinou as 10.000 palavras mais usadas em inglês , com base em uma pequena amostra de letras corporativas. Aqui estão meus problemas com sua pesquisa:

  • a pesquisa carrega um viés em direção ao francês e ao latim, já que as empresas são mais propensas a usar linguagem acadêmica
  • nomes próprios não foram removidos, possivelmente diluindo os resultados para uma composição etimológica
  • ele usou as 10 000 palavras mais comuns nesse corpus de letras, não realmente "vocabulário central"

E o vocabulário central é precisamente o assunto de todo esse debate, então decidi fazer minha própria pequena pesquisa usando Python para ver como eu poderia fornecer algumas estatísticas por trás dessas afirmações.

Pesquisa de Joseph M. Williams visualizada (top 10.000 palavras). Imagem por Murraytheb via Wikipedia Commons

A busca pela etimologia

Reunindo os dados

O Oxford Dictionary afirma que existem aproximadamente 250.000 palavras distintas no vocabulário inglês . Mas qual parte representa o vocabulário principal ? Afinal, o que isso quer dizer? O Dicionário Oxford usa a tabela a seguir com algumas dicas sobre a relação das palavras mais comuns em inglês para a aparência das palavras em fontes em inglês:

Usar um conjunto de dados de 5.000 palavras representaria aproximadamente 85% de todas as palavras usadas no Oxford English Corpus. Imagem via Dicionários de Oxford

Esta tabela nos mostra um problema bastante grande: a ocorrência real de palavras em inglês aplicado não reflete o vocabulário (essencial) nem mesmo a linguagem como um todo. 50% de qualquer texto em inglês usará exatamente os mesmos links / pronomes, mesmo que essas 100 palavras reflitam apenas 0,04% do vocabulário distinto em inglês. Uma palavra como "o" sozinho compõe 6% de qualquer fonte em inglês. Esse uso desproporcional de palavras estruturais extremamente básicas ilude o leitor a pensar que o vocabulário inglês tem uma composição etimológica inteiramente diferente. É por isso que para determinar a composição de uma linguagem, ou no meu caso apenas o vocabulário básico, temos que usar listas de freqüência, e não simplesmente contar palavras em fontes. Uma lista de frequência, uma lista com as palavras mais usadas em um idioma, nos permite determinar com precisão o vocabulário central de um idioma.

Agora que estabeleci que preciso encontrar uma lista de frequências, preciso saber o tamanho desse conjunto de palavras para ter o vocabulário central . A definição do vocabulário central não é estritamente definida, mas os números parecem varia de aproximadamente 3.000 às 5.000 palavras mais comuns em inglês, usadas por vários dicionários , sites de aprendizado de inglês e literatura . Com base nessas estimativas, decidi usar um tamanho de amostra com as 5.000 palavras mais usadas em inglês, representando os 2% superiores do vocabulário distinto e perfazendo 85% de todas as palavras em qualquer fonte em inglês.

Adquirir as atuais 5.000 palavras acabou sendo muito mais difícil do que o inicialmente previsto; quase não há conjuntos de dados limpos, imparciais (e livres ). Por um lado, você tem grandes conjuntos de dados de todos legendas já enviadas em OpenSubtitles.org, e por outro você tem fontes como o Project Gutenberg. Infelizmente, a fonte está gravemente desatualizada, como o Project Gutenberg, ou é severamente tendenciosa, como as legendas; quando palavras como "kill" e "f * ck" estão entre as principais entradas, você sabe que não está lidando com dados confiáveis.

Acabei indo com a lista de frequência disponibilizada pela Wordfrequency, um conjunto de dados que eles acreditam ser os “dados de frequência mais precisos do inglês”. Baseia-se no Corpus do Contemporary American English , contendo 450 milhões de palavras provenientes de fala coloquial, de literatura a revistas.

Processando os dados

Em seguida, tive que encontrar uma maneira de automatizar o processo de recuperação do idioma original (ou, em outras palavras, a etimologia) de cada palavra do meu conjunto de dados. Para isso, tive que encontrar dicionários on-line confiáveis. A fonte mais óbvia para dados etimológicos é Etymonline , um dicionário extremamente preciso que foi compilado e verificado manualmente e, portanto, usado para 80% deste conjunto de dados. A interface é assim:

Resultados para a consulta "origem" em etymonline.com

Como a linguagem de origem é mencionada imediatamente, raspo as primeiras 15 palavras de cada entrada usando o urllib e o BeautifulSoup do Python. A linguagem mencionada primeiro é então tomada como a língua de origem. Se não houver nenhum idioma presente, ele tentará o próximo método.

Observe que, às vezes, uma palavra de origem latina retornará "Francês" usando meu método. Isso ocorre porque Etymonline sempre menciona francês antes do latim se a palavra entrou em inglês por meio de francês e a palavra mudou suficientemente da raiz. Uma palavra como “origem” (de “origo”) retornará, portanto, o francês, enquanto uma palavra como “fornecer” (de “providere – provideo”) retornará o latim.

A segunda fonte é Memidex , um índice de dicionários online. Memidex retorna as muitas origens possíveis de cada palavra com base em seus dicionários indexados.

Resultados para a consulta "origem" no memidex.com. A quantidade de possíveis dicionários que retornam resultados pode ser de até dez.

Eu simplesmente raspo as primeiras 8 palavras depois de cada menção de “Origem:” na página da web e depois retorno a língua de origem que é mais mencionada. Durante cada etapa do processo, a porcentagem de cada idioma que compõe o inglês é registrada em uma lista para posterior visualização e interpretação.

Visualizando os dados

O gráfico da área a seguir contém os resultados da minha pesquisa:

Como você pode interpretar, francês e latim entram em vocabulário de inglês muito antes e em muito maior quantidade do que se pensava anteriormente, apenas as 1.627 palavras em inglês para as línguas germânicas perdem a maior parte do vocabulário e exatamente as 1.875 palavras mais usadas. o francês e o latim dominam o vocabulário inglês. Parece que as línguas românicas entram em inglês a uma taxa exponencialmente rápida, mas eventualmente se solidificam em um nível que não posso determinar com segurança em um tamanho de amostra de 5.000 palavras; parece que finalmente alcança as percentagens anteriormente fornecidas por outros pesquisadores como o Sr. Williams.

Curiosamente, o francês e o latim não são as primeiras línguas estrangeiras a entrar nesta composição por frequência. Para as primeiras 200 palavras, o nórdico antigo compõe 5-10% do vocabulário. Palavras como "eles", "grande" e "morrem", tudo parece vir de fontes escandinavas que entraram em inglês ao redor da era viking , uma característica que parece ser única para o idioma inglês.

Além disso, o grego vive exatamente de acordo com as expectativas; a parte das palavras gregas em inglês aumenta linearmente através de palavras bastante acadêmicas, como “fotografia” e “caráter”.

Conclusão

O francês e o latim compõem a maior parte do vocabulário do núcleo inglês . Após as 1.875 palavras mais usadas dentre as 250.000 palavras no vocabulário distinto do inglês, o francês e o latim dominam a língua inglesa, alcançando uma participação de 56% no nível do vocabulário central, 5.000 palavras. Ambas as línguas entram em inglês a uma taxa exponencialmente rápida, enquanto a parte grega parece ficar limitada a um pequeno crescimento linear devido ao seu influxo que consiste em palavras acadêmicas. Além disso, é uma parte considerável de inglês muito básico de origem nórdica antiga .

O código fonte com orientações detalhadas para cada etapa pode ser encontrado aqui no GitHub .

Texto original em inglês.