-
Notifications
You must be signed in to change notification settings - Fork 167
Description
A solução de @WittmannF utiliza a seguinte linha para limpar os caracteres:
conteudo = f.read().replace('.', ' ').replace('-', ' ').replace(',', ' ').replace(')', ' ')
Foram adicionados vários REPLACES, um REPLACE para eliminar cada caractere que ele lembrou de remover, ainda assim restaram vários caracteres pendentes de remoção!
Uma opção é importar o módulo RE (Regular Expression, mais detalhes: [https://docs.python.org/pt-br/3/library/re.html])
`from operator import itemgetter
import re
with open("/content/texto.txt", 'r') as f:
dic = {}
#re.findall(r"[\W']+ limpa todos os caracteres que não são alfanuméricos
conteudo = re.findall(r"[\w']+", f.read())
for palavra in conteudo:
dic[f'{palavra}'] = len(palavra)
ordem = sorted(dic.items(), key=itemgetter(1), reverse=True)
for k, v in enumerate(ordem):
if k < 10:
print(v[0], v[1])`