Erreur Python3: TypeError: impossible de convertir implicitement l'objet 'bytes' en str

Question

Je travaille sur l'exercice 41 dans learnpythonthehardway et continue de recevoir l'erreur:

 Traceback (most recent call last): File ".\url.py", line 72, in <module> question, answer = convert(snippet, phrase) File ".\url.py", line 50, in convert result = result.replace("###", Word, 1) TypeError: Can't convert 'bytes' object to str implicitly

J'utilise python3 alors que les livres utilisent python2, j'ai donc apporté quelques modifications. Voici le script:

#!/usr/bin/python # Filename: urllib.py import random from random import shuffle from urllib.request import urlopen import sys Word_URL = "http://learncodethehardway.org/words.txt" WORDS = [] PHRASES = { "class ###(###):": "Make a class named ### that is-a ###.", "class ###(object):
	def __init__(self, ***)" : "class ### has-a __init__ that takes self and *** parameters.", "class ###(object):
	def ***(self, @@@)": "class ### has-a funciton named *** that takes self and @@@ parameters.", "*** = ###()": "Set *** to an instance of class ###.", "***.*** = '***'": "From *** get the *** attribute and set it to '***'." } # do they want to drill phrases first PHRASE_FIRST = False if len(sys.argv) == 2 and sys.argv[1] == "english": PHRASE_FIRST = True # load up the words from the website for Word in urlopen(Word_URL).readlines(): WORDS.append(Word.strip()) def convert(snippet, phrase): class_names = [w.capitalize() for w in random.sample(WORDS, snippet.count("###"))] other_names = random.sample(WORDS, snippet.count("***")) results = [] param_names = [] for i in range(0, snippet.count("@@@")): param_count = random.randint(1,3) param_names.append(', '.join(random.sample(WORDS, param_count))) for sentence in snippet, phrase: result = sentence[:] # fake class names for Word in class_names: result = result.replace("###", Word, 1) # fake other names for Word in other_names: result = result.replace("***", Word, 1) # fake parameter lists for Word in param_names: result = result.replace("@@@", Word, 1) results.append(result) return results # keep going until they hit CTRL-D try: while True: snippets = list(PHRASES.keys()) random.shuffle(snippets) for snippet in snippets: phrase = PHRASES[snippet] question, answer = convert(snippet, phrase) if PHRASE_FIRST: question, answer = answer, question print(question) input("> ") print("ANSWER: {}

".format(answer)) except EOFError: print("
Bye")

Qu'est-ce que je fais exactement mal ici? Merci!

Ashwini Chaudhary · Accepted Answer

urlopen() renvoie un objet octet. Pour effectuer des opérations sur les chaînes, convertissez-le d'abord en str.

for Word in urlopen(Word_URL).readlines(): WORDS.append(Word.strip().decode('utf-8')) # utf-8 works in your case

Pour obtenir le jeu de caractères correct: Comment télécharger une page Web (!) Avec un jeu de caractères correct en python?

abarnert · Answer

Dans Python 3, la fonction urlopen) renvoie un objet HTTPResponse , qui agit comme un objet binaire. Donc, quand vous faites ça:

for Word in urlopen(Word_URL).readlines(): WORDS.append(Word.strip())

… Vous vous retrouvez avec un tas d'objets bytes à la place d'objets str. Alors quand tu fais ça:

result = result.replace("###", Word, 1)

… Tu finis par essayer de remplacer la chaîne "###" dans la chaîne result avec un objet bytes au lieu de str. D'où l'erreur:

TypeError: Can't convert 'bytes' object to str implicitly

La réponse est de décoder explicitement les mots dès que vous les obtenez. Pour ce faire, vous devez trouver le bon encodage à partir des en-têtes HTTP. Comment tu fais ça?

Dans ce cas, j'ai lu les en-têtes, je peux dire que c'est de l'ASCII, et que c'est évidemment une page statique, donc:

for Word in urlopen(Word_URL).readlines(): WORDS.append(Word.strip().decode('ascii'))

Mais dans la vie réelle, vous devez généralement écrire un code qui lit les en-têtes et le calcule de manière dynamique. Ou mieux, installez une bibliothèque de niveau supérieur comme requests , qui le fait automatiquement pour vous .

rajkrish06 · Answer

Convertir explicitement le type d'octet 'Word' en chaîne

result = result.replace("###", sre(Word), 1)

ça devrait marcher