Comment extraire du contenu spécifique dans un pandas dataframe avec une regex?

Question

Considérez le pandas dataframe suivant:

In [114]: df['movie_title'].head()  Out[114]: 0 Toy Story (1995) 1 GoldenEye (1995) 2 Four Rooms (1995) 3 Get Shorty (1995) 4 Copycat (1995) ... Name: movie_title, dtype: object

pdate: Je voudrais extraire avec une expression régulière uniquement les titres des films. Donc, utilisons le regex suivant: \b([^\d\W]+)\b. J'ai donc essayé ce qui suit:

df_3['movie_title'] = df_3['movie_title'].str.extract('\b([^\d\W]+)\b') df_3['movie_title']

Cependant, j'obtiens ce qui suit:

0 NaN 1 NaN 2 NaN 3 NaN 4 NaN 5 NaN 6 NaN 7 NaN 8 NaN

Toute idée de la façon d'extraire des fonctionnalités spécifiques du texte dans un pandas dataframe?. Plus précisément, comment puis-je extraire uniquement les titres des films dans un tout nouveau dataframe ?. Par exemple, le la sortie doit être:

Out[114]: 0 Toy Story 1 GoldenEye 2 Four Rooms 3 Get Shorty 4 Copycat ... Name: movie_title, dtype: object

jezrael · Accepted Answer

Tu peux essayer str.extract et strip , mais il vaut mieux utiliser str.split , car dans les noms de films, il peut aussi y avoir des nombres. La solution suivante est replace contenu des parenthèses par regex et strip espaces blancs avant et arrière:

#convert column to string df['movie_title'] = df['movie_title'].astype(str) #but it remove numbers in names of movies too df['titles'] = df['movie_title'].str.extract('([a-zA-Z ]+)', expand=False).str.strip() df['titles1'] = df['movie_title'].str.split('(', 1).str[0].str.strip() df['titles2'] = df['movie_title'].str.replace(r'$[^)]*$', '').str.strip() print df movie_title titles titles1 titles2 0 Toy Story 2 (1995) Toy Story Toy Story 2 Toy Story 2 1 GoldenEye (1995) GoldenEye GoldenEye GoldenEye 2 Four Rooms (1995) Four Rooms Four Rooms Four Rooms 3 Get Shorty (1995) Get Shorty Get Shorty Get Shorty 4 Copycat (1995) Copycat Copycat Copycat

su79eu7k · Answer

Vous devez affecter des groupes de texte avec () comme ci-dessous pour en capturer une partie spécifique.

new_df['just_movie_titles'] = df['movie_title'].str.extract('(.+?) \(') new_df['just_movie_titles']

pandas.core.strings.StringMethods.extract

StringMethods.extract (pat, flags = 0, ** kwargs)

Rechercher des groupes dans chaque chaîne à l'aide d'une expression régulière passée