Pandas STR contiene

Pandas STR contiene
“Este artículo le enseñará cómo Python se puede usar para determinar si una parte particular de la cadena está incluida en el valor de la cadena o no. Python tiene una variedad de métodos para encontrar una subcadena dentro de una cadena, como verificar los patrones, la insensibilidad de casos y más. Cualquier nivel de programador debería poder lidiar con cuerdas en Python."

Después de terminar este tutorial, sabrá:

  • Métodos y operadores de Python para determinar si una cadena comprende una subcadena o no.
  • Filtrado de DataFrame cuando una subcadena está presente en una columna
  • Usando RegEx, determine si una cadena incluye una subconocencia de patrones.

Cómo encontrar si existe una subcadena o expresión en el valor de cadena en pandas?

Para determinar si una cadena consiste en una subcadena en particular o no, hay varias funciones que podemos hacer para hacerlo.

Ejemplo # 1: Verifique si la subcadena especificada se incluye en los datos de cadena utilizando el operador en

En Python, el operador in se puede usar con iterables tipos como listas y cadenas. Se usa para determinar si un elemento está presente en el iterable o no. Un elemento encontrado está indicado por el operador en que devuelve verdadero. Si no, devuelve falso. El operador In es el enfoque más rápido y pitónico para determinar si una cadena incluye una subcadena en Python. El operador lo deja claro para cada lector de su código lo que está tratando de lograr.


La serie Pandas se ha creado usando el PD.Función Series () después de importar el módulo Pandas. Nuestra serie consiste en valores de cadena "piso", "nuestro", "cancelar", "seguro", "gira", "tienda", "aburrido" y "malvado". Ahora usaremos el operador in para encontrar si la subcadena especificada existe en los valores de cadena de la serie pandas o no. Para iterar sobre cada valor de la serie Pandas, se utilizará el bucle "para", como se ve en el script a continuación.

Al usar el operador in, obtuvimos los resultados en forma de verdadero y falso. "Verdadero" indica la presencia de una subcadena para los valores de cadena, y "falso" indica la ausencia de una subcadena. También podemos usar el operador en la lista Pandas y las columnas de DataFrame que contienen valores de cadena. Probemos el operador en una columna de DataFrame ”. Para crear DataFrame, usaremos el PANDAS PD.Función DataFrame ().

Primero, hemos creado un "DIC" de Python Dictionary que consiste en pares de valores clave. Luego pasamos el diccionario "DIC" dentro del PD.Marco de datos(). Hemos creado nuestro marco de datos con tres columnas, yo.mi., ID, nombre y curso. Nuestro objetivo es encontrar si existen subcadenas en la columna de cadena o no, por lo que solo nos centraremos en las columnas de cadenas. Hay dos columnas de cadena en nuestro "nombre" y "columna" de datos de datos que tienen los valores de cadena ("Davidson", "Hendery", "Henderson", "Jason", "Kim", "Jenson", "Jackson", "Carl ") Y (" Python "," Amazon "," Economics "," Business "," Idiomas "," Base de datos "," Diseño "," Dibujo ") respectivamente.

Hemos especificado la columna "nombre", que se itera por el bucle para verificar si la subcadena "hijo" está presente en los valores de cadena del nombre de la columna o no. La función genera el resultado revisando cada valor dentro de la columna.

Ejemplo # 2: filtrar una cadena si la subcadena está presente

El operador in se utilizará para filtrar la lista, la serie o el marco de datos extrayendo los valores de cadena si la subcadena está presente. Para lograr esto, iteraremos a través de cada elemento del objeto usando un iterador de bucle para ver si hay una subcadena presente. Si los elementos de la lista consisten en la subcadena, las cadenas se agregarán a otra lista. Deja que primero cree un objeto de lista

Primero, hemos creado una lista que contiene los elementos como valores de cadena "plátano", "manzana", "naturaleza", "analizar", "pescado", "nombre", "camisa", "analógico". Luego se crea una lista vacía "filtrada" para almacenar los valores resultantes. Hemos utilizado el operador in para determinar la presencia de las subcadenas. La función de anexo se utiliza para agregar las cadenas de salida (donde estaba presente la subcadena) en la cadena vacía "filtrada". Tenemos cuatro valores, yo.mi., "Banana", "Analizar", "Nombre", "Análogo" que contiene la subcadena "NA". Ahora, vamos a intentarlo con una columna DataFrame. Usaremos el DataFrame que hemos creado en el Ejemplo # 1.

Esta vez verificaremos la columna del curso.

Hemos especificado que la columna del curso se exige por bucle para verificar si la subcadena "encendida" está incluida en la columna del curso de DataFrame. Los valores en los que existe la subcadena se agregan a una lista vacía "filtrada" que hemos impreso como salida.

Las series.La función Str ”puede obtener los valores de la serie como cadenas y realizar varias operaciones. Para verificar si un patrón o regex está presente dentro de una cadena de índice o serie, podemos usar la "serie.stri.contiene () "función en pandas. Dependiendo de si un patrón especificado o regex está presente en una serie o valor de cadena de índice, el método devuelve un índice o serie booleano.

Sintaxis: Serie.stri.Contiene (Pat, Case = True, Flags = 0, Na = Nan, Regex = True)

Dónde,

palmadita: Expresión regular o secuencia de personajes.

caso: Sensible en mayúsculas.

banderas: Las banderas se pasarán a través del módulo RE, por ejemplo, RE.IGNORAR CASO.

n / A: Para llenar los valores faltantes o nulos.

regular: El PAT se considera una expresión regular si es verdadera.

Ejemplo # 4: Usar serie.stri.contiene () función para determinar si la subcadena está presente en los datos

Primero, crearemos una lista con valores de cadena. Junto con los pandas, también importaremos los re-módulos. El re-módulo ofrece un conjunto de características de expresión regulares eficientes que le permiten determinar fácilmente si una cadena proporcionada coincide o contiene un patrón particular utilizando el método de coincidencia y utilizando el método de búsqueda, respectivamente.

Hemos creado una lista con PD.Serie () función con los valores de cadena "Team_a", "Team_ab", "Team_b", "Team_alpha", "Team_ace", "Team_stars" y "Team_C". También hemos especificado un índice para nuestra serie "SR" como "Equipo 1", "Equipo 2", "Equipo 3", "Equipo 4", "Equipo 5", "Equipo 6" y "Equipo 7". Ahora, usemos la serie.stri.contiene () función para encontrar si la subcadena está presente en los valores de cadena de la lista.

Dentro del str.Contiene la función (), hemos especificado el parámetro PAT como "Team_a" para verificar si la subcadena "Team_a" está incluida en los valores de cadena de la lista. La salida muestra que la serie devuelve un objeto en serie que contiene valores booleanos.stri.Contiene () función. Donde el patrón suministrado se encuentra en la cadena, es verdadero; de lo contrario, se devuelve el falso.

Ejemplo # 5: Usar serie.stri.contiene () función para determinar si el patrón está presente en los datos

Ahora verificaremos si el patrón especificado existe en los datos de cadena del objeto de serie subyacente. Creemos una cadena que contiene valores de cadena.

Hemos creado una serie con los valores "Mickey", "Rickon", "Alex", "Nick", "Rov", "Tim" y "Danny". Para determinar si se incluye un patrón en los datos de cadena del objeto Serie, ahora usaremos la "serie.stri.contiene () "función.

Hemos especificado ruta = "I [A-Z]" para encontrar si hay un valor de cadena en la serie "S" que tiene la letra "I" seguida de cualquier alfabeto en minúscula.

Conclusión

En este tutorial, hemos tratado de enseñar cómo determinar si una cadena incluye una subcadena en pandas. Esto se puede hacer utilizando varios métodos, pero hemos discutido algunos de ellos en los ejemplos. Implementamos ejemplos para enseñarle cómo determinar si la cadena contiene la subcadena especificada usando el operador en, filtrar una cadena si la subcadena está presente en una serie o marco de datos, y use el STR.contiene () función para determinar si la subcadena o expresión está presente en los datos.