Please enable JavaScript.

Coggle requires JavaScript to display documents.

TIPOS de datos/fuentes de datos - Coggle Diagram

- - - - redes sociales, HTML
    - - Como no es parte del análisis tradicional tenemos que instalarla
        !pip install feedparser
    - - empieza <item>
        termina: </item>
  - - - como no es pripia para analisis de datos tenemos que instalarla. !pip.install goose 3
      - word_cloud
        Librer[ia
        
        stop word (las palabras conectoras)
        
        .generate
      - .title
        
        article.title
      - .cleaned_text
        
        Cuando extremos de portal web, lo limpia de todoo el codigo HTML que lo compone
      - Agrgar varibale para indicar cuántos quieres que te muestre porque mostrarte todos talvez es mucho (solo si es que quieres)
        mostrame = 300
    - - Obtener un texto y copiar a un formato TXT. con blog de notas.
        Actualizar en nombre del archivo incluyendo el tipo. (Ejemplo: txt)
      - Subir el texto y almacenar en una variable
      - stopwords.words
        
        Para cambiar o decirlem en que idioma esta tu data ser
        
        stopwords.words ('English')
  - - - Base de datos relaciones, csv, excel
    - - tranformar datos
        
        queremos anexar o unir datos, par aesto tienen que tener los mismo s encabezados
        Es como hace Vlookup, traer el nombre por el c[odigo
        
        .rename
        
        df_offenses.remname *(columns= {"NAME": "OFFENSE_NAME", "CODE:""OFFENSE_CODE"}.inplace=true)
        
        .inplace =true
        
        para que lsio cambios sean permananentes
        reescriba los cambios y mantenga a lo largo, no solo por ahora
      - limpiar datos
        
        verfiicar si hay duplicados ordennando
        
        .sort_values (by= )
        
        por defecto es descendente, si queires ascending especifica
        
        para ordenar por una sola colmna c by y directo valor.
        / si quiere s que te lo ordene por otras coasas mas, con corchetes peudes refereirte a varios
        
        drop.duplicates
        
        en funcion a offenss_code (se puede hacer en funciona l appellido etc)
        
        df_offenses.drop_duplicates (subset ) [""OFFENSE_CODE], Keep= "first", inpace = true)
      - carga tu fuente de datos y descompuiimelo adentro
      - tu archivo pone un nombre o almacena en un avariable
        
        source_file= "crime.cvs" --> este tiene que ser el mismo del archivo
      - mERGE
        unir como Vlookup
        
        df_crimes = df_crimes.merge (df_offenses, how = "left", on = "OFFENSE_CODE"),
      - CAMBIAR tiipo de dato
        .to_datetime ()
        
        df_crime ["OCURRED_ON_DATE"] = pd.to_datetime (df_crimes ["OCURRED_ON_DATE"])
      - .dt.strftime()
        extraer solo dia/fecha etc
        
        .dt.strftime ("%Y - %m - %d")
- - - - edad, peso. Opciones infinitas
    - - Opciones finitas
  - - - no existe jerarquia. Estado civil , color de ojos
    - - existe un ajerarqiuoa
        
        nivel de satisfacción
    - - dos opciones
        
        si/no
        
        aprobado/reprobado