Please enable JavaScript.
Coggle requires JavaScript to display documents.
TIPOS de datos/fuentes de datos - Coggle Diagram
TIPOS de datos/fuentes de datos
DE FUENTES DE DATOS
SEMI-ESTRUCTURADOS
No siguen un fromato rígifo, pero tienen un grado de organización.
Vamos a leer un gripo de noticias del formato
RSS
tienene algún tiepo de estructura, pero no totla,mete
redes sociales, HTML
feedparser
libtreria parara instalar
Para formato RSS o Xml
Como no es parte del análisis tradicional tenemos que instalarla
!pip install feedparser
Con esto hemos sacado de varias noticias para saber cuales son las tendencias del d[ia de hoy. Esto puedes hacer con los chats de Teams y ver de qu[e habla nuestro empleados
O en Mkt, ir a las fuentes de datos, de noticias para concoer tendencias y sacar videos de acuerdo a las tendencias de hoy
FROMATO RSS
empieza <item>
termina: </item>
iterar para ver cada una de las noticias
NO ESTRUCTURADOS
paginas web, imagene etc
DOCUMENTOS DE TEZXTO, EMAILS, PAGINAS WEB, QUE NO ESTAN TABULADOS
webscrapping
.goose3
Librería para extraer artículos
como no es pripia para analisis de datos tenemos que instalarla. !pip.install goose 3
word_cloud
Librer[ia
stop word (las palabras conectoras)
.generate
.title
article.title
.cleaned_text
Cuando extremos de portal web, lo limpia de todoo el codigo HTML que lo compone
Agrgar varibale para indicar cuántos quieres que te muestre porque mostrarte todos talvez es mucho (solo si es que quieres)
mostrame = 300
para las entrevistas de clima, word cloul que dicen los entrvistados
Desde mi propia compu. A partir de mi texto propio
Obtener un texto y copiar a un formato TXT. con blog de notas.
Actualizar en nombre del archivo incluyendo el tipo. (Ejemplo: txt)
Subir el texto y almacenar en una variable
stopwords.words
Para cambiar o decirlem en que idioma esta tu data ser
stopwords.words ('English')
ESTRUCTURADOS
Filas y colunas.
Datos con schemas
Base de datos relaciones, csv, excel
Steps
tranformar datos
queremos anexar o unir datos, par aesto tienen que tener los mismo s encabezados
Es como hace Vlookup, traer el nombre por el c[odigo
.rename
df_offenses.
remname
*(columns= {"NAME": "OFFENSE_NAME", "CODE:""OFFENSE_CODE"}.inplace=true)
.inplace =true
para que lsio cambios sean permananentes
reescriba los cambios y mantenga a lo largo, no solo por ahora
limpiar datos
verfiicar si hay duplicados ordennando
.sort_values (by= )
por defecto es descendente, si queires ascending especifica
para ordenar por una sola colmna c by y directo valor.
/ si quiere s que te lo ordene por otras coasas mas, con corchetes peudes refereirte a varios
drop.duplicates
en funcion a offenss_code (se puede hacer en funciona l appellido etc)
df_offenses.drop_duplicates (subset ) [""OFFENSE_CODE], Keep= "first", inpace = true)
carga tu fuente de datos y descompuiimelo adentro
tu archivo pone un nombre o almacena en un avariable
source_file= "crime.cvs" --> este tiene que ser el mismo del archivo
mERGE
unir como Vlookup
df_crimes = df_crimes.merge (df_offenses, how = "left", on = "OFFENSE_CODE"),
CAMBIAR tiipo de dato
.to_datetime ()
df_crime ["OCURRED_ON_DATE"] = pd.to_datetime (df_crimes ["OCURRED_ON_DATE"])
.dt.strftime()
extraer solo dia/fecha etc
.dt.strftime ("%Y - %m - %d")
Tipos de datos
datos numericos
ciontinuos (tienen decimales)
edad, peso. Opciones infinitas
discretos
Opciones finitas
Datos categoricos
nominales
no existe jerarquia. Estado civil , color de ojos
otrdionales
existe un ajerarqiuoa
nivel de satisfacción
binarios
dos opciones
si/no
aprobado/reprobado