FUNDAMENTOS DE ARQUITECTURA DE GOOGLE Y AMAZON

Laura Alejandra Montañez

Arquitectura Google

Arquitectura de Google

Stefany Alexandra Barrera

Características de Arquitectura de Google

Arge Niño

Arquitectura AWS (Amazon Web Services)


imagen

Daniel Lagos

Madeleine Daniela Fonseca
Existen varias capas en la arquitectura de Amazon EMRPDF

Arquitectura de Google

Yulieth Huérfano

CAPA I: Almacenamiento Son los sistemas de archivos utilizados con el clúster.

Cloud-Delivery-Models

✅Enorme capacidad de procesamiento

✅El uso de clusters

¿Que es?🤔


Son servicios de computación en la nube pública que en conjunto forman una plataforma de computación accesible

Descripcion general de la Arquitectura
(Amazon)

✅Presencia de centro de datos en diferentes puntos geográficos

Esta compuesta de varias capas y cada una de las cuales proporciona determinadas capacidades y funcionalidad al clúster

Categorías de los servidores de Google

Funcionalidad 🛠 infraestructura de cómputo, almacenamiento y bases de datos hasta nuevas tecnologías como aprendizaje automático e IA, lagos de datos y análisis e internet de las cosas

STORAGE La capa de almacenamiento incluye los diferentes sistemas de archivos que se utilizan con el clúster.

Los distribuidores de carga

Los servidores proxy

Los servidores web

click to edit

Los servidores de recolección

Servicios de Google en android

STORAGE: Incluye los diferentes sistemas de archivos que se utilizan con el clúster. Existen varios tipos de opciones de almacenamiento:

Los servidores de índices

  • La búsqueda se enfoca en el promedio de usuarios.
  • Construir un sistema que se use sin problemas.
  • Diseñada para guardar todos los documentos que se estén rastreado.
  • Velocidad de búsqueda muy rápido, y sus resultados son muy relevantes.

Los servidores de documentos

Red global de regiones 🌐
AWS tiene la infraestructura en la nube más amplia del mundo.


imagen

JUAN B. Servicios de Gogle en android

Arquitectura de servicios web de Amazon AWS EC2

🚩 Búscador de Google

Hadoop Distributed -File -System (HDFS): Es un sistema de archivos distribuido y escalable para Hadoop. Distribuye los datos que almacena en instancias en el clúster, almacenando varias copias de datos en distintas instancias para garantizar que no se pierdan si llega a fallar una instancia individual.

Almacenamiento Google Cloud

🚩 You tube

Servidores en el clúster de Google

  • Los servidores índice: divididos en fragmentos.
  • Los servidores de documentos: Contienen copias caché de las paginas Web.
  • Los servidores correctores de deletreo: "Quiso decir ..."
  • Los servidores AdWords: Muestran los enlaces patrocinados

🚩 Google Chrome

Características ⚙

🚩 Google Play Store

Administración eficiente de relaciones y datos :

Administración de esquemas flexible

Arq Google Caracteristicas

Servidores
Hay 4 tipos de servidores en el clúster de Google, situados en paralelo del servidor Web:
✅Los servidores índice:Están divididos en fragmentos (por ejemplo, uno apunta a todo lo que comienza con la letra 'a'), y devuelve al servidor Web una lista con las IDs de documentos donde aparece una determinada palabra. ✅Los servidores de documentos:Contienen las copias caché de las páginas Web que se rastrean, el código HTML plano de los documentos está disponible en los almacenes de Google.:
✅Los servidores correctores de deletreo:Son los que nos muestran el mensaje "Quiso decir: ...".
✅Los servidores AdWords:Muestran los enlaces patrocinados.

Operación de los Servidores
✅La mayoría de operaciones son de solo lectura; cuando se necesita una actualización de datos, las consultas se envían a otros servidores, para simplificar los problemas de consistencia.
✅Las consultas se dividen en subconsultas, cada una de ellas se envía por diferentes canales en paralelo, reduciendo así el tiempo de latencia.

Aceptan la peticion del cliente

Infraestructura completamente administrada

Realizar búsquedas en objetos y relaciones

luego la reenvían a uno de los servidores de web de Google

Cifrado de datos incorporado

Sistema de archivos de EMR(EMRFS*): Con este sistema Amazon EMR amplia Hadoop para añadir la posibilidad de acceder directamente los datos almacenados en Amazon S3 como si fueran un sistema de archivos como HDFS.

✅ Un millón de aplicaciones

Políticas de objetos

Aceptan la petición del cliente

Pero no la reenvían a los servidores web de Google

Sergio Quintana

La arquitectura de Google está diseñada para guardar todos los documentos que se encuentren en el rastreo.

Envía peticiones a servidores índices

Sistema de archivos local: Se refiere a un disco conectado a nivel local. Cuando se crea un clúster de Hadoop, cada nodo se crea a partir de una instancia de Amazon EC2 que viene con un bloque preconfigurado de almacenamiento en disco pread junto llamado un almacén de instancias.

Arquitectura de amazon

Caracteristicas

También pregunta posibles sugerencias a los servidores de ortografia

✅ Rapido

  • Beneficios de la informática en la nube
  • Métodos y herramientas de seguridad
  • Ventajas económicas
  • Opciones de almacenamiento

✅ Facilidad de uso

finalmente obtiene una lista de anuncios del servidor de publicidad

Para jerarquizar sus páginas utiliza diversos factores tales como modelo vectorial, texto de anchors, Page Rank.

ADMINISTRACION DE RECURSOS EN CLUSTER: Esta es responsable de la administración de los recursos de clúster y de la programación de trabajos para procesamientos de datos.

Actualizan el índice

¿en qué consiste?

También actualizan las bases de datos de documentos con las páginas web que se van encontrando

buscar lo que necesitan en la Web

Uso de máquinas virtuales de diferentes configuraciones según las necesidades de los usuarios

Actualmente el ser servidor Web que utilizan es personalizado, llamado Google Web Server (GWS) en la versión 2.1, aunque se sospecha que es el servidor Apache modificado

Devuelven una lista de id's de documentos

✅ Para que los documentos que se identifican contengan la palabra que el usuario está buscando.

MARCOS DE PROCESAMIENTO DE DATOS:Es el motor que se utiliza para procesare y analizar datos. Existen bastantes que se ejecutan en YARN o que tienen su propia administración de recursos.

permite que los usuarios ahorren hasta un 50 % de los datos

✅ navegaciòn de forma rápida

✅ Los id's son denominados "docid"

Hardware, computadores personales (x86) que usan una version personalizada de Linux.

PageRank, método sofisticado para asignar importancia a cada pagina.

✅ Los servidores de documentos sirven para almacenar los documentos

Hadoop MapReduce: Es un modelo de programación de código abierto para informática distribuida. Este simplifica el proceso de escritura de aplicaciones distribuidas en paralelo mediante el tratamiento de toda la lógica, mientras proporciona las funciones Map y Reduce.

Permite ver Videos

✅ : Cada documento se almacena en docenas de servidores de documentos.

✅Uno de los factores más importantes además de la alta calidad y facilidad de las búsquedas es el PageRank, un método sofisticado para asignar la importancia a cada documento de la Word Wide Web.
✅Para calcular el valor del PageRank, Google utiliza la teoría de grafos, mediante una matriz de 30 billones de nodos. Cada uno de estos nodos tiene 10 arcos (o aristas) diferentes.

Arquitectura_de_Google

click to edit

Hay 4 tipos de servidores en el clúster de Google, situados en
paralelo del servidor Web:

Computación en la nube

Servidores de documentos: Contienen las copias caché de las páginas Web que se rastrean, el código HTML plano de los documentos está disponible en los almacenes de Google.

Servidores correctores de deletreo: Son los que nos muestran el mensaje "Quiso decir:..."

Servidores índice: Se dividen en fragmentos y devuelve al servidor Web una lista con las IDs de documentos donde aparece una determinada palabra.

Servidores AdWords: Muestran los enlaces patrocinados

Apache Spark: Es un marco de trabajo de clúster y un modelo de programación para el procesamiento de cargas de trabajo de big data. Al igual que Hadoop MapReduce, Spark es un sistema de procesamiento distribuido de código abierto, pero utiliza gráficos acíclicos dirigidos para planes de ejecución y el almacenamiento e caché en memoria para conjunto de datos.

Permite

click to edit

  • Amplio acceso a la red
  • Elasticidad y rapidez
  • Servicio supervisado
  • Autoservicio a la carta

Equilibrio de carga

click to edit

✅ Toda esta necesidad de interacción con el usuario promedio, presenta un nuevo objetivo que debe ser alcanzado:

✅Construir un sistema que la mayoría de las personas puedan utilizar sin problemas.

✅La arquitectura de Google está diseñada para guardar todos los documentos que se encuentren en el rastreo.

Google Cloud te permite almacenar datos de tu proyecto para que puedas migrar tus maquinas virtuales (VM), esto te ayudara a ahorrar tiempo y dinero.

Wilson Jaimes

APLICACIONES Y PROGRAMAS:Amazon EMR admite muchas aplicaciones, tales como Hive, Pig, y la biblioteca Spark Streaming para ofrecer capacidades como el uso de lenguajes de nivel superior para crear cargas de trabajo de procesamiento de flujos y la creación de almacenes de datos.

✅El avance en los motores de búsqueda en google sedebe enfocar en poner entre las primeras diez páginas lo que el usuario promedio está buscando.

Los ad servers

Gestionan la publicidad de los servicios AdWords y AdSense.

AdSense

Santiago Rodriguez Caceres

Uno de los productos de la red
de publicidad en línea de Google

Arquitectura de Google

AdWords

Crawlers, rastreo de datos de los servidores web, con el fin de indexar la información que existe.

se utiliza para ofrecer publicidad
patrocinada a potenciales anunciantes.

Karen Gabriela Piñeros

Servidor de almacenamiento, comprime y almacena las paginas descargadas por los crawlers

Google Cloud

  • Migrate for Compute Engine Manager en Google Cloud administra todos los componentes y organiza las migraciones. También entrega la IU de Migrate for Compute Engine.


  • Las extensiones de Cloud manejan las migraciones de almacenamiento y entregan datos a las cargas de trabajo mientras se migran. Una extensión de Cloud es un par de nodos de Cloud Edge.


  • Migrate for Compute Engine Exporter crea discos persistentes de Google Cloud cuando se desconectan los discos.

Repositorio, lugar físico en el que se almacenan documentos comprimidos por el servidor, asignando un número designado docID

Indexador

  • Realiza el parsing, se convierte en un conunto de hits
  • Extrae información importante de lo links de cada documento.

Amazon Cloud-Front

Mejora la eficiencia tanto del servidor como de la aplicación

Modelos de implementación

Nube publica, se comparte espacio con otros usuarios.

Es responsable de entregar el contenido, es decir, entregar el sitio web, el contenido puede ser: estático, dinámico o continuo

Nube privada, útil para el despliegue de una aplicación definitiva

click to edit

Hardware Google tiene muchos sitios Web indexados y los cálculos los hace en poco tiempo (generalmente 1 segundo). El cálculo ronda un gasto de 250 millones de dólares en hardware: Entre 45.000 y 80.000 servidores, 69.000 las máquinas y 539 racks.

Nube hibrida, no se comparte con otros usuarios.

Ana Mendoza

Nube comunitaria, para organizaciones con una misión común

Elastic Load Balancer

Se utiliza para distribuir el tráfico a los servidores web, lo que mejora el rendimiento.

✅ producir el contenido en cualquier dispositivo.

Administración de seguridad

Firewall de red entrante, en el que necesita especificar los protocolos, puertos y rangos de direcciones IP de origen que pueden llegar a sus instancias

Local

  • El dispositivo virtual de backend local de Migrate for Compute Engine entrega datos de VMware a la extensión de Cloud.
  • El complemento de vCenter para Migrate for Compute Engine conecta vCenter vSphere con Migrate for Compute Engine Manager.

click to edit

Google se está consolidando a grandes pasos como el

preferido para realizar búsquedas.

 Sus principales ventajas se deben a que es muy rápido, y sus

resultados son relevantes y bastante bien ordenados.

 Para jerarquizar sus páginas utiliza diversos factores tales

como modelo vectorial, texto de anchors, Page Rank.

Topología de Red Se estima que Google mantiene más de 45.000 servidores, ordenandos en racks de clusters en varias ciudades del mundo. Cada cluster tiene miles de servidores y los racks están hechos a medida y pueden contener entre 40 y 80 servidores.

Elastic Caches

Servicio web que administra la memoria cache en la nube.

✅ la mayor colección de libros electrónicos del mundo

migrate-computeengine-architecture-1-2x

✅ millones de canciones

Amazon RDS

✅ miles de películas

Amazon RDS (Servicio de base de data relacional) ofrece un acceso similar al del motor de base de data MySQL

Auto Scaling

AWS puede escalar dinámicamente

Arquitectura

Una arquitectura típica de implementación de Migrate for Compute Engine consta de dos partes:

Centro de datos corporativo que ejecuta vSphere.

Una Cloud VPN o Cloud Interconnect que se conecta a una nube privada virtual de Google Cloud.

La arquitectura de Google está diseñada para guardar todos los documentos que se encuentren en el rastreo.

Sus principales ventajas se deben a que es muy rápido, y sus resultados son relevantes y bastante bien ordenados.

Para jerarquizar sus páginas utiliza diversos factores tales como modelo vectorial, texto de anchors, Page Rank.

Google indexa más de 3 mil millones de páginas Web, aunque ofrecen más resultados gracias a los “rastreos profundos”.

Hay varios “rastreadores” (crawlers):

El general (una vez al mes), que busca en la mayoría de la WWW

El Fresh, que rastrea en las páginas que se actualizan frecuentemente

El de noticias, que rastrea cada 10 minutos

Esta cuenta con varios tipos de almacenamiento como lo son

ARQUITECTURA AMAZON

click to edit

SEGURIDAD EN AMAZON EMR

✅La seguridad en la nube de AWS es la mayor prioridad.
Como cliente de AWS, se beneficiará de una arquitectura de red y un centro de datos diseñados para satisfacer los requisitos de seguridad de las organizaciones más exigentes.

✅La seguridad es una responsabilidad compartida entre AWS y usted. El modelo de responsabilidad compartidala describe como seguridad de la nube y seguridad en la nube::
✅Seguridad de la nubeAWS es responsable de proteger la infraestructura que ejecuta AWSServicios deAWS
✅La nube AWSTambién le proporciona servicios que puede utilizar de forma segura. Auditores externos prueban y verifican periódicamente la eficacia de nuestra seguridad en el marco de los programas de conformidad de AWS

Protección de los datos

image

Para fines de protección de datos, recomendamos proteger las credenciales de cuenta de AWS y configurar cuentas de usuari individuales con AWS Identity and Access Management. De estamanera,solo se otorgan a cada usuario los permisos necesarios para cumplir con sus obligaciones laborales.

Utilice Multi-Factor Authentication (MFA) con cada cuenta.

Utilice TLS para comunicarse con los recursos de AWS. Necesitamos TLS 1.2.

Configure la API y el registro de actividad del usuario con AWS CloudTrail.

Utilice las soluciones de cifrado de AWS, junto con todos los controles de seguridad
predeterminados dentro de los servicios de AWS.

Componentes
🖊Hadoop Distributed File System (HDFS)
🖊 Sistema de archivos de EMR (EMRFS)
🖊 Sistema de archivos local

CAPA II: Administración de recursos de clúster Además de administrar los recursos de clúster, programa trabajos para procesamiento de datos.

Amazon Amazon EMR

Componentes
🖊 Yet Another Resource Negotiator

CAPA III: Marcos de procesamiento de datos
Motor que se utiliza para procesar y analizar datos

Componentes 🖊 Hadoop MapReduce
🖊 Apache Spark

KAROL MELISSA VELASCO

AMAZON

Storage
La capa de almacenamiento incluye los diferentes sistemas de archivos que se utilizan con el clúster. Existen varios tipos distintos de opciones de almacenamiento como se indica a continuación.

Marcos de procesamiento de datos
La capa de marco de trabajo de procesamiento de datos es el motor que se utiliza para procesar y analizar datos. Existen muchos marcos de trabajo disponibles que se ejecutan en YARN o que tienen su propia administración de recursos. Los distintos marcos están disponibles para los diferentes tipos de necesidades de procesamiento tales como lotes, interactivo, en memoria, streaming, etc. El marco de trabajo que elija depende de su caso de uso. Esto afecta a los lenguajes y a los interfaces disponibles desde la capa de aplicación, que es la capa que se utiliza para interactuar con los datos que desea procesar. Los principales marcos de procesamiento disponibles para Amazon EMR son Hadoop MapReduce y Spark.

click to edit

Administración de recursos de clúster
La capa de administración de recursos es responsable de la administración de los recursos de clúster y de la programación de trabajos para procesamiento de datos.

Sistema de archivos de EMR (EMRFS)
Con el sistema de archivos de EMR (EMRFS), Amazon EMR amplía Hadoop para añadir la posibilidad de acceder directamente a los datos almacenados en Amazon S3 como si fueran un sistema de archivos como HDFS.

Sistema de archivos local
El sistema de archivos local se refiere a un disco conectado a nivel local.

Administración de recursos de clúster
La capa de administración de recursos es responsable de la administración de los recursos de clúster y de la programación de trabajos para procesamiento de datos.

Marcos de procesamiento de datos La capa de marco de trabajo de procesamiento de datos es el motor que se utiliza para procesar y analizar datos. Existen muchos marcos de trabajo disponibles que se ejecutan en YARN o que tienen su propia administración de recursos.

Hadoop MapReduce
Hadoop MapReduce es un modelo de programación de código abierto para informática distribuida. Simplifica el proceso de escritura de aplicaciones distribuidas en paralelo mediante el tratamiento de toda la lógica, mientras proporciona las funciones Map y Reduce.

Apache Spark
Spark es un marco de trabajo de clúster y un modelo de programación para el procesamiento de cargas de trabajo de big data.

Aplicaciones y programas
Amazon EMR admite muchas aplicaciones, tales como Hive, Pig, y la biblioteca Spark Streaming para ofrecer capacidades como el uso de lenguajes de nivel superior para crear cargas de trabajo de procesamiento, el uso de algoritmos de aprendizaje automático, el desarrollo de aplicaciones de procesamiento de flujos y la creación de almacenes de datos.

Cristian Plazas

En agosto de 2020, un informe de Gartner nombró tanto a Google como a Amazon en un grupo de 5 proveedores de infraestructura de nube pública que constituyen el 80% del mercado de IaaS. Una tendencia que solo va a continuar cuando ambas organizaciones se dupliquen para consolidar su posición en el mercado.


Como en cualquier industria, un puñado de compañías se elevan por encima del resto para convertirse en líderes del mercado. Cuando pensamos en los proveedores de computación en la nube, hay tres nombres que encabezan la lista: Google Cloud Platform, Amazon Web Services y Microsoft Azure.

Ambos proveedores nos aportan soluciones para cualquier tipo de necesidad que tengamos y estructuran su oferta de una forma muy pareja. Existen diferencias en la manera de facturar, Amazon lo hace por horas, mientras que Google lo hace por minutos y, además, ofrece descuentos por uso continuado. Por esto, aunque ambos tienen un rendimiento similar, Google es, a día de hoy, la opción más económica.

La categorización de las instancias que hace Google es bastante simple, tienen instancias normales e instancias preemptible. La diferencia es que las preemptible son mucho más baratas porque no están reservadas para nuestro uso, como máximo podemos usarlas durante 24 horas y, si por necesidades de carga fueran necesarias, Google nos las podría quitar antes.

Beanstalk posiblemente no será el servicio más conocido ni el más utilizado de AWS, pero permite el uso de un conjunto de lenguajes muy amplio: Java, .NET, PHP, Node.js, Python, Ruby, Go.

click to edit