710 likes | 935 Views
Código: HOL-SQL28. Microsoft SQL Server 2008 Ajuste del rendimiento. Ruben Alonso Cebrián ralonso@informatica64.com. Agenda. Ajuste de rendimiento a nivel de servidor. Sistemas de disco Memoria. Actividad de entrada y salida. Ajuste de SMP Ajustes de rendimiento a nivel físico
E N D
Código: HOL-SQL28 Microsoft SQL Server 2008Ajuste del rendimiento Ruben Alonso Cebrián ralonso@informatica64.com
Agenda Ajuste de rendimiento a nivel de servidor • Sistemas de disco • Memoria Actividad de entrada y salida • Ajuste de SMP • Ajustes de rendimiento a nivel físico • Gestión de datos e indización • Operaciones de Indexación en paralelo • Optimización de espacio libre y gestión de páginas Ajustes de rendimiento a nivel lógico • Particiones • Vistas indizadas • Ordenación de datos • Dmv Reports
Agenda Herramientas de supervisión y diagnóstico de rendimiento • Identificación de cuellos de botella • Configuración del entorno de supervisión • Monitorización del rendimiento • Analizador • Asesor de optimización de base de datos Alta disponibilidad • Arquitectura en Cluster • Mirroring de Base de datos • Log Shipping • Nuevas funcionalidades de optimización • Guías de planes gráficos • Regulador de recursos • Recolección de datos
Factores que afectan al Rendimiento Factores que afectan al rendimiento de Microsoft SQL Server 2008: • Configuración de SQL Server 2008 • Modelo físico de datos • Modelo lógico de datos • Instrucciones SQL
Configuración de Microsoft SQL Server 2008 • Objetivo: Mejora del rendimiento a través de las propiedades de configuración del servidor SQL Server 2008. • Sistema gestor definido como "autoajustable", ya que ajusta dinámicamente su configuración en función de la actividad y el uso de los recursos • Se pueden tomar decisiones que pueden mejorar enormemente el rendimiento a nivel de instalación y configuración: • Sistemas de disco • Memoria • Actividad de E/S • Ajuste de SMP
Sistemas de disco Cada base de datos en su propio subsistema de disco externo, siendo recomendable ejecutar todos los entornos en sistemas RAID Se obtiene: Mejora de rendimiento en operaciones de lectura y escritura de datos Tolerancia a errores Se evita: Posibles perdidas de datos producidas por error de hardware Tres niveles RAID: RAID 0 RAID 1 RAID 5
Sistemas de disco • RAID 0: • Divide los datos de manera uniforme entre las unidades físicas. • Cada volumen distribuido se llama almacenamiento o conjunto de bandas. • No protege contra errores de hardware, aunque puede mejorar enormemente el rendimiento de las operaciones de lectura y escritura. • RAID 1: • Denominado comúnmente reflejo de disco • Escribe datos en dos unidades. • Protege contra errores de hardware mediante la creación de dos duplicados exactos de los datos, uno en cada partición del conjunto de espejos. • RAID 10: • Es el más común en entornos de bases de datos • Compuesto por una combinación de RAID 0 y 1. (conocido como RAID 10 o RAID0/1).
Sistemas de disco RAID 5: Denominado comúnmente bandas de disco con paridad. Distribuye los datos de manera uniforme entre tres o más discos de la misma forma que RAID 0. Tolerancia a errores implementada mediante el cálculo de la información de recuperación acerca de los datos escritos en el disco. (Mediante paridad) Esta información de recuperación (paridad) se distribuye de forma equitativa entre todos los discos participantes, de manera que, si se produce un error en un disco, los datos se pueden reconstruir a partir de la información de paridad contenida en los demás miembros del conjunto de bandas. Protege contra errores en una unidad de disco, pero reduce el rendimiento de las operaciones de escritura
Sistemas de disco • Para un rendimiento óptimo se recomienda que: • Los siguientes archivos de Microsoft SQL Server se dividan en diferentes conjuntos de almacenamiento: • Archivos de registro de transacciones • Archivos tempdb • Archivos de datos • Archivos de índice • Los archivos de registro de transacciones y tempdb se coloquen en RAID 0/1, en lugar de en RAID 5debido a la disminución del rendimiento provocada por el aumento de la velocidad de las operaciones de E/S de escritura
Memoria MEMORIA Estructuras de datos de sistema Caché de registro Caché de búfer de datos Caché de procedimientos Contexto de conexión Comportamiento: Por defecto, Microsoft SQL Server 2008 asigna toda la memoria física disponible en el servidor, pero deja al sistema operativo suficientes recursos para evitar una paginación excesiva Configurado para asignar y liberar memoria de forma automática y dinámica para cada de las áreas de memoria, según sea necesario para obtener un rendimiento óptimo
Memoria Configuración manual mediante ejecución de código Transact/sql: sp_configure.sp_configure "show advancedoptions", 1go Reconfigure sp_configure "min server memory", 32go
Memoria • Dynamic AWE memory • Posibilidades de expansión de la memoria más allá del espacio de memoria virtual configurado
Memoria • Hot-addmemory • Si el hardware soporta esta funcionalidad , puede añadirse memoria al servidor sin reiniciar • Configuración automática • Enterprise y Datacenter edition con la opción awe enabled configurada y el modificador –h
Actividad de E/S • Intentar reducir en la medida de lo posible la actividad de E/S que se produce principalmente por: • Operaciones de escritura en los registros de transacciones debido a la creación de registros • Operaciones de lectura o escritura en los archivos de datos o de índice que se originan a partir de solicitudes que no se pueden satisfacer en la caché de datos • En diversa actividad de disco como consecuencia del comportamiento del sistema SQL Server, por ejemplo, la ordenación de datos en el disco o la ejecución periódica de puntos de comprobación.
Actividad de E/S • Para controlar el rendimiento de e/s Microsoft SQL Server dispone de los parámetros: • Recovery interval (intervalo de recuperación) Número mínimo de minutos que SQL Server necesita para recuperar las bases de datos. • Max async io (nº máx. de operaciones asincrónicas de E/S) Número máximo de solicitudes de E/S pendientes por archivo • Recoveryinterval: • Establecido en un minuto aproximadamente, mediante este parámetro se modifican los puntos de comprobación • Ventaja : Reduce la actividad de E/S que se produce como resultado del vaciado de la caché • Inconveniente: Aumento del tiempo de recuperación.
Actividad de E/S Max async io: Establecido a 32 solicitudes de E/S pendientes a un archivo como máximo. Mejora del rendimiento de E/S aprovechando las solicitudes de E/S asincrónicas que SQL Server envía a Windows 2000 y la controladora de disco Aceptable para controladoras de disco no muy sofisticadas Posibilidad de aumentar para controladoras de disco inteligentes, reduciendo el movimiento de los cabezales del disco. • Modificación de los parámetros mediante el código Transact-SQL: • sp_configure "max async IO", <valor>GoReconfigureGo • Para modificar la frecuencia de puntos de comprobación: • sp_configure "recovery interval", <valor>GoReconfigurego
Ajuste de SMP (Symmetric Multiprocessor Machine) • Mejora del rendimiento mediante varias CPUS • Tecnología de alta escalabilidad • Microsoft SQL Server utiliza varios subprocesos para dividir las tareas entre las distintas CPU • Cada uno de los subprocesos se ejecuta en una CPU independiente • Ejemplo de rendimiento obtenido: Consultas en paralelo dividiendo determinadas consultas entre los subprocesos para recorrer las tablas • Obtención de porcentaje de aciertos en la cache del 98% • Para su configuración, se dispone de los siguientes parámetros: • affinity mask • max worker threads • max degree of parallelism • cost of threshold for parallelism
Ajuste de SMP (Symmetric Multiprocessor Machine) Affinity mask: Indica el número de CPU’s a utilizar. Un valor de 0 permite a SQL Server utilizar todas las disponibles. Max worker threads: Indica el número máximo de subprocesos (por defecto 0). Para un número mayor de subprocesos, Microsoft SQL Server 2005 utiliza el agrupamiento de los mismos si hay más de 255 conexiones simultáneas. Max degree of parallelism: determina el número máximo de subprocesos asignados a una consulta Cost of threshold for parallelism: determina el uso o no del proceso en paralelo comparándolo con los costes normales de la ejecución de una consulta sin ejecución en paralelo
Modelo físico de datos de la base de datos • Objetivo: Ganancia de rendimiento mediante un buen diseño del almacenamiento físico para los objetos de la base de datos • Implementado mediante grupos de archivos para distribuir los datos de tablas o índices entre los discos • Relleno proporcional para aquellos grupos de archivos con más de un fichero • Para un correcto modelo físico se deben tener en cuenta los siguientes factores: • Número de grupos de archivos que se deben crear. • Número de archivos de datos que se deben crear. • Número de archivos de datos por cada grupo de archivos. • En qué conjunto de almacenamiento (o disco) debe colocarse cada archivo de datos • En qué grupo de archivos debe colocarse cada objeto de base de datos (como una tabla o índice)
Modelo físico de datos de la base de datos • Recomendaciones para un alto rendimiento: • Utilizar diversos grupos de archivos para colocar objetos en discos físicos específicos. • Crear uno o varios grupos de archivos secundarios para archivos adicionales y configurar uno de ellos como predeterminado. • Utilizar el grupo de archivos principal para contener sólo las tablas del sistema. • Utilizar grupos de archivos para distribuir los datos entre tantos discos como sea posible. • Si en la aplicación hay una zona a la que se tiene acceso con mucha frecuencia, considerar la posibilidad de colocarla en un disco aparte. • Separar los datos que se recorren de forma secuencial de aquéllos a los que se tiene acceso de forma directa (mediante un índice). • Separar los índices no agrupados de los datos de las tablas..
Modelo físico de datos de la base de datos • Para agregar un grupo de archivos y un archivo adicional a una base de datos de aplicación existente, utilice el comando ALTER DATABASE. • Ejemplo: creación de un segundo grupo de archivos para la base de datos Adventureworks: • alter databaseAdventureworksadd file group secundario • A continuación procedemos a la adición de un archivo de datos al nuevo grupo de archivos • Alter databaseAdventureworksadd file( name = 'nombreDeArchivoLogico', filename = 'c:\Archivos de programa\Microsoft SQL Server\MSSQL\ DATA\nombreDeArchivoFisico.NDF', SIZE= tamañoRequerido) to file group secundario • Por ultimo, podríamos crear un objeto y asociarlo a un grupo específico: • Createtable Pruebas on secundario
Gestión de datos e Indización Dos métodos de acceso a los datos: • Recorrido secuencial de toda la tabla • Uso de índices para búsqueda directa de datos Dos estrategias de índices diferentes: • Índices Agrupados • Índices No agrupados Creación de índices planeada con mucho cuidado El exceso de índices puede producir: 1º- Que el optimizador emplee demasiado tiempo en la creación y evaluación de los posibles planes de ejecución 2º- Disminución del rendimiento de escritura
Gestión de datos e Indización Índice Agrupado: Mejoran el rendimiento al almacenar los datos de la tabla junto con datos de nivel de hoja del índice. Esto significa que cuando SQL Server 2008 lee la entrada de un nodo de hoja de índice agrupado, lee al mismo tiempo la fila de datos de la tabla. Sólo puede haber un índice agrupado por tabla El índice agrupado no se puede separar en diferentes grupos de archivos de los datos de la tabla. Índice No agrupado: Sólo se almacena un identificador único (identificador de fila) en el nivel de hoja. En consecuencia, con los índices no agrupados es preciso realizar operaciones de E/S adicionales para recuperar los datos de la tabla.
Gestión de datos e Indización ¡¡ Ojo !!: La desventaja de un índice agrupado cuando cohabitan en una tabla un índice agrupado y uno no agrupado. Comportamiento Interno: El índice no agrupado no apunta directamente a la fila de la tabla, sino que utiliza los valores del índice agrupado como punteros a las filas de la tabla. En consecuencia, las operaciones de lectura que recorren un índice no agrupado tienen que descender primero por el árbol B del índice no agrupado. Tras encontrar el valor en el nivel de hoja, tienen que descender por el árbol B del índice agrupado. Además, la actualización de las columnas con índices agrupados provoca movimientos de filas, porque las filas actualizadas deben colocarse según el orden del índice agrupado.
Gestión de datos e Indización • Cuando crear Índices Agrupados: • Consultas que requieren resultados ordenados o resultados intermedios ordenados, por ejemplo, las operaciones de combinación. • Consultas que recuperan uno o varios intervalos estables. Estas consultas suelen contener el predicado BETWEEN en la cláusula WHERE • Cuando crear Índices No agrupados: • En columnas para las consultas que están restringidas en el predicado WHERE y tengan una selectividad alta.
Optimización de espacio libre y gestión de páginas • Datos almacenados en dos tipos de objetos de base de datos: tablas e índices. • Las tablas almacenan los datos en estructuras de memoria secuenciales ordenadas o sin ordenar. • La estructura sin ordenar se llama tabla de montón y la estructura ordenada se denomina tabla agrupada. • Diferencia principal entre ambas estructuras: • Las filas de las tablas de montón se almacenan en secuencia aleatoria, mientras que las filas de las tablas agrupadas se ordenan según las columnas del índice agrupado. • Consecuencia: la colocación de una nueva fila en una tabla agrupada se calcula durante la operación de inserción mediante el valor de índice y la fila se almacena en la página correspondiente. • Si la tabla y sus índices crecen en el futuro, existe el riesgo de que las páginas se dividan y se reequilibre el árbol B.
Optimización de espacio libre y gestión de páginas • La división de páginas puede influir desfavorablemente en el rendimiento de E/S. • Para controlar la división de páginas en Microsoft SQL Server existen dos parámetros:
Optimización de espacio libre y gestión de páginas Configuración manual mediante ejecución de código CREATE TABLE(….) [WITH FILLFACTOR = valor] [ON grupoArchivos] Los índices no agrupados se crean con la siguiente instrucción T-SQL: CREATE [UNIQUE] INDEX nombreIndice ON nombreTabla (nombreColumna,..) [PAD_INDEX] [WITH FILLFACTOR = valor] [ON grupoArchivos] Los índices agrupados se crean con la siguiente instrucción T-SQL: CREATE [UNIQUE] CLUSTERED INDEX nombreIndice ON nombreTabla (nombreColumna,..) [PAD_INDEX] [WITH FILLFACTOR = valor] [ON grupoArchivos]
Nivel Lógico Objetivo: Mejora del rendimiento a través de una buena estructuración de los datos de forma lógica mediante tablas y relaciones. Gran repercusión en el rendimiento a través de: • Particiones • Vistas indizadas • Instrucciones SQL • Ordenación de datos
Particiones • Permite a una tabla extenderse en varios grupos físicos de archivos • Resultados • Aumento del rendimiento en entornos multiprocesador con 8 o más procesadores, ejecución en paralelo. • Facilidad de manejo de grandes tablas • Transparente a la aplicación • La fila es la unidad de particionado
Particiones • Método para dividir los datos de las tablas y de los índices • Dos tipos de particiones: • - Verticales: Debidas al proceso de normalización • - Horizontales: Proceso de división de un gran número de filas en varias tablas llamadas particiones teniendo todas las tablas (particiones) la misma estructura • Particiones horizontales utilizadas para: • 1º- Distribuir los datos entre grupos de archivos físicos diferentes en una misma base de datos, con lo que se reduce la competición por los recursos. • 2º- Distribuir los datos entre varios servidores, con lo que se escala la base de datos para mejorar la simultaneidad.
Vistas Indizadas Definición: Vista creada a partir de una vista normal mediante la aplicación de un índice agrupado único para la vista. A continuación, el conjunto de datos especificado se almacena como una agrupación o una estructura de memoria ordenada. Después de crear el índice agrupado, se pueden aplicar otros índices no agrupados en el almacenamiento. Uso de vistas indizadas en: 1º- Aplicaciones que realizan muchas operaciones de lectura. 2º- En el caso de que las instrucciones SELECT recuperen un conjunto de resultados que sea un agregado, lo que incluye la realización de sumas u otros cálculos en una o varias tablas diferentes.
Vistas Indizadas No se recomienda su uso en: 1º- Aplicaciones que realizan muchas operaciones de escritura o actualizaciones. 2º- Consultas que no incluyan agregaciones ni combinaciones Proceso de creación de vistas indizadas: 1º- Creación de una vista con la opción SCHEMABINDING. Esta opción no permite cambios en el esquema de ninguno de los objetos subyacentes que participan en la vista materializada. No se puede crear un índice en una vista sin utilizar esta opción. 2º- Creación de un índice agrupado único en la vista. La vista se materializa en este punto. 3º- Si se desea, creación de otros índices no agrupados en la vista.
Vistas Indizadas El optimizador utiliza una vista indizada si: 1º- Encuentra una coincidencia entre las columnas indizadas de la vista y los elementos de la consulta como: - Predicados de condiciones de búsqueda en la clausula where. - Operaciones de combinación - Funciones de agregado 2º- El costo estimado de utilización del índice es el más bajo de los mecanismos de acceso realizados por el optimizador.
Instrucciones SQL • Ganancia de rendimiento mediante una correcta codificación de instrucciones t-sql • Dos formas de proceder: • Acceso a base de datos orientado a registros • Acceso a base de datos orientado a conjuntos • T-SQL no Ortogonal • Se puede obtener el mismo conjunto de registros de diferentes formas: • Ejemplo: • * Subconsulta sin correlación • select od.ord_id, od.ord_it_name, od.amount from orders od where cust_id NOT IN (select cust_id from revenue) • * Subconsulta con correlación • select od.ord_id, od.ord_it_name, od.amount from orders od where NOT EXISTS (select rv.cust_id from orders od, revenue rv where od.cust_id = rv.cust_id) • * Combinación externa • SELECT od.ord_id, od.ord_it_name, od.amount from orders od LEFT OUTER JOIN revenue rv ON od.cust_id = rv.cust_id WHERE rv.cust_id is NULL
Instrucciones SQL Recuperar sólo la información necesario y nunca datos de más de la cuenta Agregar, quitar o modificar índices Utilizar siempre que se puedan Procedimientos almacenados en vez de consultas Analizar el plan de ejecución de los procesos Argumentos de búsqueda: partes del query que acotan las búsquedas (los índices deberían estar armados para ayudarnos en esto !). =, >, <, >=, <=, BETWEEN, LIKE, IN Los operadores lógicos AND y OR agrupan argumentos de búsqueda. No se consideran argumentos de búsqueda: - Comparaciones entre columnas: Total > Presupuesto - Cálculos: Subtotal * 1.7
Instrucciones SQL Búsqueda de JOINs en la consulta Microsoft recomienda no utilizar la cláusula WHERE; si, en cambio, usar ON. SELECT Apellido, Nombre FROM Clientes, Cuentas WHERE Clientes.Cliente_ID = Cuentas.Cliente_ID AND Cuentas.Nivel = ‘VIP’ T-SQL SELECT Apellido, Nombre FROM Clientes INNER JOIN Cuentas ON Clientes.Cliente_ID = Cuentas.Cliente_ID WHERE Cuentas.Nivel = ‘VIP’ ANSI
Instrucciones SQL Utilizar Procedimientos almacenados siempre que se pueda El código ya esta chequeado, normalizado y optimizado Usar sp_recompile si el código del SP se modifica Emplear los triggers con cautela (tanto INSTEAD OF como AFTER) Evitar el uso de cursores Usar OLE DB para acceder a datos (evitar ODBC si se puede) Si se testea su validez, utilizar hints para indicar mandatos al optimizador
Ordenaciones de datos • Ganancia de rendimiento a través de una correcta ordenación de los datos • Filas ordenadas y procesadas de forma estricta mediante la cláusula ORDER BY. • DISTINCT y UNION requieren un orden para quitar los valores duplicados. • Si no se especifica un orden, las filas se seleccionan según su colocación física en el disco y la estrategia de acceso elegida en el motor de consultas, por lo que entrará en juego si existen o no índices agrupados o no agrupados. • Los índices de cobertura no requieren ordenamiento (Create Index xxx on Tabla(campo1, campo2, campo3, campon)
DMV Reports • Utilice las vistas de gestión dinámicas (Dynamic Management Views) para explorar y optimizar SQL Server 2008. • Con DMV accederá a las partes internas del motor de SQL Server y conociendo como utilizar e interpretar la información que ofrece y que es clave para entender y gestionar su entorno SQL Server 2008
Identificación de cuellos de botella Proceso por el cual se identifican las funciones o instrucciones importantes que son responsables del exceso de carga. Recogida y análisis de información identificando los factores que puedan intervenir en el cuello de botella. Determinadas preguntas pueden ayudar en el proceso de identificación: 1º- ¿Cuáles son las tareas más frecuentes (llamadas de usuarios finales, llamadas de interfaz, llamadas del sistema, etcétera)? 2º- ¿Cuáles son las funciones críticas con respecto al tiempo transcurrido (por ejemplo, la selección de datos en diferentes tablas que rellenan un cuadro de diálogo para el usuario final)? 3º-¿Cuáles son las funciones más importantes (tarea principal de la aplicación)? 4º-¿Cuáles son las funciones que consumen más recursos (funciones que son muy complejas con respecto al algoritmo implementado)?
Identificación de cuellos de botella El rendimiento global de un sistema se puede definir por el tiempo transcurrido en un caso de uso determinado o un caso de prueba Seguimiento del rendimiento global y supervisión del sistema mediante tres herramientas: 1º- Monitor de rendimiento de SQL 2º- Analizador SQL 3º- SQL Management Studio
Monitor de Rendimiento Utilizado para medir la actividad de la CPU, la actividad de E/S y el uso de la memoria. Identificación de cuellos de botella mediante contadores predefinidos: Contador % de tiempo de usuario del objeto Procesador (Uso de CPU) Si permanece de forma continua en un nivel igual o superior al 80 por ciento, existe un cuello de botella en la CPU. Algunas razones posibles del cuello de botella son: Número y tipo de instrucciones SQL Número y tipo de operaciones de combinación Número de operaciones de ordenación
Monitor de Rendimiento • Contadores a controlar y supervisar: • 1º -Contador para la supervisión de la actividad en disco: • Contador de transferencias de disco por segundo del objeto Disco físico. • 2º- Contador para controlar la caché de datos (aspecto más importante de SQL Server 2008). El contador predefinido que se indica a encuentran en la caché de datos, en lugar de leerse del disco: • Contador Proporción de aciertos de caché del búfer del objeto Administrador de búfer. • Se recomienda que la proporción de aciertos de caché sea superior al 95 por ciento.