web-dev-qa-db-fra.com

T-SQL - Quel est le moyen le plus efficace de parcourir une table jusqu'à ce qu'une condition soit remplie

En a obtenu une tâche de programmation dans le domaine de T-SQL.

Tâche:

  1. Les gens veulent entrer dans un ascenseur, chaque personne a un certain poids.
  2. L'ordre des personnes faisant la queue est déterminé par le tour de colonne.
  3. L'ascenseur a une capacité maximale de <= 1000 lb.
  4. Renvoyez le nom de la dernière personne qui peut entrer dans l'ascenseur avant qu'il ne devienne trop lourd!
  5. Le type de retour doit être une table

enter image description here

Question: Quelle est la façon la plus efficace de résoudre ce problème? Si le bouclage est correct, y a-t-il place à amélioration?

J'ai utilisé une boucle et # tables temporaires, voici ma solution:

set rowcount 0
-- THE SOURCE TABLE "LINE" HAS THE SAME SCHEMA AS #RESULT AND #TEMP
use Northwind
go

declare @sum int
declare @curr int
set @sum = 0
declare @id int

IF OBJECT_ID('tempdb..#temp','u') IS NOT NULL
    DROP TABLE #temp

IF OBJECT_ID('tempdb..#result','u') IS NOT NULL
    DROP TABLE #result

create table #result( 
    id int not null,
    [name] varchar(255) not null,
    weight int not null,
    turn int not null
)

create table #temp( 
    id int not null,
    [name] varchar(255) not null,
    weight int not null,
    turn int not null
)

INSERT into #temp SELECT * FROM line order by turn

 WHILE EXISTS (SELECT 1 FROM #temp)
  BEGIN
   -- Get the top record
   SELECT TOP 1 @curr =  r.weight  FROM  #temp r order by turn  
   SELECT TOP 1 @id =  r.id  FROM  #temp r order by turn

    --print @curr
    print @sum

    IF(@sum + @curr <= 1000)
    BEGIN
    print 'entering........ again'
    --print @curr
      set @sum = @sum + @curr
      --print @sum
      INSERT INTO #result SELECT * FROM  #temp where [id] = @id  --id, [name], turn
      DELETE FROM #temp WHERE id = @id
    END
     ELSE
    BEGIN    
    print 'breaaaking.-----'
      BREAK
    END 
  END

   SELECT TOP 1 [name] FROM #result r order by r.turn desc 

Voici le script de création pour la table que j'ai utilisée Northwind pour les tests:

USE [Northwind]
GO

/****** Object:  Table [dbo].[line]    Script Date: 28.05.2018 21:56:18 ******/
SET ANSI_NULLS ON
GO

SET QUOTED_IDENTIFIER ON
GO

CREATE TABLE [dbo].[line](
    [id] [int] NOT NULL,
    [name] [varchar](255) NOT NULL,
    [weight] [int] NOT NULL,
    [turn] [int] NOT NULL,
PRIMARY KEY CLUSTERED 
(
    [id] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY],
UNIQUE NONCLUSTERED 
(
    [turn] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY]
) ON [PRIMARY]

GO

ALTER TABLE [dbo].[line]  WITH CHECK ADD CHECK  (([weight]>(0)))
GO

INSERT INTO [dbo].[line]
    ([id], [name], [weight], [turn])
VALUES
    (5, 'gary', 800, 1),
    (3, 'jo', 350, 2),
    (6, 'thomas', 400, 3),
    (2, 'will', 200, 4),
    (4, 'mark', 175, 5),
    (1, 'james', 100, 6)
;
10
Legends

Vous devriez essayer d'éviter les boucles en général. Ils sont normalement moins efficaces que les solutions basées sur des ensembles ainsi que moins lisibles.

Ce qui suit devrait être assez efficace.

Encore plus si les colonnes de nom et de poids peuvent être INCLUDE- D dans l'index pour éviter les recherches de clés.

Il peut analyser l'index unique par ordre de turn et calculer le total cumulé de la colonne Weight - puis utiliser LEAD avec les mêmes critères de classement pour voir le total cumulé la ligne suivante sera.

Dès qu'il trouve la première ligne où cela dépasse 1000 ou est NULL (indiquant qu'il n'y a pas de ligne suivante), il peut arrêter l'analyse.

WITH T1
     AS (SELECT *,
                SUM(Weight) OVER (ORDER BY turn ROWS UNBOUNDED PRECEDING) AS cume_weight
         FROM   [dbo].[line]),
     T2
     AS (SELECT LEAD(cume_weight) OVER (ORDER BY turn) AS next_cume_weight,
                *
         FROM   T1)
SELECT TOP 1 name
FROM   T2
WHERE  next_cume_weight > 1000
        OR next_cume_weight IS NULL
ORDER  BY turn 

Plan d'exécution

enter image description here

En pratique, il semble lire quelques lignes avant où cela est strictement nécessaire - il semble que chaque paire d'agrégats de spoule/flux de fenêtre entraîne la lecture de deux lignes supplémentaires.

Pour les exemples de données dans la question, idéalement, il ne faudrait lire que deux lignes de l'analyse d'index, mais en réalité, il lit 6, mais ce n'est pas un problème d'efficacité significatif et il ne se dégrade pas lorsque davantage de lignes sont ajoutées au tableau cette démo )

Pour ceux qui sont intéressés par ce problème, une image avec les lignes sorties par chaque opérateur (comme le montre l'événement étendu query_trace_column_values) Est ci-dessous, les lignes sont sorties dans l'ordre row_id (À partir de 47 Pour la première ligne lue par le balayage d'index et se terminant à 113 Pour le TOP)

Cliquez sur l'image ci-dessous pour l'agrandir ou voir également la version animée pour rendre le flux plus facile à suivre .

Pause de l'animation au point où l'agrégat de flux de droite a émis sa première ligne (pour gary - turn = 1). Il semble évident qu'il attendait de recevoir sa première ligne avec un WindowCount différent (pour Jo - turn = 2). Et la bobine de fenêtre ne libère pas la première ligne "Jo" jusqu'à ce qu'elle ait lu la ligne suivante avec un turn différent (pour thomas - turn = 3)

Ainsi, le spouleur de fenêtre et l'agrégat de flux entraînent tous deux la lecture d'une ligne supplémentaire et il y en a quatre dans le plan - d'où 4 lignes supplémentaires.

enter image description here

Une explication des colonnes montrées ci-dessus suit (basée sur info ici )

  • NodeName: Index Scan, NodeId: 15, ColumnName: id colonne de la table de base couverte par l'index
  • NodeName: Index Scan, NodeId: 15, ColumnName: tournez la colonne de la table de base couverte par l'index
  • NodeName: recherche d'index cluster, NodeId: 17, ColumnName: poids colonne de la table de base récupérée à partir de la recherche
  • NodeName: recherche d'index cluster, NodeId: 17, ColumnName: nom colonne de la table de base récupérée de la recherche
  • NodeName: Segment, NodeId: 13, ColumnName: Segment1010 Renvoie 1 au début du nouveau groupe ou null sinon. Comme aucun Partition By Dans le SUM seule la première ligne obtient 1
  • NodeName: Projet de séquence, NodeId: 12, ColumnName: RowNumber1009 row_number() dans le groupe indiqué par l'indicateur Segment1010. Comme toutes les lignes sont dans le même groupe, ce sont des entiers ascendants de 1 à 6. Seraient utilisés pour filtrer les lignes de trame de droite dans des cas comme rows between 5 preceding and 2 following. (ou comme pour LEAD plus tard)
  • NodeName: Segment, NodeId: 11, ColumnName: Segment1011 Renvoie 1 au début du nouveau groupe ou null sinon. Comme aucun Partition By Dans le SUM seule la première ligne obtient 1 (Identique à Segment1010)
  • NodeName: Spool de fenêtre, NodeId: 10, ColumnName: WindowCount1012 Attribut qui regroupe les lignes appartenant à un cadre de fenêtre. Cette bobine de fenêtre utilise le cas "fast track" pour UNBOUNDED PRECEDING. Où il émet deux lignes par ligne source. Un avec les valeurs cumulées et un avec les valeurs de détail. Bien qu'il n'y ait aucune différence visible dans les lignes exposées par query_trace_column_values Je suppose que les colonnes cumulatives sont là en réalité.
  • NodeName: Stream Aggregate, NodeId: 9, ColumnName: Expr1004 Count(*) groupé par WindowCount1012 selon le plan mais en fait un nombre courant
  • NodeName: Stream Aggregate, NodeId: 9, ColumnName: Expr1005 SUM(weight) groupé par WindowCount1012 selon le plan mais en fait la somme courante du poids (c'est-à-dire cume_weight)
  • NodeName: Segment, NodeId: 7, ColumnName: Expr1002 CASE WHEN [Expr1004]=(0) THEN NULL ELSE [Expr1005] END - Je ne vois pas comment COUNT(*) peut être 0 donc sera toujours en cours d'exécution somme (cume_weight)
  • NodeName: Segment, NodeId: 7, ColumnName: Segment1013 Non partition by Sur le LEAD donc la première ligne obtient 1. Tous les autres sont nuls
  • NodeName: Projet de séquence, NodeId: 6, ColumnName: RowNumber1006 row_number() dans le groupe indiqué par l'indicateur Segment1013. Comme toutes les lignes sont dans le même groupe, il s'agit d'entiers croissants de 1 à 4
  • NodeName: Segment, NodeId: 4, ColumnName: BottomRowNumber1008 RowNumber1006 + 1 car LEAD requiert la seule ligne suivante
  • NodeName: Segment, NodeId: 4, ColumnName: TopRowNumber1007 RowNumber1006 + 1 car le LEAD requiert la seule ligne suivante
  • NodeName: Segment, NodeId: 4, ColumnName: Segment1014 Non partition by Sur le LEAD donc la première ligne obtient 1. Tous les autres sont nuls
  • NodeName: Fenêtre Spool, NodeId: 3, ColumnName: WindowCount1015 Attribut qui regroupe les lignes appartenant à un cadre de fenêtre en utilisant les numéros de ligne précédents. Le cadre de la fenêtre pour LEAD a au maximum 2 lignes (la suivante et la suivante)
  • NodeName: Stream Aggregate, NodeId: 2, ColumnName: Expr1003 LAST_VALUE([Expr1002]) pour LEAD(cume_weight)
16
Martin Smith

Tout comme une curiosité (puisque la question indique T-SQL), il est également possible de résoudre ce problème efficacement en utilisant SQLCLR.

L'idée est de lire les lignes une par une dans l'ordre turn jusqu'à ce que weight dépasse 1000 (ou nous manquons de lignes), puis de retourner la dernière name lecture.

Le code source est:

using Microsoft.SqlServer.Server;
using System.Data;
using System.Data.SqlClient;
using System.Data.SqlTypes;

public partial class UserDefinedFunctions
{
    [SqlFunction(DataAccess = DataAccessKind.Read,
        SystemDataAccess = SystemDataAccessKind.None,
        IsDeterministic = true, IsPrecise = true)]
    [return: SqlFacet(IsFixedLength = false, IsNullable = true, MaxSize = 255)]
    public static SqlString Elevator()
    {
        const string query =
            @"SELECT L.[name], L.[weight]
            FROM dbo.line AS L
            ORDER BY L.turn;";

        using (var con = new SqlConnection("context connection = true"))
        {
            con.Open();
            using (var cmd = new SqlCommand(query, con))
            {
                var rdr = cmd.ExecuteReader(CommandBehavior.SingleResult);
                var name = SqlString.Null;
                var total = 0;

                while (rdr.Read() && (total += rdr.GetInt32(1)) <= 1000)
                {
                    name = rdr.GetSqlString(0);
                }
                return name;
            }
        }
    }
}

La fonction Assembly et T-SQL compilée:

CREATE Assembly Elevator AUTHORIZATION [dbo]
FROM 
WITH PERMISSION_SET = SAFE;
GO
CREATE FUNCTION dbo.Elevator ()
RETURNS nvarchar(255)
AS EXTERNAL NAME Elevator.UserDefinedFunctions.Elevator;

Obtenir le résultat:

SELECT dbo.Elevator();
6
Paul White 9

Légère variation par rapport à solution de Martin Smith

SELECT top 1 name
FROM (
    SELECT id, name, weight, turn
         , SUM(weight) OVER (ORDER BY turn) AS cumulative_weight
    FROM line                               
) as T
WHERE cumulative_weight <= 1000
ORDER BY turn DESC 

RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW est le cadre de fenêtre par défaut, donc je ne l'ai pas déclaré.

Un prédicat pour le poids cumulé actuel est utilisé à la place du poids cumulé suivant.

Je n'ai vérifié aucun plan, donc je ne peux pas dire s'il y a une différence à cet égard.

1
Lennart

Vous pouvez faire une jointure contre elle-même:

select 
    a.id, a.turn, a.game, 
    coalesce(sum(b.weight), 0) as cumulative_weight
from
    table a
left join 
    table b
on
    a.turn > b.turn
group by
    a.id, a.turn, a.game ;

Ce genre de chose n'est pas très efficace car il provoque une sélection par ligne. Mais au moins, il est exprimé en une seule déclaration.

Si vous n'avez pas à le faire entièrement en SQL, vous pouvez simplement sélectionner toutes les lignes et les parcourir, en les additionnant au fur et à mesure.

Vous pouvez également faire de même dans une procédure stockée sans la table temporaire. Maintenez simplement la somme et le nom de la dernière ligne dans une variable.

0
Ewan