web-dev-qa-db-fra.com

Est-ce que le thread à résoudre () de tatou est-il sûr?

Dans mon code, j'ai une boucle dans laquelle je construis et sur un système linéaire déterminé et j'essaie de le résoudre:

#pragma omp parallel for
for (int i = 0; i < n[0]+1; i++) {
    for (int j = 0; j < n[1]+1; j++) {
        for (int k = 0; k < n[2]+1; k++) {
            arma::mat A(max_points, 2);
            arma::mat y(max_points, 1);
            // initialize A and y

            arma::vec solution = solve(A,y);
        }
    }
}

Parfois, de manière tout à fait aléatoire, le programme se bloque ou les résultats dans le vecteur de solution sont NaN. Et si je mets ça:

arma::vec solution;
#pragma omp critical 
{
    solution = solve(weights*A,weights*y);
}

alors ce problème ne semble plus se produire.

Lorsqu'il se bloque, il le fait car des threads attendent à la barrière OpenMP:

Thread 2 (Thread 0x7fe4325a5700 (LWP 39839)):
#0  0x00007fe44d3c2084 in gomp_team_barrier_wait_end () from /usr/lib64/gcc-4.9.2/lib64/gcc/x86_64-redhat-linux-gnu/4.9.2/libgomp.so.1
#1  0x00007fe44d3bf8c2 in gomp_thread_start () at ../.././libgomp/team.c:118
#2  0x0000003f64607851 in start_thread () from /lib64/libpthread.so.0
#3  0x0000003f642e890d in clone () from /lib64/libc.so.6

Et les autres fils sont coincés dans Armadillo: 

Thread 1 (Thread 0x7fe44afe2e60 (LWP 39800)):
#0  0x0000003ee541f748 in dscal_ () from /usr/lib64/libblas.so.3
#1  0x00007fe44c0d3666 in dlarfp_ () from /usr/lib64/atlas/liblapack.so.3
#2  0x00007fe44c058736 in dgelq2_ () from /usr/lib64/atlas/liblapack.so.3
#3  0x00007fe44c058ad9 in dgelqf_ () from /usr/lib64/atlas/liblapack.so.3
#4  0x00007fe44c059a32 in dgels_ () from /usr/lib64/atlas/liblapack.so.3
#5  0x00007fe44f09fb3d in bool arma::auxlib::solve_ud<double, arma::Glue<arma::Mat<double>, arma::Mat<double>, arma::glue_times> >(arma::Mat<double>&, arma::Mat<double>&, arma::Base<double, arma::Glue<arma::Mat<double>, arma::Mat<double>, arma::glue_times> > const&) () at /usr/include/armadillo_bits/lapack_wrapper.hpp:677
#6  0x00007fe44f0a0f87 in arma::Col<double>::Col<arma::Glue<arma::Glue<arma::Mat<double>, arma::Mat<double>, arma::glue_times>, arma::Glue<arma::Mat<double>, arma::Mat<double>, arma::glue_times>, arma::glue_solve> >(arma::Base<double, arma::Glue<arma::Glue<arma::Mat<double>, arma::Mat<double>, arma::glue_times>, arma::Glue<arma::Mat<double>, arma::Mat<double>, arma::glue_times>, arma::glue_solve> > const&) ()
at /usr/include/armadillo_bits/glue_solve_meat.hpp:39

Comme vous pouvez le voir sur la pile, ma version d’Armadillo utilise un atlas. Et selon cet atlas de documentation, le thread-safe semble être sûr: ftp://lsec.cc.ac.cn/netlib/atlas/faq.html#tsafe

Mise à jour du 11 septembre 2015

J'ai finalement eu le temps de faire plus de tests, basés sur les suggestions de Vladimir F.

Quand je compile le tatou avec le BLAS d’ATLAS, je suis encore capable de reproduire puis de se bloquer et les NaN. Lorsqu'il se bloque, la seule chose qui change dans le stacktrace est l'appel à BLAS:

#0  0x0000003fa8054718 in ATL_dscal_xp1yp0aXbX@plt () from /usr/lib64/atlas/libatlas.so.3
#1  0x0000003fb05e7666 in dlarfp_ () from /usr/lib64/atlas/liblapack.so.3
#2  0x0000003fb0576a61 in dgeqr2_ () from /usr/lib64/atlas/liblapack.so.3
#3  0x0000003fb0576e06 in dgeqrf_ () from /usr/lib64/atlas/liblapack.so.3
#4  0x0000003fb056d7d1 in dgels_ () from /usr/lib64/atlas/liblapack.so.3
#5  0x00007ff8f3de4c34 in void arma::lapack::gels<double>(char*, int*, int*, int*, double*, int*, double*, int*, double*, int*, int*) () at /usr/include/armadillo_bits/lapack_wrapper.hpp:677
#6  0x00007ff8f3de1787 in bool arma::auxlib::solve_od<double, arma::Glue<arma::Mat<double>, arma::Mat<double>, arma::glue_times> >(arma::Mat<double>&, arma::Mat<double>&, arma::Base<double, arma::Glue<arma::Mat<double>, arma::Mat<double>, arma::glue_times> > const&) () at /usr/include/armadillo_bits/auxlib_meat.hpp:3434

En compilant sans ATLAS, uniquement avec netlib BLAS et LAPACK, j’ai pu reproduire les NaN mais pas les suspensions.

Dans les deux cas, entourant solve() avec #pragma omp critique je n'ai aucun problème

85
maxdebayser

Êtes-vous sûr que vos systèmes sont surdéterminés? solve_ud dans votre trace de pile dit le contraire. Bien que vous ayez aussi solve_od, et probablement cela n’a rien à voir avec le problème. Mais il n’ya pas de mal à comprendre pourquoi cela se produit et à le réparer si vous pensez que les systèmes devraient fonctionner normalement.

Est-ce que le thread à résoudre () de tatou est-il sûr?

Je pense que cela dépend de votre version de lapack, voir aussi this . En regardant le code de solve_od, toutes les variables consultées semblent être locales. Notez l'avertissement dans le code:

REMARQUE: la fonction dgels () de la bibliothèque lapack fournie par ATLAS 3.6 semble avoir des problèmes

Ainsi, il semble que seul lapack::gels puisse vous causer des problèmes. Si la réparation de lapack n'est pas possible, une solution consiste à empiler vos systèmes et à résoudre un seul grand système. Cela serait probablement encore plus efficace si vos systèmes individuels sont petits.

2
fireant

La sécurité des threads de la fonction solve() d’Armadillo dépend (uniquement) de la bibliothèque BLAS que vous utilisez. Les implémentations de LAPACK sont thread-safe quand BLAS est. La fonction Armadillo solve() est pas thread-safe lorsque vous vous connectez à à la bibliothèque BLAS de référence . Cependant, il est thread-safe lorsque vous utilisez OpenBLAS . De plus, ATLAS fournit une implémentation de BLAS qui indique également qu'il est thread-safe , et Intel MKL est également thread-safe , mais je n'ai aucune expérience d'Armadillo lié à ces bibliothèques. .

Bien entendu, cela ne s'applique que lorsque vous exécutez solve() à partir de plusieurs threads avec des données différentes.

0
André Offringa