Page 1 sur 1

Crash serveur domino 8.5.2

MessagePublié: 08 Nov 2011 à 15:52
par Mick
Bonjour

Notre serveur domino 8.5.2 FP3 se plantage régulièrement le dimanche après-midi avec cette erreur :
Child terminated from signal 11

Le dimanche à 14h on lance un compact -B sur nos bases.

J'ai du mal à savoir ce qui fait planter le serveur, le log.nsf est muet de 15h24 à 18h26.

Comment solutionner cette erreur ?


Merci,

MessagePublié: 08 Nov 2011 à 17:36
par Maxime Choucroun
Peux-tu publier le fichier nsd ?
Et regarde aussi les events windows. On ne sait jamais.

MessagePublié: 08 Nov 2011 à 18:01
par Éric Viala
Quel est l'OS ? Linux ? Solaris ? AIX ? (je parie pour AIX)

Je suppose que le plantage / redémarrage n'implique que Domino et pas l'OS. Est-ce bien le cas ?

Une fois le serveur planté, quel est le statut des processus associés ? (replica, amgr etc ...)
Comment le redémarrage du serveur est-il initié et contrôlé après le plantage ?

Il existe très probablement des traces de l'incident dans les journaux du système d'exploitation. Un SYSADMIN est-il disponible pour enquêter ?

Le signal 11 étant consécutif à une erreur de segmentation :
- quelle est la fraction de mémoire allouée à la JVM ? (ce paramètre se règle quelque part dans le notes.ini, la plupart du temps il n'est pas correctement réglé et reste à une valeur par défaut très en deçà de la capacité réelle de la machine)
- le serveur héberge-t-il d'autres applications que Domino ?

Quel est le volume de données ? Le nombre de bases ?

Comment est lancé le compact -B ? Un document programme ? Quelle est la situation si cette tâche programmée est désactivée ?

Quelles sont les dernières lignes du log.nsf avant plantage ? Y-a-t-il une mention de l'activité de compact ?

Que se passe-t-il lorsque compact -B est lancé manuellement ?

Voir aussi
/local/notesdata/IBM_TECHNICAL_SUPPORT
ou équivalent
le console.log et le nsd_xxxxxxx.log contiennent des infos utiles (quoiqu'un peu âpres à déchiffrer)

Il y a fort à parier que le compact se plante (ou se "plantage", comme on voudra ;-) en traitant une base particulière. Si le nombre de bases est raisonable, il se peut qu'un fixup général (avec le commutateur adéquat, voir l'aide) suffise. Si le nombre de bases est important, il sera utile d'identifier au préalable la base corrompue.

MessagePublié: 09 Nov 2011 à 11:53
par Mick
Bonjour

Le serveur domino est installé sur un linux, il n'héberge que domino et le plantage ne concerne que domino.

Le dernier lancement d'un compact -B sur une base remonte à 15h16 et il n'y a pas de trace de fin de compactage.

Dernière ligne dans le log.nsf avant qu'il soit muet :
06/11/2011 15:27:16 Opened session for --/-- (Release 7.0.2)
06/11/2011 15:27:16 Closed session for --/-- |Databases accessed: 1 Documents read: 0 Documents written: 0


Les premières lignes quand il reparle :
06/11/2011 18:26:02 Recovery Manager: Restart Recovery complete. (32/415 databases needed full/partial recovery)
06/11/2011 18:26:10 Event Monitor started
06/11/2011 18:26:10 Begin scan of databases to be consistency checked
06/11/2011 18:26:10 End scan of databases: 1 found


Après comment savoir ce qui provoque le "mute" du serveur à 15h27 et le redémarrage à 18h26 ... (?)


Merci,

MessagePublié: 09 Nov 2011 à 15:33
par Mick
En analysant les logs, je vois donc le programme compact -B se lancer sur une base mais voir de message de fin de compact.

Dans le domino.log à 18h24 je vois que le domino continue sur la base situé juste après la base qui doit faire planter le serveur domino.


C'est une base de documents qui fait 1,2Go, je peux tenter un fixup ...


Merci,