ALPHANET: Problèmes

Introduction

Le but de ce document est de lister les problèmes connus, les pannes et la maintenance annoncée. Nous utilisons aussi un système de gestion automatisé de tickets, (rt.alphanet.ch), non accessible au public.

Nous avons historisé les anciens problèmes.

Avis de maintenance de wiki.alphanet.ch.

Arrêts d'exploitation planifiés

Date quoi
(à planifier) Ajout ventilateur(s) et/ou heatsinks (RT#1487) ds-03

Problèmes en cours

Date quoi
2022-07-13 Problème RAM, voir RT#1147, work-around en place

Informations

Date quoi
mars 2020 la liaison de secours init7 passe maintenant par du FTTS Swisscom, débit max possible 250/50, actuellement environ 150/50, un débit plus élevé que 100/50 nécessite le changement de l'alix en apu2 et du modem pour G.fast
2020-05-14 liaison principale UPC passe de 250/25 à 1000/100
2020-06-25 mise à jour modem init7, bon délai, meilleur débit ~ 160 MBit/s / 57 MBit/s
2020-07-11 mise à jour de virtual à buster
2020-07-28 - 2020-07-29 mise à jour shakotay à buster (tous services)
2020-11-06 Routage de 193.72.186.0/24 via init7, qui est plus performant qu'UPC pour ce VPN: de plus cela nous permet un véritable load-balancing et haute disponibilité sur quelques services (web notamment)
2020-12-04 Ajouté dans spamassassin: SPF, DKIM et DMARC
2021-11-20 Activation du work-around SPF dans mes mailing-lists et celle de P. C., information des ml-admins
2022-02-25 Activation du blocage SPF & DMARC pour quelques domaines historiques utilisés par les spammeurs
2022-07-13 Changement câble téléphonique à Chalet 4, distance passe à 167 m, débits 373/82; mesuré 24.6 MByte/s et 9.1 MByte/s
2022-08-05 18h-22h test RAM et divers maintenance (RT#1147, #1122)
2022-08-18 13h30-15h30 coupure courant pour introduction Chalet 4 (groupe-e m'a téléphoné un peu tard); finalement aucun downtime à part le WiFi? Chaumont, grâce à la batterie solaire RT#1152
2022-12-30 passage au trunk sipcall et suppression de quelques numéros obsolètes
2023-10-17 Changement de la SSH Host Key de shakotay (login.alphanet.ch), les nouveaux hash sont:
RSA: 2048 SHA256:d4+58lUzg3zdRACKUaYG3Re7hQb/ODNaGHWNvXq2A/k
ECDSA: 256 SHA256:Qv3gqtRmexyU5m0YRPYtUMjHW0aG8X0+xgiVWsdphWU
ED25519: 256 SHA256:J7cddNn+v6TM4UIkVRXKB3vG4nRYVJ6FgTpJh0db6BQ
2023-11-12 Migration irc.alphanet.ch sur DS
2023-12-28 Migration wiki
2024-02-12 Migration de plusieurs sites générés via Publish Foswiki sur DS (ajout let's encrypt, enlevé noindex et simplification problèmes charset)
2024-02-17 Mise à jour du kernel virtual de 4.19.0-25-amd64 #1 SMP Debian 4.19.289-2 (2023-08-08) à linux-image-4.19.0-26-amd64 4.19.304-1
2024-02-24 Arrêt de git.alphanet.ch pour mise à jour vers nouveau concept ALPHANET-DS, casse aussi gitweb (RT#1287); remise en marche du Git vers 14h, remise en marche git.alphanet.ch web et gitweb à 16h45
2024-03-02 Migration de ds.alphanet.ch/www.ds.alphanet.ch sur nouveau concept ALPHANET-DS (services.cust.ds.alphanet.ch). Pris un peu plus de temps que prévu en raison des caches DNS chez Let's Encrypt
2024-03-13 Passage de 70% à 60% pour block-abusers (ipset fw)
2024-03-16 Mise à jour virtual
2024-06-28 Activation de PostgreSQL, RT, Mailman3et Asterisk sur DS et désactivation sur shakotay -- sauf PostgreSQL encore utilisé
2024-07-01 Mise à jour de shakotay pour les services restants (mail, anti-spam, cron, sqwebmail, SSH)
2024-08-17 Limites d'envoi via authentification SASL SMTP Postfix: 50 par heure, 200 par jour. Limite potentiellement les dégâts en cas de piratage d'un compte (RT#1415).
2024-10-23 Activé UCEprotect (RBL SMTP, RT#1498)

Problèmes et changements récents (résolus)

Date quoi
2020-08-06 14h-14h20 mise à jour firmware modem UPC suite aux problèmes relevés avec OpenVPN? UDP (cf RT#912), semble corriger le problème
2020-08-08 redémarrage virtual pour derniers tests liés à la mise à jour
2020-08-06 Depuis à mise à jour de virtual à buster, les I/O ne sont plus aussi fluides qu'avant. Le scheduler CFQ n'existe plus et le défaut semble être un scheduler plus agressif orienté desktop. Divers work-arounds sont en cours de test (p.ex. utilisation du scheduler I/O BFQ, limitation des tailles I/O écriture), voir RT#911 semblent avoir montré leur efficacité maintenant.
2020-10-03 - 2020-10-09 Problème UDP Cablecom: à la fois pour les deux VPNs et pour Jitsi. Basculement VPN-SNN sur init7 en attendant. Réouvert RT#912. Problème semble corrigé le 2020-10-09 15h15 par changement de fw modem.
2020-10-23 Changement de modem UPC, en espérant que cela corrige le problème de pertes de paquets UDP découvert depuis le 2020-10-03 (deux VPN, VoIP, Jitsi). Voir RT#912. A l'air de marcher.
2020-10-26 23:00 - 00:00 Panne UPC
2020-12-09 23:00 - 2020-12-10 08:00 Problème certificat SNN pour 193.72.186.0/24, mis dans RT le prochain changement en 2022
2020-12-10 machine bloquée, beaucoup d'I/O, sync+reboot nécessaire; est-ce lié aux dernières màj? ou problème mod_perl sur 103, voir RT#951, désormais mise en place limitation cyclique Apache 103/104 et limite dure mémoire sur conteneurs
2020-12-19 mise à jour du kernel de 4.19.0-10-amd64 à 13; test clé USB boot; recâblage électrique
2020-12-25 Reconfiguration Ethernet / VLAN / 10GBit en fin d'après-midi (RT#900)
2021-01-15 (soir), 2021-01-17 (après-midi) Investigations des problèmes de redémarrage systemd RT#956, plusieurs redémarrages nécessaires. Semble OK
2021-01-31 bl.spamcop.net plus valable, remis en mars avec surveillance automatique, voire RT#966
2021-04-20 Panne net2000 7h20-8h30 environ (ampli en panne dans la région), re-panne autour de 8h47, remarche à 8h53, replanté à 9h13, ok à 9h15
2021-05-07 Panne init7 17h-17h51
2021-05-07 20:06-20:24 Mise à jour kernel virtual, redémarrage de tous les services
2021-07-09 11:02-11:28 Mise à jour kernel virtual à -17, pas vraiment nouveau microcode 0x21, redémarrage de tous les services
2021-09-02 UPS plus beaucoup de capacité (RT#646)
2021-09-24 11:30 Changement certificat SSL https et IMAP/POP/SMTP cf RT#711
2021-09-24 soir changement enclosure disque bruyant
2021-09-18 IDS un peu trop sensible aux erreurs naturelles auth/basic Apache2, tentative d'amélioration (RT#1024); semble mieux
2021-09-24 midi ou début d'après-midi ajout ventilateur: effectué, en test, OK
2021-10-15 17h15-17h30 Mise à jour kernel, suppression LED ventilateurs, ajout câble série (RT#1033)
2021-11-20 17:35 Arrêt intempestif à cause test UPS (vide), cf RT#646
2021-11-24 reboot intempestif de tout en raison coupure de courant et UPS en panne
2021-11-25 16h20-16h40 changement UPS, arrêt virtual pour tests
2021-12-15 Activé SPF, DKIM et DMARC (en mode soft, sur lists.alphanet.ch et alphanet.ch), en raison des problèmes d'envoi de notifications de mailing-lists, de mailing-lists et du test de ping gmail, semble corrigé
2022-01-21 Reboot virtual
2022-02-05 13h30-14h15 remplacement CMOS battery et reconfig BIOS (notamment AHCI) et test ventilateur CPU (RT#1052)
2022-07-13 10h11-10h57 mise à jour kernel et microcode, tests RAM (RT#1147) et tests ou résolution problème bridge/fw RT#1100
2022-10-09 infomaniak exclu du greylisting, car plusieurs serveurs en sortie et un test a montré qu'avec delay=300 (5 minutes), ça devient plutôt 1 heure
2022-10-09 7h59-10h30 arrêt pour cause indéterminée serveur virtual, diagnostic en cours; quelques améliorations effectuées (RT#1191)
2022-09-16 ~22:30 - Annonce de route 193.72.186.0/24 pas faite, quelques services inatteignables (DS), quelques services se connectent lentement une fois sur 2, cf RT#1178. Le problème semble être lié au routeur de SNN qui n'accepte plus les connexions BGP TCP/179 en v4 (v6 ok). Work-around en place à 11:15 et fonctionnel à 11:17.
2023-01-07 15:00-15h:20 Redémarrage après mise à jour à -23
2023-02-10 réduction taille fs shakotay (downtime)
2023-06-10 12:15-12:25 arrêt bref virtual pour nettoyage et test état de démarrage via commande
2023-08-04 12:40-12:45 redémarrage nouveau kernel virtual
2023-08-04 Tombé dans liste anti-spam DNSRBL en raison spam via mainteneur de mailing-list: nettoyé, ajouté règle postfix, appris spamassassin, voir aussi RT#1294. Résolu après 2-3 jours.
2023-08-16 12:20-12h24 redémarrage nouveau kernel virtual
2023-08-18 11:00 changement certificat HTTPS/POP3S/IMAPS/SMTPS (passage à Infomaniak pour 2 ans, avec reissue en 2024), RT#711
2023-09-02 11:45 redémarrage pour nouveau microcode
2023-12-29 15:35 application work-around pour https://www.postfix.org/smtp-smuggling.html (RT#1382, https://nvd.nist.gov/vuln/detail/CVE-2023-51764)
2024-04-17 21:00 suspension temporaire 193.72.186.0/24 (ALPHANET-DS) -- mises à jour SNN
2024-05-10 10:30 redémarrage pour nouveau kernel
2024-06-18 14:40-14:50 redémarrage pour nouveau kernel
2024-08-19 19:40-19:50 redémarrage pour nouveau kernel
2024-08-27 16:45 problème électrique/branchement, virtual crash; R1 rebuilding
2024-08-27 17h-18:45 liaison UPC non active (nouveau modem ne s'active pas), système en mode dégradé; remise en place ancien modem, situation revient à la normale
2024-08-29 17h-18h30 Arrêt de ds-03 (asterisk, fail2ban, mailman, rt, psql) pour dm-integrity layered (RT#1435)
2024-08-30 10h07-10h17 Remplacement modem UPC Business
2024-09-20 10h-10h45 Redémarrage DS et virtual pour changement kernel et microcodes. Durant l'arrêt, changé UPS (RT#646) et adapté configurations. Recâblé. Le problème de la prise de virtual est en fait une fiche qui s'enlève facilement, tenté de faire mieux. Application work-around Asterisk et tests.
2024-09-20 16:20-16:50 Déplacement DS /data sur RAID et dm-integrit (RT#1473).
2024-10-23 16:00 Redémarrage DS, puis virtual un peu plus tard (RT#1493) -- nouveaux kernels et Docker

 
info@alphanet.ch - Copyright © 1997-2009 - ALPHANET / Marc SCHAEFER