У вас бывало такое, что задержка на критическом пути сервиса периодически прыгает на 100−1000% — при полностью изолированном ядре и отсутствии большой нагрузки? У нас недавно такая ситуация произошла в production. Для ее решения нужно было систематически перебрать возможные причины — от SMI и TLB shootdown до writeback’а dirty pages — подтвердить каждую гипотезу через hardware counters и трейсинг, и убрать всё, что можно убрать. Часть причин оказалась устранима конфигурацией, часть потребовала изменений в коде, а часть — фундаментальные ограничения железа, которые пришлось обходить другими способами.
Если это звучит как: «Это то, чем мне бы хотелось заниматься», — эта вакансия для вас.
Мы строим торговую инфраструктуру для высокочастотного трейдинга (HFT): большую систему, которая должна работать стабильно с минимальной latency в критические моменты под нагрузкой в 10x от обычной. Для этого мы используем собственный user-space сетевой стек, sub-microsecond IPC, оптимизированные форматы данных и многое другое.
Мы ищем Senior C++ SWE, который сможет решать задачи на уровне всей системы: видеть весь путь данных от Ethernet frame до исполненной сделки и находить в нем узкие места, которые другие не замечают.