import copy from collections import OrderedDict from io import StringIO import yaml import re from sigma.backends.base import SingleTextQueryBackend from sigma.parser.condition import SigmaAggregationParser, ConditionOR, ConditionAND from sigma.parser.modifiers.base import SigmaTypeModifier from sigma.parser.modifiers.type import SigmaRegularExpressionModifier SPECIAL_REGEX = re.compile("^\{(\d)+,?(\d+)?\}") class HayabusaBackend(SingleTextQueryBackend): """Base class for backends that generate one text-based expression from a Sigma rule""" # see tools.py # use this value when sigmac parse argument of "-t" identifier = "hayabusa" active = True # the following class variables define the generation and behavior of queries from a parse tree some are prefilled with default values that are quite usual # Token used for linking expressions with logical AND andToken = " and " orToken = " or " # Same for OR notToken = " not " # Same for NOT # Syntax for subexpressions, usually parenthesis around it. %s is inner expression subExpression = "(%s)" valueExpression = "%s" # Expression of values, %s represents value # Expression of typed values generated by type modifiers. modifier identifier -> expression dict, %s represents value typedValueExpression = dict() sort_condition_lists = False mapListsSpecialHandling = True name_idx = 1 selection_prefix = "SELECTION_{0}" name_2_selection = OrderedDict() def __init__(self, sigmaconfig, options): super().__init__(sigmaconfig) self.re_init() def re_init(self): self.name_idx = 1 self.name_2_selection = OrderedDict() def cleanValue(self, val): return val def generateListNode(self, node): return self.generateORNode(node) def create_new_selection(self): name = self.selection_prefix.format(self.name_idx) self.name_idx += 1 return name def generateMapItemNode(self, node): fieldname, value = node transformed_fieldname = self.fieldNameMapping(fieldname, value) if self.mapListsSpecialHandling == False and type(value) in (str, int, list) or self.mapListsSpecialHandling == True and type(value) in (str, int): name = self.create_new_selection() self.name_2_selection[name] = [ (transformed_fieldname, self.generateNode(value))] return name elif type(value) == list: return self.generateMapItemListNode(transformed_fieldname, value) elif isinstance(value, SigmaTypeModifier): return self.generateMapItemTypedNode(transformed_fieldname, value) elif value is None: # nullは正規表現で表す。これでいいのかちょっと不安 return self.generateNode((transformed_fieldname+"|re", "^$")) else: raise TypeError( "Backend does not support map values of type " + str(type(value))) def generateMapItemTypedNode(self, fieldname, value): # `|re`オプションに対応 if type(value) == SigmaRegularExpressionModifier: fieldname = fieldname + "|re" # pythonとかの正規表現では/(スラッシュ)や"(ダブルクオート)をエスケープしてもエラーが出ないが、Rustの正規表現エンジンではスラッシュやダブルクオートをエスケープするとエラーが出てしまう # そこでスラッシュやダブルクオートのエスケープは消しておく。 # あと、この実装は結構怪しいので、将来バージョンではこの実装を無くして、hayabusa側で使用する正規表現エンジンを普通のpythonとかで使われているやつに変えた方がいいと思う。 regex_value = value.value.replace('\/', '/') regex_value = regex_value.replace("\\\"", "\"") # 追加のケースとして、pythonとかの正規表現では{はエスケープ不要だが、Rustでは必要なので、それを修正するためのコード。めんどい idx = 0 prev_regex = regex_value regex_value = "" while idx < len(prev_regex): # 既にエスケープされているものはスキップする。 if prev_regex[idx:idx+2] == "\\{" or prev_regex[idx:idx+2] == "\\}": regex_value += prev_regex[idx:idx+2] idx += 2 continue ch = prev_regex[idx] # エスケープ不要な}はここに来ないように、以降の処理でidxを調整している。なのでここにくる}はエスケープが必要。 if ch == "}": regex_value += "\\}" idx += 1 continue # {じゃない場合はそのまま足すだけ if ch != "{": regex_value += ch idx += 1 continue # {の場合の処理 reg_match = SPECIAL_REGEX.match(prev_regex[idx:]) if reg_match == None: # 文字列としての{なので、エスケープ必要 regex_value += "\\{" idx += 1 else: # これは桁数を指定する{なので、エスケープ不要で}までidxをスキップ regex_value += reg_match.group() idx += len(reg_match.group()) return self.generateNode((fieldname, regex_value)) else: raise NotImplementedError( "Type modifier '{}' is not supported by backend".format(value.identifier)) def generateMapItemListNode(self, fieldname, value): # 下記のようなケースに対応 # selection: # EventID: ### - 1 ### - 2 # 基本的にリストはORと良く、generateListNodeもORNodeを生成している。 # しかし、上記のケースでgenerateListNode()を実行すると、下記のようなYAMLになってしまう。 # selection: ### EventID: 1 or 2 # 上記のようにならないように、修正している。 # なお、generateMapItemListNode()を有効にするために、self.mapListsSpecialHandling = Trueとしている if self._is_all_str(value): name = self.create_new_selection() self.name_2_selection[name] = [(fieldname, value)] return name list_values = list() for sub_node in value: list_values.append((fieldname, sub_node)) return self.subExpression % self.generateORNode(list_values) def _is_all_str(self, values): for value in values: if type(value) != str: return False return True def generateAggregation(self, agg): # python3 tools/sigmac rules/windows/process_creation/win_dnscat2_powershell_implementation.yml --config tools/config/generic/sysmon.yml --target hayabusa if agg == None: return "" if agg.aggfunc == SigmaAggregationParser.AGGFUNC_COUNT: # condition の中に "|" は1つのみ # | 以降をそのまま出力する target = '|' condition = agg.parser.parsedyaml["detection"]["condition"] # conditionはなんと複数指定されることもあるらしい!!!!! # If multiple conditions are given, they are logically linked with OR.と仕様書に書いてある。詳細はSigmaRuleの仕様を参照のこと。 # とりあえず、複数指定のconditionは未対応ということでエラーにするとして、(なお、デフォルトのbase.pyの実装で複数指定のconditionはexceptionがraiseされるので、そのような処理は追加で実装しなくてよい) # 問題となるのはagg.parser.parsedyaml["detection"]["condition"]の型 ### # 下記のように指定すると、agg.parser.parsedyaml["detection"]["condition"]の型はstringになるが ### conditon: selection1 ### # 下記のように指定すると、agg.parser.parsedyaml["detection"]["condition"]の型はlistになる # conditon: ### - selection1 ### # なのでlistのケースも想定して、下記のような実装とする。 if type(condition) == list: condition = condition[0] index = condition.find(target) return condition[index:] # count以外は対応していないので、エラーを返す raise NotImplementedError( "This rule contains aggregation operator not implemented for this backend") def generateValueNode(self, node): # このメソッドをオーバーライドしておかないとint型もstr型として扱われてしまうので、int型やint型として、str型はstr型として処理するために実装した。 # このメソッドは最悪無くてもいいような気もする。 if type(node) == int: return node else: return self.valueExpression % (self.cleanValue(str(node))) # 全部strかどうかを判定 def is_keyword_list(self, node): if type(node) != ConditionOR: return False for item in node.items: if type(item) != str: return False return True def generateANDNode(self, node): generated = list() for val in node: if type(val) == str or type(val) == int: # 普通はtupleでkeyとvalueのペアであるが、これはkeyが指定されていないケース # keyが指定されていない場合は、EventLog全体をgrep検索することになっている。(詳細はSigmaルールの仕様書を参照のこと) # 具体的には"all of"とか使うとこの分岐に来る name = self.create_new_selection() self.name_2_selection[name] = [(None, val)] generated_node = name else: # 普通はこっちにくる generated_node = self.generateNode(val) generated.append(generated_node) filtered = [g for g in generated if g is not None] if filtered: if self.sort_condition_lists: filtered = sorted(filtered) return self.andToken.join(filtered) else: return None def generateORNode(self, node): if self.is_keyword_list(node) == True: # 普通はtupleでkeyとvalueのペアであるが、これはkeyが指定されていないケース # 全てkeyが指定されていない場合はここに来る。 name = self.create_new_selection() self.name_2_selection[name] = [(None, val) for val in node] return name name = None generated = list() for val in node: # 普通はtupleでkeyとvalueのペアであるが、これはkeyが指定されていないケース if type(val) == str or type(val) == int: if name is None: name = self.create_new_selection() self.name_2_selection[name] = list() self.name_2_selection[name].append((None, val)) else: generated.append(self.generateNode(val)) if name is not None: generated.append(name) filtered = [g for g in generated if g is not None] if filtered: if self.sort_condition_lists: filtered = sorted(filtered) return self.orToken.join(filtered) else: return None def generateQuery(self, parsed): # このクラスのインスタンスは再利用されるので、内部のメンバ変数をresetする。 self.re_init() result = self.generateNode(parsed.parsedSearch) if parsed.parsedAgg: res = self.generateAggregation(parsed.parsedAgg) result += " " + res ret = "" with StringIO() as bs: # 元のyamlをいじるとこの後の処理に影響を与える可能性があるので、deepCopyする parsed_yaml = copy.deepcopy(parsed.sigmaParser.parsedyaml) # なんかタイトルは先頭に来てほしいので、そのための処理 # parsed.sigmaParser.parsedyamlがOrderedDictならこんなことしなくていい、後で別のやり方があるか調べる # 順番固定してもいいかも bs.write("title: " + parsed_yaml["title"]+"\n") bs.write("ruletype: Sigma\n") del parsed_yaml["title"] # detectionの部分をクリアする前にtimeframeだけ確保しておく。 timeframe = None if "timeframe" in parsed_yaml["detection"]: timeframe = parsed_yaml["detection"]["timeframe"] # detectionの部分だけ変更して出力する。 parsed_yaml["detection"] = {} if timeframe is not None and len(timeframe) != 0: parsed_yaml["detection"]["timeframe"] = timeframe parsed_yaml["detection"]["condition"] = result for key, values in self.name_2_selection.items(): # fieldnameの有無を確認している if values[0][0]: # 通常はfieldnameがあってその場合は連想配列で初期化 parsed_yaml["detection"][key] = {} else: # is_keyword_list() == Trueの場合だけ、ここにくる parsed_yaml["detection"][key] = [] for fieldname, value in values: if fieldname == None: ## is_keyword_list() == Trueの場合 parsed_yaml["detection"][key].append(value) else: ## is_keyword_list() == Falseの場合 parsed_yaml["detection"][key][fieldname] = value yaml.dump(parsed_yaml, bs, indent=4, default_flow_style=False) ret = bs.getvalue() ret += "---\n" return ret