3 years ago · ed2e2d13de
--- a/compton_combiner.py
+++ b/compton_combiner.py
@@ -244,8 +244,73 @@ def __estimate_point_with_closest(comb_df: pd.DataFrame, runs_df: pd.DataFrame,
 
															         'used_lum': 0, 
														
 
															         'comment': 'indirect measurement #2',
														
 
															     }, pd.DataFrame([])
														
 
															+
														
 
															+def averager_on_lums(df: pd.DataFrame) -> dict:
														
 
															+    """Averaging as <E> = \frac{\sum{L_i E_i}{\sum{L_i}}, 
														
 
															+    \deltaE^2 = \frac{\sum{(L_i \delta E_i)^2}}{(\sum L_i)^2}
														
 
															+    
														
 
															+    Attention: I think it's incorrect way of avaraging.
														
 
															+    
														
 
															+    Parameters
														
 
															+    ----------
														
 
															+    df : pd.DataFrame
														
 
															+        input dataframe containg means and spreads
														
 
															+        
														
 
															+    Returns
														
 
															+    -------
														
 
															+    dict
														
 
															+        averaged mean and spread
														
 
															+    """
														
 
															+    
														
 
															+    mean_en = (df.e_mean * df.luminosity).sum() / df.luminosity.sum()
														
 
															+    sys_err = df.e_mean.std()
														
 
															+    stat_err = np.sqrt( np.sum((df.luminosity * df.e_std)**2) ) / df.luminosity.sum()
														
 
															+    
														
 
															+    mean_spread = (df.spread_mean * df.luminosity).sum() / df.luminosity.sum()
														
 
															+    std_spread = np.sqrt( np.sum((df.luminosity * df.spread_std)**2) ) / df.luminosity.sum()
														
 
															+        
														
 
															+    return {
														
 
															+        'mean_energy': mean_en, 
														
 
															+        'mean_energy_stat_err': stat_err, 
														
 
															+        'mean_energy_sys_err': sys_err, 
														
 
															+        'mean_spread': mean_spread,
														
 
															+        'mean_spread_stat_err': std_spread,
														
 
															+    }
														
 
															+
														
 
															+def ultimate_averager(df: pd.DataFrame) -> dict:
														
 
															+    """Complete averager for estimation of mean energy and energy spread
														
 
															+    
														
 
															+    Parameters
														
 
															+    ----------
														
 
															+    df : pd.DataFrame
														
 
															+        input dataframe containing means and spreads
														
 
															+        
														
 
															+    Returns
														
 
															+    -------
														
 
															+    dict
														
 
															+        averaged mean and spread
														
 
															+    """
														
 
															+    
														
 
															+    m = Minuit(Likelihood(df.e_mean, df.e_std, df.luminosity), mean=df.e_mean.mean(), sigma=df.e_mean.std(ddof=0))
														
 
															+    m.errordef = 0.5 
														
 
															+    m.limits['sigma'] = (0, None)
														
 
															+    m.migrad();
														
 
															+    # print(m.migrad())
														
 
															+    sys_err = m.values['sigma']
														
 
															+    mean_en = m.values['mean']
														
 
															+    
														
 
															+    mean_spread = np.sum(df.spread_mean*df.luminosity/(df.spread_std**2))/np.sum(df.luminosity/(df.spread_std**2))
														
 
															+    std_spread = np.sqrt(1/np.sum((df.luminosity/df.luminosity.mean())/df.spread_std**2))
														
 
															+    return {
														
 
															+        'mean_energy': mean_en, 
														
 
															+        'mean_energy_stat_err': m.errors['mean'], 
														
 
															+        'mean_energy_sys_err': sys_err, 
														
 
															+        'mean_spread': mean_spread,
														
 
															+        'mean_spread_stat_err': std_spread,
														
 
															+    }
														
 
															+
														
 
															-def calculate_point(comb_df: pd.DataFrame, runs_df: pd.DataFrame, compton_df: pd.DataFrame, rdb) -> dict:
														
 
															+def calculate_point(comb_df: pd.DataFrame, runs_df: pd.DataFrame, compton_df: pd.DataFrame, rdb, averager: callable = ultimate_averager) -> dict:
														
 
															     """Calculates parameters of the energy (mean, std, spread) in this dataFrame
														
 
															     Parameters
														
@@ -256,6 +321,8 @@ def calculate_point(comb_df: pd.DataFrame, runs_df: pd.DataFrame, compton_df: pd
 
															         table of the runs
														
 
															     compton_df : pd.DataFrame
														
 
															         table of the comptons
														
 
															+    averager : callable
														
 
															+        function for averaging (ultimate_averager or averager_on_lums)
														
 
															     Returns
														
 
															     -------
														
@@ -314,42 +381,32 @@ def calculate_point(comb_df: pd.DataFrame, runs_df: pd.DataFrame, compton_df: pd
 
															     df = comb_df.loc[~comb_df.compton_start.isna()].copy()
														
 
															-    # df.spread_mean = np.where(df.spread_mean < 1e-3, 1e-3, df.spread_mean)
														
 
															     df.spread_std = np.where(df.spread_std < 1e-4, 1e-4, df.spread_std)
														
 
															     df = df[df.e_std > 0]
														
 
															     mean_energy = np.sum(df.e_mean*df.luminosity/(df.e_std**2))/np.sum(df.luminosity/(df.e_std**2))
														
 
															-    # std_energy = np.sqrt(1/np.sum((df.luminosity/df.luminosity.mean())/df.e_std**2))
														
 
															     good_criterion = np.abs((df.e_mean - mean_energy)/np.sqrt(df.e_mean.std(ddof=0)**2 + df.e_std**2)) < 5
														
 
															-    # print('vals', np.abs((df.e_mean - mean_energy)/np.sqrt(df.e_mean.std()**2 + df.e_std**2)) )
														
 
															-    # print(df[~good_criterion].elabel.value_counts())
														
 
															     df = df[good_criterion]
														
 
															-    m = Minuit(Likelihood(df.e_mean, df.e_std, df.luminosity), mean=df.e_mean.mean(), sigma=df.e_mean.std(ddof=0))
														
 
															-    m.errordef = 0.5 
														
 
															-    m.limits['sigma'] = (0, None)
														
 
															-    m.migrad();
														
 
															-    # print(m.migrad())
														
 
															-    sys_err = m.values['sigma']
														
 
															-    mean_en = m.values['mean']
														
 
															-    
														
 
															-    mean_spread = np.sum(df.spread_mean*df.luminosity/(df.spread_std**2))/np.sum(df.luminosity/(df.spread_std**2))
														
 
															-    std_spread = np.sqrt(1/np.sum((df.luminosity/df.luminosity.mean())/df.spread_std**2))
														
 
															+    averages = averager(df)
														
 
															     res_dict = {
														
 
															         'energy_point': comb_df.elabel.min(), 
														
 
															         'first_run': comb_df.run_first.min(),
														
 
															         'last_run': comb_df.run_last.max(), 
														
 
															-        'mean_energy': mean_en, 
														
 
															-        'mean_energy_stat_err': m.errors['mean'], 
														
 
															-        'mean_energy_sys_err': sys_err, 
														
 
															-        'mean_spread': mean_spread,
														
 
															-        'mean_spread_stat_err': std_spread, 
														
 
															+        'mean_energy': averages['mean_energy'], 
														
 
															+        'mean_energy_stat_err': averages['mean_energy_stat_err'], 
														
 
															+        'mean_energy_sys_err': averages['mean_energy_sys_err'], 
														
 
															+        'mean_spread': averages['mean_spread'],
														
 
															+        'mean_spread_stat_err': averages['mean_spread_stat_err'], 
														
 
															         'used_lum': df.luminosity.sum()/comb_df.luminosity_total.sum(), 
														
 
															         'comment': '',
														
 
															     }
														
 
															-    return res_dict, df
														
 
															+    
														
 
															+    comb_df['accepted'] = 0
														
 
															+    comb_df.loc[df.index, 'accepted'] = 1
														
 
															+    return res_dict, comb_df
														
 
															 def process_intersected_compton_meas(combined_df: pd.DataFrame) -> pd.DataFrame:
														
 
															     """Replaces compton measurements writed on the border of two energy points on NaNs
														
@@ -361,16 +418,15 @@ def process_intersected_compton_meas(combined_df: pd.DataFrame) -> pd.DataFrame:
 
															     df_comb = combined_df.set_index('point_idx').join(energy_point_borders, how='left')
														
 
															     df_comb['comptonmeas_in_elabel'] = (df_comb[['elabel_stop_time', 'compton_stop']].min(axis=1) - df_comb[['elabel_start_time', 'compton_start']].max(axis=1))/(df_comb['compton_stop'] - df_comb['compton_start'])
														
 
															-    #print(df_comb['comptonmeas_in_elabel'].dropna().sort_values())
														
 
															+    
														
 
															     df_comb = df_comb.query('comptonmeas_in_elabel < 0.7')
														
 
															     border_comptons = df_comb.compton_start.values
														
 
															-    #print(combined_df.compton_start.isin(border_comptons).sum())
														
 
															-    #print(combined_df.loc[combined_df.compton_start.isin(border_comptons)].elabel.value_counts())
														
 
															-    combined_df.loc[combined_df.compton_start.isin(border_comptons), ['compton_start', 'compton_stop', 'e_mean', 'e_std', 'spread_mean', 'spread_std']] = np.nan
														
 
															+    combined_df.loc[combined_df.compton_start.isin(border_comptons), 
														
 
															+                    ['compton_start', 'compton_stop', 'e_mean', 'e_std', 'spread_mean', 'spread_std', 'luminosity']] = np.nan
														
 
															     return combined_df
														
 
															-def process_combined(combined_df: pd.DataFrame, runs_df: pd.DataFrame, compton_df: pd.DataFrame, pics_folder: Optional[str] = None, rdb: Optional[RunsDBHandler] = None) -> pd.DataFrame:
														
 
															+def process_combined(combined_df: pd.DataFrame, runs_df: pd.DataFrame, compton_df: pd.DataFrame, pics_folder: Optional[str] = None, rdb: Optional[RunsDBHandler] = None, old_averager: bool = False, energy_point_csv_folder: Optional[str] = None) -> pd.DataFrame:
														
 
															     if pics_folder is not None:
														
 
															         plt.ioff()
														
@@ -383,12 +439,14 @@ def process_combined(combined_df: pd.DataFrame, runs_df: pd.DataFrame, compton_d
 
															         formatter.offset_formats = ['', '%Y', '%b %Y', '%d %b %Y', '%d %b %Y', '%d %b %Y %H:%M', ]
														
 
															     runs_df = runs_df.rename({'luminosity': 'luminosity_full', 'energy': 'elabel'}, axis=1)
														
 
															+    
														
 
															     combined_df = pd.merge(combined_df.drop(['elabel'], axis=1), runs_df[['run', 'elabel', 'luminosity_full']], how='outer')
														
 
															     combined_df = combined_df.sort_values(by='run')
														
 
															-    combined_df['luminosity'] = combined_df['luminosity'].fillna(0)
														
 
															-    
														
 
															+        
														
 
															     combined_df['point_idx'] = np.cumsum(~np.isclose(combined_df.elabel, combined_df.elabel.shift(1), atol=1e-4))
														
 
															     combined_df = process_intersected_compton_meas(combined_df)
														
 
															+    combined_df['luminosity'] = combined_df['luminosity'].fillna(0)
														
 
															+    # combined_df.to_csv('file.csv')
														
 
															     combined_df = combined_df.groupby(['point_idx', 'compton_start'], dropna=False).agg(
														
 
															         elabel=('elabel', 'min'), elabel_test=('elabel', 'max'),
														
@@ -406,9 +464,16 @@ def process_combined(combined_df: pd.DataFrame, runs_df: pd.DataFrame, compton_d
 
															     for i, table in tqdm(combined_df.groupby('point_idx', dropna=False)):
														
 
															         try:
														
 
															-            res_dict, good_df = calculate_point(table, runs_df, compton_df, rdb)
														
 
															+            res_dict, good_df = calculate_point(table, runs_df, compton_df, rdb, averager_on_lums if old_averager else ultimate_averager)
														
 
															+            
														
 
															+            if energy_point_csv_folder is not None:
														
 
															+                save_columns = ['elabel', 'run_first', 'run_last', 'luminosity', 'compton_start', 'compton_stop', 'e_mean', 'e_std', 'spread_mean', 'spread_std', 'accepted']
														
 
															+                save_csv(good_df[save_columns].dropna(), f'{energy_point_csv_folder}/{res_dict["energy_point"]}_{res_dict["first_run"]}.csv', update_current=False)
														
 
															+            
														
 
															+            good_df = good_df.query('accepted==1')
														
 
															         except Exception:
														
 
															             continue
														
 
															+            
														
 
															         result_df = result_df.append(res_dict, ignore_index=True)
														
 
															         if pics_folder is not None:
														
@@ -475,7 +540,9 @@ def main():
 
															     parser.add_argument('--csv_dir', help = 'Save csv file with data in the folder or not if skip it')
														
 
															     parser.add_argument('--clbrdb', action = 'store_true', help = 'Update Compton_run_avg clbrdb or not')
														
 
															     parser.add_argument('--pics_folder', help = 'Path to the directory for saving the pictures')
														
 
															+    parser.add_argument('--energy_point_csv_folder', help = 'Path to the directory for saving the result in detail for each energy point')
														
 
															     parser.add_argument('--only_last', action = 'store_true', help = 'Compute values of the last (in Compton_run_avg clbrdb) and new points only')
														
 
															+    parser.add_argument('--old_averaging', action = 'store_true', help = 'Use old incomplete <E> = \frac{\sum{L_i E_i}{\sum{L_i}} averaging')
														
 
															     args = parser.parse_args()
														
 
															     # logging.info(f"Arguments: season: {args.season}, config {args.config}")
														
@@ -508,7 +575,7 @@ def main():
 
															     compton_df = pd.DataFrame(res_clbrdb[0], columns=res_clbrdb[1])
														
 
															-    cdf = process_combined(comb_df, runs_df, compton_df, args.pics_folder, rdb)
														
 
															+    cdf = process_combined(comb_df, runs_df, compton_df, args.pics_folder, rdb, args.old_averaging, args.energy_point_csv_folder)
														
 
															     if args.csv_dir is not None:
														
 
															         csv_path = os.path.join(args.csv_dir, f'{args.season}.csv')
														
--- a/compton_filter.py
+++ b/compton_filter.py
@@ -76,11 +76,11 @@ class SlowdbComptonHandler(PostgreSQLHandler):
 
															             clear table
														
 
															         """
														
 
															-        if len(table) == 0:
														
 
															+        n_rows = len(table)
														
 
															+        if n_rows == 0:
														
 
															             logging.info("Empty list. No overlapping rows")
														
 
															             return table
														
 
															-        logging.info("Drop overlapping rows in list representation")
														
 
															         table = table[::-1] # sort table by time from last to past
														
 
															         min_time = table[0][6]
														
 
															         overlapped_idxs = list()
														
@@ -95,6 +95,8 @@ class SlowdbComptonHandler(PostgreSQLHandler):
 
															         for index in sorted(overlapped_idxs, reverse=True): # strict condition of the backward loop
														
 
															             table.pop(index)
														
 
															+        logging.info(f"Drop overlapping rows in list representation. Survived {len(table)} from {n_rows}")
														
 
															+        
														
 
															         return table[::-1]
														
 
															     def load_tables(self, tables: List[str], daterange: Optional[datetime] = None):