#!/usr/bin/env python3
#-*- mode: Python;-*-

import sys
import os
import time
import random
import statistics
import functools
import argparse
import pprint
import json


VERSION = "{DEVELOPMENT}"
if VERSION == "{DEVELOPMENT}":
    script_dir = '.'
    try:
        script_dir = os.path.dirname(os.path.realpath(__file__))
    except:
        try:
            script_dir = os.path.dirname(os.path.abspath(sys.argv[0]))
        except:
            pass
    sys.path.append("%s/../lib" % script_dir)

from nanownlib import *
import nanownlib.storage
from nanownlib.stats import boxTest,multiBoxTest,subsample,bootstrap,bootstrap2,trimean,midhinge,midhingeTest,samples2Distributions,samples2MeanDiffs
from nanownlib.parallel import WorkerThreads


parser = argparse.ArgumentParser(
    description="")
#parser.add_argument('-c', dest='cases', type=str, default='{"short":10000,"long":1010000}',
#                    help='JSON representation of echo timing cases. Default: {"short":10000,"long":1010000}')
parser.add_argument('session_data', default=None,
                    help='Database file storing session information')
options = parser.parse_args()

            
def trainBoxTest(db, unusual_case, greater, subseries_size):

    def trainAux(low,high,num_trials):
        estimator = functools.partial(multiBoxTest, {'low':low, 'high':high}, greater)
        estimates = bootstrap3(estimator, db, 'train', unusual_case, subseries_size, num_trials)
        null_estimates = bootstrap3(estimator, db, 'train_null', unusual_case, subseries_size, num_trials)

        bad_estimates = len([e for e in estimates if e != 1])
        bad_null_estimates = len([e for e in null_estimates if e != 0])
        
        false_negatives = 100.0*bad_estimates/num_trials
        false_positives = 100.0*bad_null_estimates/num_trials
        return false_positives,false_negatives

    #start = time.time()
    wt = WorkerThreads(2, trainAux)
    
    num_trials = 200
    width = 1.0
    performance = []
    for low in range(0,50):
        wt.addJob(low, (low,low+width,num_trials))
    wt.wait()
    while not wt.resultq.empty():
        job_id,errors = wt.resultq.get()
        fp,fn = errors
        performance.append(((fp+fn)/2.0, job_id, fn, fp))
    performance.sort()
    #pprint.pprint(performance)
    #print(time.time()-start)
    
    num_trials = 200
    lows = [p[1] for p in performance[0:5]]
    widths = [w/10.0 for w in range(5,65,5)]
    performance = []
    for width in widths:
        false_positives = []
        false_negatives = []
        for low in lows:
            wt.addJob(low,(low,low+width,num_trials))
        wt.wait()
        while not wt.resultq.empty():
            job_id,errors = wt.resultq.get()
            fp,fn = errors
            false_negatives.append(fn)
            false_positives.append(fp)

        #print(width, false_negatives)
        #print(width, false_positives)
        #performance.append(((statistics.mean(false_positives)+statistics.mean(false_negatives))/2.0,
        #                    width, statistics.mean(false_negatives), statistics.mean(false_positives)))
        performance.append((abs(statistics.mean(false_positives)-statistics.mean(false_negatives)),
                            width, statistics.mean(false_negatives), statistics.mean(false_positives)))
    performance.sort()
    #pprint.pprint(performance)
    good_width = performance[0][1]
    #print("good_width:",good_width)


    num_trials = 500
    performance = []
    for low in lows:
        wt.addJob(low, (low,low+good_width,num_trials))
    wt.wait()
    while not wt.resultq.empty():
        job_id,errors = wt.resultq.get()
        fp,fn = errors
        performance.append(((fp+fn)/2.0, job_id, fn, fp))
    performance.sort()
    #pprint.pprint(performance)
    best_low = performance[0][1]
    #print("best_low:", best_low)

    
    num_trials = 500
    widths = [good_width+(x/100.0) for x in range(-60,75,5) if good_width+(x/100.0) > 0.0]
    performance = []
    for width in widths:
        wt.addJob(width, (best_low,best_low+width,num_trials))
    wt.wait()
    while not wt.resultq.empty():
        job_id,errors = wt.resultq.get()
        fp,fn = errors
        performance.append(((fp+fn)/2.0, job_id, fn, fp))
    performance.sort()
    #pprint.pprint(performance)
    best_width=performance[0][1]
    #print("best_width:",best_width)
    #print("final_performance:", performance[0][0])

    wt.stop()
    params = json.dumps({"low":best_low,"high":best_low+best_width})
    return {'algorithm':"boxtest",
            'params':params,
            'sample_size':subseries_size,
            'num_trials':num_trials,
            'trial_type':"train",
            'false_positives':performance[0][3],
            'false_negatives':performance[0][2]}


def trainMidhinge(db, unusual_case, greater, subseries_size):

    def trainAux(distance, threshold, num_trials):
        estimator = functools.partial(midhingeTest, {'distance':distance,'threshold':threshold}, greater)
        estimates = bootstrap3(estimator, db, 'train', unusual_case, subseries_size, num_trials)
        null_estimates = bootstrap3(estimator, db, 'train_null', unusual_case, subseries_size, num_trials)

        bad_estimates = len([e for e in estimates if e != 1])
        bad_null_estimates = len([e for e in null_estimates if e != 0])
        
        false_negatives = 100.0*bad_estimates/num_trials
        false_positives = 100.0*bad_null_estimates/num_trials
        return false_positives,false_negatives

    #determine expected delta based on differences
    mean_diffs = [s['unusual_case']-s['other_cases'] for s in db.subseries('train', unusual_case)]
    threshold = trimean(mean_diffs)/2.0
    #print("init_threshold:", threshold)
    
    wt = WorkerThreads(2, trainAux)
    
    num_trials = 500
    performance = []
    for distance in range(1,50):
        wt.addJob(distance, (distance,threshold,num_trials))
    wt.wait()
    while not wt.resultq.empty():
        job_id,errors = wt.resultq.get()
        fp,fn = errors
        performance.append(((fp+fn)/2.0, job_id, fn, fp))
    
    performance.sort()
    #pprint.pprint(performance)
    good_distance = performance[0][1]
    #print("good_distance:",good_distance)

    
    num_trials = 500
    performance = []
    for t in range(50,154,4):
        wt.addJob(threshold*(t/100.0), (good_distance,threshold*(t/100.0),num_trials))
    wt.wait()
    while not wt.resultq.empty():
        job_id,errors = wt.resultq.get()
        fp,fn = errors
        performance.append(((fp+fn)/2.0, job_id, fn, fp))
    performance.sort()
    #pprint.pprint(performance)
    good_threshold = performance[0][1]
    #print("good_threshold:", good_threshold)

    
    num_trials = 500
    performance = []
    for d in [good_distance+s for s in range(-4,5) if good_distance+s > -1]:
        wt.addJob(d, (d,good_threshold,num_trials))
    wt.wait()
    while not wt.resultq.empty():
        job_id,errors = wt.resultq.get()
        fp,fn = errors
        performance.append(((fp+fn)/2.0, job_id, fn, fp))
    performance.sort()
    #pprint.pprint(performance)
    best_distance = performance[0][1]
    #print("best_distance:",best_distance)

    
    num_trials = 500
    performance = []
    for t in range(90,111):
        wt.addJob(good_threshold*(t/100.0), (best_distance,good_threshold*(t/100.0),num_trials))
    wt.wait()
    while not wt.resultq.empty():
        job_id,errors = wt.resultq.get()
        fp,fn = errors
        performance.append(((fp+fn)/2.0, job_id, fn, fp))
    performance.sort()
    #pprint.pprint(performance)
    best_threshold = performance[0][1]
    #print("best_threshold:", best_threshold)

    wt.stop()
    params = json.dumps({'distance':best_distance,'threshold':best_threshold})
    return {'algorithm':"midhinge",
            'params':params,
            'sample_size':subseries_size,
            'num_trials':num_trials,
            'trial_type':"train",
            'false_positives':performance[0][3],
            'false_negatives':performance[0][2]}


classifiers = {'boxtest':{'train':trainBoxTest, 'test':multiBoxTest},
               'midhinge':{'train':trainMidhinge, 'test':midhinge}}


db = nanownlib.storage.db(options.session_data)

import cProfile

def trainClassifier(db, unusual_case, greater, trainer):
    threshold = 5.0 # in percent
    size = 4000
    result = None
    while size < db.populationSize('train')/5:
        size = min(size*2, int(db.populationSize('train')/5))
        result = trainer(db,unusual_case,greater,size)
        error = statistics.mean([result['false_positives'],result['false_negatives']])
        print("subseries size: %d | error: %f | false_positives: %f | false_negatives: %f"
              % (size,error,result['false_positives'],result['false_negatives']))
        if error < threshold:
            break
    if result != None:
        db.addClassifierResults(result)

    return result


start = time.time()
unusual_case,unusual_diff = findUnusualTestCase(db)
greater = (unusual_diff > 0)
print("unusual_case:", unusual_case)
print("unusual_diff:", unusual_diff)
end = time.time()
print(":", end-start)


for c,funcs in classifiers.items():
    start = time.time()
    print("Training %s..." % c)
    result = trainClassifier(db, unusual_case, greater, funcs['train'])
    print("%s result:" % c)
    pprint.pprint(result)
    print("completed in:", time.time()-start)

sys.exit(0)

start = time.time()
results = trainBoxTest(db, unusual_case, greater, 6000)
#db.addClassifierResults(results)
print("multi box test result:")
pprint.pprint(results)
print(":", time.time()-start)