luojiehua
/
BIDI_ML_INFO_EXTRACTION


			
							12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576777879808182838485868788899091929394959697989910010110210310410510610710810911011111211311411511611711811912012112212312412512612712812913013113213313413513613713813914014114214314414514614714814915015115215315415515615715815916016116216316416516616716816917017117217317417517617717817918018118218318418518618718818919019119219319419519619719819920020120220320420520620720820921021121221321421521621721821922022122222322422522622722822923023123223323423523623723823924024124224324424524624724824925025125225325425525625725825926026126226326426526626726826927027127227327427527627727827928028128228328428528628728828929029129229329429529629729829930030130230330430530630730830931031131231331431531631731831932032132232332432532632732832933033133233333433533633733833934034134234334434534634734834935035135235335435535635735835936036136236336436536636736836937037137237337437537637737837938038138238338438538638738838939039139239339439539639739839940040140240340440540640740840941041141241341441541641741841942042142242342442542642742842943043143243343443543643743843944044144244344444544644744844945045145245345445545645745845946046146246346446546646746846947047147247347447547647747847948048148248348448548648748848949049149249349449549649749849950050150250350450550650750850951051151251351451551651751851952052152252352452552652752852953053153253353453553653753853954054154254354454554654754854955055155255355455555655755855956056156256356456556656756856957057157257357457557657757857958058158258358458558658758858959059159259359459559659759859960060160260360460560660760860961061161261361461561661761861962062162262362462562662762862963063163263363463563663763863964064164264364464564664764864965065165265365465565665765865966066166266366466566666766866967067167267367467567667767867968068168268368468568668768868969069169269369469569669769869970070170270370470570670770870971071171271371471571671771871972072172272372472572672772872973073173273373473573673773873974074174274374474574674774874975075175275375475575675775875976076176276376476576676776876977077177277377477577677777877978078178278378478578678778878979079179279379479579679779879980080180280380480580680780880981081181281381481581681781881982082182282382482582682782882983083183283383483583683783883984084184284384484584684784884985085185285385485585685785885986086186286386486586686786886987087187287387487587687787887988088188288388488588688788888989089189289389489589689789889990090190290390490590690790890991091191291391491591691791891992092192292392492592692792892993093193293393493593693793893994094194294394494594694794894995095195295395495595695795895996096196296396496596696796896997097197297397497597697797897998098198298398498598698798898999099199299399499599699799899910001001100210031004100510061007100810091010101110121013101410151016101710181019102010211022102310241025102610271028102910301031103210331034103510361037103810391040104110421043104410451046104710481049105010511052105310541055105610571058105910601061106210631064106510661067106810691070107110721073107410751076107710781079108010811082108310841085108610871088108910901091109210931094109510961097109810991100110111021103110411051106110711081109111011111112111311141115111611171118111911201121112211231124112511261127112811291130113111321133113411351136113711381139114011411142114311441145114611471148114911501151115211531154115511561157115811591160116111621163116411651166116711681169117011711172117311741175117611771178117911801181118211831184118511861187118811891190119111921193119411951196119711981199120012011202120312041205120612071208120912101211121212131214121512161217121812191220122112221223122412251226122712281229123012311232123312341235123612371238123912401241124212431244124512461247124812491250125112521253125412551256125712581259126012611262126312641265126612671268126912701271127212731274127512761277127812791280128112821283128412851286128712881289129012911292129312941295129612971298129913001301130213031304130513061307130813091310131113121313131413151316131713181319132013211322132313241325132613271328132913301331133213331334133513361337133813391340134113421343134413451346134713481349135013511352135313541355135613571358135913601361136213631364136513661367136813691370137113721373137413751376137713781379138013811382138313841385138613871388138913901391139213931394139513961397139813991400140114021403140414051406140714081409141014111412141314141415141614171418141914201421142214231424142514261427142814291430143114321433143414351436143714381439144014411442144314441445144614471448144914501451145214531454145514561457145814591460146114621463146414651466146714681469147014711472147314741475147614771478147914801481148214831484148514861487148814891490149114921493149414951496149714981499150015011502150315041505150615071508150915101511151215131514151515161517151815191520152115221523152415251526152715281529153015311532153315341535153615371538153915401541154215431544154515461547154815491550155115521553155415551556155715581559156015611562156315641565156615671568156915701571157215731574157515761577157815791580158115821583158415851586158715881589159015911592159315941595159615971598159916001601160216031604160516061607160816091610161116121613161416151616161716181619162016211622162316241625162616271628162916301631163216331634163516361637163816391640164116421643164416451646164716481649165016511652165316541655165616571658165916601661166216631664166516661667166816691670167116721673167416751676167716781679168016811682168316841685168616871688168916901691169216931694169516961697169816991700170117021703170417051706170717081709171017111712171317141715171617171718171917201721172217231724172517261727172817291730173117321733173417351736173717381739174017411742174317441745174617471748174917501751175217531754175517561757175817591760176117621763176417651766176717681769177017711772177317741775177617771778177917801781178217831784178517861787178817891790179117921793179417951796179717981799180018011802180318041805180618071808180918101811181218131814181518161817181818191820182118221823182418251826182718281829183018311832183318341835183618371838183918401841184218431844184518461847184818491850185118521853185418551856185718581859186018611862186318641865186618671868186918701871187218731874187518761877187818791880188118821883188418851886188718881889189018911892189318941895189618971898189919001901190219031904190519061907190819091910191119121913191419151916191719181919192019211922192319241925192619271928192919301931193219331934193519361937193819391940194119421943194419451946194719481949195019511952195319541955195619571958195919601961196219631964196519661967196819691970197119721973197419751976197719781979198019811982198319841985198619871988198919901991199219931994199519961997199819992000200120022003200420052006200720082009201020112012201320142015201620172018201920202021202220232024202520262027202820292030203120322033203420352036203720382039204020412042204320442045204620472048204920502051205220532054205520562057205820592060206120622063206420652066206720682069207020712072207320742075207620772078207920802081208220832084208520862087208820892090209120922093209420952096209720982099210021012102210321042105210621072108210921102111211221132114211521162117211821192120212121222123212421252126212721282129213021312132213321342135213621372138213921402141214221432144214521462147214821492150215121522153215421552156215721582159216021612162216321642165216621672168216921702171217221732174217521762177217821792180218121822183218421852186218721882189219021912192219321942195219621972198219922002201220222032204220522062207220822092210221122122213221422152216221722182219222022212222222322242225222622272228222922302231223222332234223522362237223822392240224122422243224422452246224722482249225022512252225322542255225622572258225922602261226222632264226522662267226822692270227122722273227422752276227722782279228022812282228322842285228622872288228922902291229222932294229522962297229822992300230123022303230423052306230723082309231023112312231323142315231623172318231923202321232223232324232523262327232823292330233123322333233423352336233723382339234023412342234323442345234623472348234923502351235223532354235523562357235823592360236123622363236423652366236723682369237023712372237323742375237623772378237923802381238223832384238523862387238823892390239123922393239423952396239723982399240024012402240324042405240624072408240924102411241224132414241524162417241824192420242124222423242424252426242724282429243024312432243324342435243624372438243924402441244224432444244524462447244824492450245124522453245424552456245724582459246024612462246324642465246624672468246924702471247224732474247524762477247824792480248124822483248424852486248724882489249024912492249324942495249624972498249925002501250225032504250525062507250825092510251125122513251425152516251725182519252025212522252325242525252625272528252925302531253225332534253525362537253825392540254125422543254425452546254725482549255025512552255325542555255625572558255925602561256225632564256525662567256825692570257125722573257425752576257725782579258025812582258325842585258625872588258925902591259225932594259525962597259825992600260126022603260426052606260726082609261026112612261326142615261626172618261926202621262226232624262526262627262826292630263126322633263426352636263726382639264026412642264326442645264626472648264926502651265226532654265526562657265826592660266126622663266426652666266726682669267026712672267326742675267626772678267926802681268226832684268526862687268826892690269126922693269426952696269726982699270027012702270327042705270627072708270927102711271227132714271527162717271827192720272127222723272427252726272727282729273027312732273327342735273627372738273927402741274227432744274527462747274827492750275127522753275427552756275727582759276027612762276327642765276627672768276927702771277227732774277527762777277827792780278127822783278427852786278727882789279027912792279327942795279627972798279928002801280228032804280528062807280828092810281128122813281428152816281728182819282028212822282328242825282628272828282928302831283228332834283528362837283828392840284128422843284428452846284728482849285028512852285328542855285628572858285928602861286228632864286528662867286828692870287128722873287428752876287728782879288028812882288328842885288628872888288928902891289228932894289528962897289828992900290129022903290429052906290729082909291029112912291329142915291629172918291929202921292229232924292529262927292829292930293129322933293429352936293729382939294029412942294329442945294629472948294929502951295229532954295529562957295829592960296129622963296429652966296729682969297029712972297329742975297629772978297929802981298229832984298529862987298829892990299129922993299429952996299729982999300030013002300330043005300630073008300930103011301230133014301530163017301830193020302130223023302430253026302730283029303030313032303330343035303630373038303930403041304230433044304530463047304830493050305130523053305430553056305730583059306030613062306330643065306630673068306930703071307230733074307530763077307830793080308130823083308430853086308730883089309030913092309330943095309630973098309931003101310231033104310531063107310831093110311131123113311431153116311731183119312031213122312331243125312631273128312931303131313231333134313531363137313831393140314131423143314431453146314731483149315031513152315331543155315631573158315931603161316231633164316531663167316831693170317131723173317431753176317731783179318031813182318331843185318631873188318931903191319231933194319531963197319831993200320132023203320432053206320732083209321032113212321332143215321632173218321932203221322232233224322532263227322832293230323132323233323432353236323732383239324032413242324332443245324632473248324932503251325232533254325532563257325832593260326132623263326432653266326732683269327032713272327332743275327632773278327932803281328232833284328532863287328832893290329132923293329432953296329732983299330033013302330333043305330633073308330933103311331233133314331533163317331833193320332133223323332433253326332733283329333033313332333333343335333633373338333933403341334233433344334533463347334833493350335133523353335433553356335733583359336033613362336333643365336633673368336933703371337233733374337533763377337833793380338133823383338433853386338733883389339033913392339333943395339633973398339934003401340234033404340534063407340834093410341134123413341434153416341734183419342034213422342334243425342634273428342934303431343234333434343534363437343834393440344134423443344434453446344734483449345034513452345334543455345634573458345934603461346234633464346534663467346834693470347134723473347434753476347734783479348034813482348334843485348634873488348934903491349234933494349534963497349834993500350135023503350435053506350735083509351035113512351335143515351635173518351935203521352235233524352535263527352835293530353135323533353435353536353735383539354035413542354335443545354635473548354935503551355235533554355535563557355835593560356135623563356435653566356735683569357035713572357335743575357635773578357935803581358235833584358535863587358835893590359135923593359435953596359735983599360036013602360336043605360636073608360936103611361236133614361536163617361836193620362136223623362436253626362736283629363036313632363336343635363636373638363936403641364236433644364536463647364836493650365136523653365436553656365736583659366036613662366336643665366636673668366936703671367236733674367536763677367836793680368136823683368436853686368736883689369036913692369336943695369636973698369937003701370237033704370537063707370837093710371137123713371437153716371737183719372037213722372337243725372637273728372937303731373237333734373537363737373837393740374137423743374437453746374737483749375037513752375337543755375637573758375937603761376237633764376537663767376837693770377137723773377437753776377737783779378037813782378337843785378637873788378937903791379237933794379537963797379837993800380138023803380438053806380738083809381038113812381338143815381638173818381938203821382238233824382538263827382838293830383138323833383438353836383738383839384038413842384338443845384638473848384938503851385238533854385538563857385838593860386138623863386438653866386738683869387038713872387338743875387638773878387938803881388238833884388538863887388838893890389138923893389438953896389738983899390039013902390339043905390639073908390939103911391239133914391539163917391839193920392139223923392439253926392739283929393039313932393339343935393639373938393939403941394239433944394539463947394839493950395139523953395439553956395739583959396039613962396339643965396639673968396939703971397239733974397539763977397839793980398139823983398439853986398739883989399039913992399339943995399639973998399940004001400240034004400540064007400840094010401140124013401440154016401740184019402040214022402340244025402640274028402940304031403240334034403540364037403840394040404140424043404440454046404740484049405040514052405340544055405640574058405940604061406240634064406540664067406840694070407140724073407440754076407740784079408040814082408340844085408640874088408940904091409240934094409540964097409840994100410141024103410441054106410741084109411041114112411341144115411641174118411941204121412241234124412541264127412841294130413141324133413441354136413741384139414041414142414341444145414641474148414941504151415241534154415541564157415841594160416141624163416441654166416741684169417041714172417341744175417641774178417941804181418241834184418541864187418841894190419141924193419441954196419741984199420042014202420342044205420642074208420942104211421242134214421542164217421842194220422142224223422442254226422742284229423042314232423342344235423642374238423942404241424242434244424542464247424842494250425142524253425442554256425742584259426042614262426342644265426642674268426942704271427242734274427542764277427842794280428142824283428442854286428742884289429042914292429342944295429642974298429943004301430243034304430543064307430843094310431143124313431443154316431743184319432043214322432343244325432643274328432943304331433243334334433543364337433843394340434143424343434443454346434743484349435043514352435343544355435643574358435943604361436243634364436543664367436843694370437143724373437443754376437743784379438043814382438343844385438643874388438943904391439243934394439543964397439843994400440144024403440444054406440744084409441044114412441344144415441644174418441944204421442244234424442544264427442844294430443144324433443444354436443744384439444044414442444344444445444644474448444944504451445244534454445544564457445844594460446144624463446444654466446744684469447044714472447344744475447644774478447944804481448244834484448544864487448844894490449144924493449444954496449744984499450045014502450345044505450645074508450945104511451245134514451545164517451845194520452145224523452445254526452745284529453045314532453345344535453645374538453945404541454245434544454545464547454845494550455145524553455445554556455745584559456045614562456345644565456645674568456945704571457245734574457545764577457845794580458145824583458445854586458745884589459045914592459345944595459645974598459946004601460246034604460546064607460846094610461146124613461446154616461746184619462046214622462346244625462646274628462946304631463246334634463546364637463846394640464146424643464446454646464746484649465046514652465346544655465646574658465946604661466246634664466546664667466846694670467146724673467446754676467746784679468046814682468346844685468646874688468946904691469246934694469546964697469846994700470147024703470447054706470747084709471047114712471347144715471647174718471947204721472247234724472547264727472847294730473147324733473447354736473747384739474047414742474347444745474647474748474947504751475247534754475547564757475847594760476147624763476447654766476747684769477047714772477347744775477647774778477947804781478247834784478547864787478847894790479147924793479447954796479747984799480048014802480348044805480648074808480948104811481248134814481548164817481848194820482148224823482448254826482748284829483048314832483348344835483648374838483948404841484248434844484548464847484848494850485148524853485448554856485748584859486048614862486348644865486648674868486948704871487248734874487548764877487848794880488148824883488448854886488748884889489048914892489348944895489648974898489949004901490249034904490549064907490849094910491149124913491449154916491749184919492049214922492349244925492649274928492949304931493249334934493549364937493849394940494149424943494449454946494749484949495049514952495349544955495649574958495949604961496249634964496549664967496849694970497149724973497449754976497749784979498049814982498349844985498649874988498949904991499249934994499549964997499849995000500150025003500450055006500750085009501050115012501350145015501650175018501950205021502250235024502550265027502850295030503150325033503450355036503750385039504050415042504350445045504650475048504950505051505250535054505550565057505850595060506150625063506450655066506750685069507050715072507350745075507650775078507950805081508250835084508550865087508850895090509150925093509450955096509750985099510051015102510351045105510651075108510951105111511251135114511551165117511851195120512151225123512451255126512751285129513051315132513351345135513651375138513951405141514251435144514551465147514851495150515151525153515451555156515751585159516051615162516351645165516651675168516951705171517251735174517551765177517851795180518151825183518451855186518751885189519051915192519351945195519651975198519952005201520252035204520552065207520852095210521152125213521452155216521752185219522052215222522352245225522652275228522952305231523252335234523552365237523852395240524152425243524452455246524752485249525052515252525352545255525652575258525952605261526252635264526552665267526852695270527152725273527452755276527752785279528052815282528352845285528652875288528952905291529252935294529552965297529852995300530153025303530453055306530753085309531053115312531353145315531653175318531953205321532253235324532553265327532853295330533153325333533453355336533753385339534053415342534353445345534653475348534953505351535253535354535553565357535853595360536153625363536453655366536753685369537053715372537353745375537653775378537953805381538253835384538553865387538853895390539153925393539453955396539753985399540054015402540354045405540654075408540954105411541254135414541554165417541854195420542154225423542454255426542754285429543054315432543354345435543654375438543954405441544254435444544554465447544854495450545154525453545454555456545754585459546054615462546354645465546654675468546954705471547254735474547554765477547854795480548154825483548454855486548754885489549054915492549354945495549654975498549955005501550255035504550555065507550855095510551155125513551455155516551755185519552055215522552355245525552655275528552955305531553255335534553555365537553855395540554155425543554455455546554755485549555055515552555355545555555655575558555955605561556255635564556555665567556855695570557155725573557455755576557755785579558055815582558355845585558655875588558955905591559255935594559555965597559855995600560156025603560456055606560756085609561056115612561356145615561656175618561956205621562256235624562556265627562856295630563156325633563456355636563756385639564056415642564356445645564656475648564956505651565256535654565556565657565856595660566156625663566456655666566756685669567056715672567356745675567656775678567956805681568256835684568556865687568856895690569156925693569456955696569756985699570057015702570357045705570657075708570957105711571257135714571557165717571857195720572157225723572457255726572757285729573057315732573357345735573657375738573957405741574257435744574557465747574857495750575157525753575457555756575757585759576057615762576357645765576657675768576957705771577257735774577557765777577857795780578157825783578457855786578757885789579057915792579357945795579657975798579958005801580258035804580558065807580858095810581158125813581458155816581758185819582058215822582358245825582658275828582958305831583258335834583558365837583858395840584158425843584458455846584758485849585058515852585358545855585658575858585958605861586258635864586558665867586858695870587158725873587458755876587758785879588058815882588358845885588658875888588958905891589258935894589558965897589858995900590159025903590459055906590759085909591059115912591359145915591659175918591959205921592259235924592559265927592859295930593159325933593459355936593759385939594059415942594359445945594659475948594959505951595259535954595559565957595859595960596159625963596459655966596759685969597059715972597359745975597659775978597959805981598259835984598559865987598859895990599159925993599459955996599759985999600060016002600360046005600660076008600960106011601260136014601560166017601860196020602160226023602460256026602760286029603060316032603360346035603660376038603960406041604260436044604560466047604860496050605160526053605460556056605760586059606060616062606360646065606660676068606960706071607260736074607560766077607860796080608160826083608460856086608760886089609060916092609360946095609660976098609961006101610261036104610561066107610861096110611161126113611461156116611761186119612061216122612361246125612661276128612961306131613261336134613561366137613861396140614161426143614461456146614761486149615061516152615361546155615661576158615961606161616261636164616561666167616861696170617161726173617461756176617761786179618061816182618361846185618661876188618961906191619261936194619561966197619861996200620162026203620462056206620762086209621062116212621362146215621662176218621962206221622262236224622562266227622862296230623162326233623462356236623762386239624062416242624362446245624662476248624962506251625262536254625562566257625862596260626162626263626462656266626762686269627062716272627362746275627662776278627962806281628262836284628562866287628862896290629162926293629462956296629762986299630063016302630363046305630663076308630963106311631263136314631563166317631863196320632163226323632463256326632763286329633063316332633363346335633663376338633963406341634263436344634563466347634863496350635163526353635463556356635763586359636063616362636363646365636663676368636963706371637263736374637563766377637863796380638163826383638463856386638763886389639063916392639363946395639663976398639964006401640264036404640564066407640864096410641164126413641464156416641764186419642064216422642364246425642664276428642964306431643264336434643564366437643864396440644164426443644464456446644764486449645064516452645364546455645664576458645964606461646264636464646564666467646864696470647164726473647464756476647764786479648064816482648364846485648664876488648964906491649264936494649564966497649864996500650165026503650465056506650765086509651065116512651365146515651665176518651965206521652265236524652565266527652865296530653165326533653465356536653765386539654065416542654365446545654665476548654965506551655265536554655565566557655865596560656165626563656465656566656765686569657065716572657365746575657665776578657965806581658265836584658565866587658865896590659165926593659465956596659765986599660066016602660366046605660666076608660966106611661266136614661566166617661866196620662166226623662466256626662766286629663066316632663366346635663666376638663966406641664266436644664566466647664866496650665166526653665466556656665766586659666066616662666366646665666666676668666966706671667266736674667566766677667866796680668166826683668466856686668766886689669066916692669366946695669666976698669967006701670267036704670567066707670867096710671167126713671467156716671767186719672067216722672367246725672667276728672967306731673267336734673567366737673867396740674167426743674467456746674767486749675067516752675367546755675667576758675967606761676267636764676567666767676867696770677167726773677467756776677767786779678067816782678367846785678667876788678967906791679267936794679567966797679867996800680168026803680468056806680768086809681068116812681368146815681668176818681968206821682268236824682568266827682868296830683168326833683468356836683768386839684068416842684368446845684668476848684968506851685268536854685568566857685868596860686168626863686468656866686768686869687068716872687368746875687668776878687968806881688268836884688568866887688868896890689168926893689468956896689768986899690069016902690369046905690669076908690969106911691269136914691569166917691869196920692169226923692469256926692769286929693069316932693369346935693669376938693969406941694269436944694569466947694869496950695169526953695469556956695769586959696069616962696369646965696669676968696969706971697269736974697569766977697869796980698169826983698469856986698769886989699069916992699369946995699669976998699970007001700270037004700570067007700870097010701170127013701470157016701770187019702070217022702370247025702670277028702970307031703270337034703570367037703870397040704170427043704470457046704770487049705070517052705370547055705670577058705970607061706270637064706570667067706870697070707170727073707470757076707770787079708070817082708370847085708670877088708970907091709270937094709570967097709870997100710171027103710471057106710771087109711071117112711371147115711671177118711971207121712271237124712571267127712871297130713171327133713471357136713771387139714071417142714371447145714671477148714971507151715271537154715571567157715871597160716171627163716471657166716771687169717071717172717371747175717671777178717971807181718271837184718571867187718871897190719171927193719471957196719771987199720072017202720372047205720672077208720972107211721272137214721572167217721872197220722172227223722472257226722772287229723072317232723372347235723672377238723972407241724272437244724572467247724872497250725172527253725472557256725772587259726072617262726372647265726672677268726972707271727272737274727572767277727872797280728172827283728472857286728772887289729072917292729372947295729672977298729973007301730273037304730573067307730873097310731173127313731473157316731773187319732073217322732373247325732673277328732973307331733273337334733573367337733873397340734173427343734473457346734773487349735073517352735373547355735673577358735973607361736273637364736573667367736873697370737173727373737473757376737773787379738073817382738373847385738673877388738973907391739273937394739573967397739873997400740174027403740474057406740774087409741074117412741374147415741674177418741974207421742274237424742574267427742874297430743174327433743474357436743774387439744074417442744374447445744674477448744974507451745274537454745574567457745874597460746174627463746474657466746774687469747074717472747374747475747674777478747974807481748274837484748574867487748874897490749174927493749474957496749774987499750075017502750375047505750675077508750975107511751275137514751575167517751875197520752175227523752475257526752775287529753075317532753375347535753675377538753975407541754275437544754575467547754875497550755175527553755475557556755775587559756075617562756375647565756675677568756975707571757275737574757575767577757875797580758175827583758475857586758775887589759075917592759375947595759675977598759976007601760276037604760576067607760876097610761176127613761476157616761776187619762076217622762376247625762676277628762976307631763276337634763576367637763876397640764176427643764476457646764776487649765076517652765376547655765676577658765976607661766276637664766576667667766876697670767176727673767476757676767776787679768076817682768376847685768676877688768976907691769276937694769576967697769876997700770177027703770477057706770777087709771077117712771377147715771677177718771977207721772277237724772577267727772877297730773177327733773477357736773777387739774077417742774377447745774677477748774977507751775277537754775577567757775877597760776177627763776477657766776777687769777077717772777377747775777677777778777977807781778277837784778577867787778877897790779177927793779477957796779777987799780078017802780378047805780678077808780978107811781278137814781578167817781878197820782178227823782478257826782778287829783078317832783378347835783678377838783978407841784278437844784578467847784878497850785178527853785478557856785778587859786078617862786378647865786678677868786978707871787278737874787578767877787878797880788178827883788478857886788778887889789078917892789378947895789678977898789979007901790279037904790579067907790879097910791179127913791479157916791779187919792079217922792379247925792679277928792979307931793279337934793579367937793879397940794179427943794479457946794779487949795079517952795379547955795679577958795979607961796279637964796579667967796879697970797179727973797479757976797779787979798079817982798379847985798679877988798979907991799279937994799579967997799879998000800180028003800480058006800780088009801080118012801380148015801680178018801980208021802280238024802580268027802880298030803180328033803480358036803780388039804080418042804380448045804680478048804980508051805280538054805580568057805880598060806180628063806480658066806780688069807080718072807380748075807680778078807980808081808280838084808580868087808880898090809180928093809480958096809780988099810081018102810381048105810681078108810981108111811281138114811581168117811881198120812181228123812481258126812781288129813081318132813381348135813681378138813981408141814281438144814581468147814881498150815181528153815481558156815781588159816081618162816381648165816681678168816981708171817281738174817581768177817881798180818181828183818481858186818781888189819081918192819381948195819681978198819982008201820282038204820582068207820882098210821182128213821482158216821782188219822082218222822382248225822682278228822982308231823282338234823582368237823882398240824182428243824482458246824782488249825082518252825382548255825682578258825982608261826282638264826582668267826882698270827182728273827482758276827782788279828082818282828382848285828682878288828982908291829282938294829582968297829882998300830183028303830483058306830783088309831083118312831383148315831683178318831983208321832283238324832583268327832883298330833183328333833483358336833783388339834083418342834383448345834683478348834983508351835283538354835583568357835883598360836183628363836483658366836783688369837083718372837383748375837683778378837983808381838283838384838583868387838883898390839183928393839483958396839783988399840084018402840384048405840684078408840984108411841284138414841584168417841884198420842184228423842484258426842784288429843084318432843384348435843684378438843984408441844284438444844584468447844884498450845184528453845484558456845784588459846084618462846384648465846684678468846984708471847284738474847584768477847884798480848184828483848484858486848784888489849084918492849384948495849684978498849985008501850285038504850585068507850885098510851185128513851485158516851785188519852085218522852385248525852685278528852985308531853285338534853585368537853885398540854185428543854485458546854785488549855085518552855385548555855685578558855985608561856285638564856585668567856885698570857185728573857485758576857785788579858085818582858385848585858685878588858985908591859285938594859585968597859885998600860186028603860486058606860786088609861086118612861386148615861686178618861986208621862286238624862586268627862886298630863186328633863486358636863786388639864086418642864386448645864686478648864986508651865286538654865586568657865886598660866186628663866486658666866786688669867086718672867386748675867686778678867986808681868286838684868586868687868886898690869186928693869486958696869786988699870087018702870387048705870687078708870987108711871287138714871587168717871887198720872187228723872487258726872787288729873087318732873387348735873687378738873987408741874287438744874587468747874887498750875187528753875487558756875787588759876087618762876387648765876687678768876987708771877287738774877587768777877887798780878187828783878487858786878787888789879087918792879387948795879687978798879988008801880288038804880588068807880888098810881188128813881488158816881788188819882088218822882388248825882688278828882988308831883288338834883588368837883888398840884188428843884488458846884788488849885088518852885388548855885688578858885988608861886288638864886588668867886888698870887188728873887488758876887788788879888088818882888388848885888688878888888988908891889288938894889588968897889888998900890189028903890489058906890789088909891089118912891389148915891689178918891989208921892289238924892589268927892889298930893189328933893489358936893789388939894089418942894389448945894689478948894989508951895289538954895589568957895889598960896189628963896489658966896789688969897089718972897389748975897689778978897989808981898289838984898589868987898889898990899189928993899489958996899789988999900090019002900390049005900690079008900990109011901290139014901590169017901890199020902190229023902490259026902790289029903090319032903390349035903690379038903990409041904290439044904590469047904890499050905190529053905490559056905790589059906090619062906390649065906690679068906990709071907290739074907590769077907890799080908190829083908490859086908790889089
							'''
Created on 2018年12月26日

@author: User
'''

import os
import sys
from BiddingKG.dl.common.nerUtils import *
sys.path.append(os.path.abspath("../.."))
# from keras.engine import topology
# from keras import models
# from keras import layers
# from keras_contrib.layers.crf import CRF
# from keras.preprocessing.sequence import pad_sequences
# from keras import optimizers,losses,metrics
from BiddingKG.dl.common.Utils import *
from BiddingKG.dl.interface.modelFactory import *
import tensorflow as tf
import pandas as pd
from BiddingKG.dl.product.data_util import decode, process_data
from BiddingKG.dl.interface.Entitys import Entity
from BiddingKG.dl.complaint.punish_predictor import Punish_Extract
from BiddingKG.dl.money.re_money_total_unit import extract_total_money, extract_unit_money
from bs4 import BeautifulSoup
import copy
import calendar
import datetime
from BiddingKG.dl.entityLink.entityLink import get_business_data
from BiddingKG.dl.proposed_building.pb_extract import PBPredictor
# from BiddingKG.dl.interface.getAttributes import turnMoneySource
from BiddingKG.dl.common.Utils import del_tabel_achievement, clean_company
from BiddingKG.dl.interface.getAttributes import turnMoneySource, extract_serviceTime
from BiddingKG.dl.time.re_servicetime import extract_servicetime
# import fool   # 统一用 selffool ，阿里云上只有selffool 包

cpu_num = int(os.environ.get("CPU_NUM",0))
sess_config = tf.ConfigProto(
                        inter_op_parallelism_threads = cpu_num,
                        intra_op_parallelism_threads = cpu_num,
                        log_device_placement=True)
sess_config = None

file = os.path.dirname(__file__) + '/agency_set.pkl'
with open(file, 'rb') as f:
    agency_set = pickle.load(f)

with open(os.path.dirname(__file__) + '/header_set.pkl', 'rb') as f:
    header_set = pickle.load(f)

def is_agency(entity_text):
    if re.search('(招投?标|采购|代理|咨询|管理|物资|事务所?|顾问|监理|拍卖)[（）\w]{,4}(有限)?(责任)?公司|(采购|招投?标|交易|代理|咨询)[（）\w]{,4}(中心|服务所)|法院$',
                 entity_text) or entity_text in agency_set:
        return True
    return False

def get_role(text, nlp_enterprise):
    '''
    获取字符串text角色实体
    :param text: 待获取实体字符串
    :param nlp_enterprise: 公告中的角色实体列表
    :return:
    '''
    text = re.sub('主报名人：|联合报名人：|联合体：|联合体(成员|单位)[12345一二三四五]?：|(联合体)?成员单位[12345一二三四五]?：|特殊普通合伙：|[(（][主成][）)]'
                  , '，', text)
    text = re.sub('\s', '', text) # 修复 370835008 表格中实体中间有\n
    text = re.sub('[一二三四五六七八九十]+标段[：:]|标段[一二三四五六七八九十]+[：:]|第[一二三四五六七八九十]+名[：:]', '', text) # 2024/4/22 修复 372839375 三标段：宁夏一山科技有限公司
    text = re.sub('1[3-9]\d{9}|\d{3}-\d{8}|\d{4}-\d{7}', '', text) # 2024/4/23 去除电话
    if text in nlp_enterprise:
        return text
    if len(text) > 50 or len(text)<4:
        return ''
    ners = getNers([text], useselffool=True)
    roles = []
    if ners:
        for ner in ners[0]:
            if ner[2] in ['org', 'company']:
                roles.append(ner[3])
            elif ner[2] in ['location'] and re.search('^\w{3,10}(海关|殡仪馆|店|村委会|纪念馆|监狱|管教所|修养所|社区|农场|林场|羊场|猪场|石场)$', ner[3]):
                roles.append(ner[3])
    if roles and len(''.join(roles)) > len(text)*0.8:
        entity = clean_company(roles[0])
        return entity
    else:
        return ''

from threading import RLock
dict_predictor = {"codeName":{"predictor":None,"Lock":RLock()},
              "prem":{"predictor":None,"Lock":RLock()},
              "epc":{"predictor":None,"Lock":RLock()},
              "roleRule":{"predictor":None,"Lock":RLock()},
              "roleRuleFinal":{"predictor":None,"Lock":RLock()},
              "tendereeRuleRecall":{"predictor":None,"Lock":RLock()},
                  "form":{"predictor":None,"Lock":RLock()},
                  "time":{"predictor":None,"Lock":RLock()},
                  "punish":{"predictor":None,"Lock":RLock()},
                  "product":{"predictor":None,"Lock":RLock()},
                "product_attrs":{"predictor":None,"Lock":RLock()},
                  "channel": {"predictor": None, "Lock": RLock()},
                  "deposit_payment_way": {"predictor": None, "Lock": RLock()},
                  "total_unit_money": {"predictor": None, "Lock": RLock()},
                  "industry": {"predictor": None, "Lock": RLock()},
                  "rolegrade": {"predictor": None, "Lock": RLock()},
                  "moneygrade": {"predictor": None, "Lock": RLock()},
                  "district": {"predictor": None, "Lock": RLock()},
                  'tableprem': {"predictor": None, "Lock": RLock()},
                  'candidate': {"predictor": None, "Lock": RLock()},
                  'websource_tenderee': {"predictor": None, "Lock": RLock()},
                  'project_label': {"predictor": None, "Lock": RLock()},
                  'pb_extract': {"predictor": None, "Lock": RLock()},
                  'property_label': {"predictor": None, "Lock": RLock()},
                  'approval': {"predictor": None, "Lock": RLock()}, # 审批项目预测
                  'bid_score': {"predictor": None, "Lock": RLock()},  # 评标评分
                  'entity_type_rule': {"predictor": None, "Lock": RLock()},  # 地址、时间分类
                  }


def getPredictor(_type):
    if _type in dict_predictor:
        with dict_predictor[_type]["Lock"]:
            if dict_predictor[_type]["predictor"] is None:
                if _type == "codeName":
                    dict_predictor[_type]["predictor"] = CodeNamePredict(config=sess_config)
                if _type == "prem":
                    dict_predictor[_type]["predictor"] = PREMPredict(config=sess_config)
                if _type == "epc":
                    dict_predictor[_type]["predictor"] = EPCPredict(config=sess_config)
                if _type == "roleRule":
                    dict_predictor[_type]["predictor"] = RoleRulePredictor()
                if _type == "roleRuleFinal":
                    dict_predictor[_type]["predictor"] = RoleRuleFinalAdd()
                if _type == "tendereeRuleRecall":
                    dict_predictor[_type]["predictor"] = TendereeRuleRecall()
                if _type == "form":
                    dict_predictor[_type]["predictor"] = FormPredictor(config=sess_config)
                if _type == "time":
                    dict_predictor[_type]["predictor"] = TimePredictor(config=sess_config)
                if _type == "punish":
                    dict_predictor[_type]["predictor"] = Punish_Extract()
                if _type == "product":
                    dict_predictor[_type]["predictor"] = ProductPredictor(config=sess_config)
                if _type == "product_attrs":
                    dict_predictor[_type]["predictor"] = ProductAttributesPredictor()
                if _type == "channel":
                    dict_predictor[_type]["predictor"] = DocChannel(config=sess_config)
                if _type == 'deposit_payment_way':
                    dict_predictor[_type]["predictor"] = DepositPaymentWay()
                if _type == 'total_unit_money':
                    dict_predictor[_type]["predictor"] = TotalUnitMoney()
                if _type == 'industry':
                    dict_predictor[_type]["predictor"] = IndustryPredictor()
                if _type == 'rolegrade':
                    dict_predictor[_type]["predictor"] = RoleGrade()
                if _type == 'moneygrade':
                    dict_predictor[_type]["predictor"] = MoneyGrade()
                if _type == 'district':
                    dict_predictor[_type]["predictor"] = DistrictPredictor()
                if _type == 'tableprem':
                    dict_predictor[_type]["predictor"] = TablePremExtractor()
                if _type == 'candidate':
                    dict_predictor[_type]["predictor"] = CandidateExtractor()
                if _type == 'websource_tenderee':
                    dict_predictor[_type]['predictor'] = WebsourceTenderee()
                if _type == 'project_label':
                    dict_predictor[_type]['predictor'] = ProjectLabel()
                if _type == 'pb_extract':
                    dict_predictor[_type]['predictor'] = PBPredictor()
                if _type == 'property_label':
                    dict_predictor[_type]['predictor'] = PropertyLabel()
                if _type == 'approval':
                    dict_predictor[_type]['predictor'] = ApprovalPredictor()
                if _type == 'bid_score':
                    dict_predictor[_type]['predictor'] = BiddingScore()
                if _type == 'entity_type_rule':
                    dict_predictor[_type]['predictor'] = EntityTypeRulePredictor()
            return dict_predictor[_type]["predictor"]
    raise NameError("no this type of predictor")


# 编号名称模型
class CodeNamePredict():
    
    def __init__(self,EMBED_DIM=None,BiRNN_UNITS=None,lazyLoad=getLazyLoad(),config=None):
        
        self.model = None
        self.MAX_LEN = None
        self.model_code = None
        if EMBED_DIM is None:
            self.EMBED_DIM = 60
        else:
            self.EMBED_DIM = EMBED_DIM
        if BiRNN_UNITS is None:
            self.BiRNN_UNITS = 200
        else:
            self.BiRNN_UNITS = BiRNN_UNITS
        self.filepath = os.path.dirname(__file__)+"/../projectCode/models/model_project_"+str(self.EMBED_DIM)+"_"+str(self.BiRNN_UNITS)+".hdf5"
        #self.filepath = "../projectCode/models/model_project_60_200_200ep017-loss6.456-val_loss7.852-val_acc0.969.hdf5"
        self.filepath_code = os.path.dirname(__file__)+"/../projectCode/models/model_code.hdf5"
        vocabpath = os.path.dirname(__file__)+"/codename_vocab.pk"
        classlabelspath = os.path.dirname(__file__)+"/codename_classlabels.pk"
        self.vocab = load(vocabpath)
        self.class_labels = load(classlabelspath)
        
        #生成提取编号和名称的正则
        id_PC_B = self.class_labels.index("PC_B")
        id_PC_M = self.class_labels.index("PC_M")
        id_PC_E = self.class_labels.index("PC_E")
        id_PN_B = self.class_labels.index("PN_B")
        id_PN_M = self.class_labels.index("PN_M")
        id_PN_E = self.class_labels.index("PN_E")
        self.PC_pattern = re.compile(str(id_PC_B)+str(id_PC_M)+"*"+str(id_PC_E))
        self.PN_pattern = re.compile(str(id_PN_B)+str(id_PN_M)+"*"+str(id_PN_E))
        # print("pc",self.PC_pattern)
        # print("pn",self.PN_pattern)
        self.word2index = dict((w,i) for i,w in enumerate(np.array(self.vocab)))
        
        self.inputs = None
        self.outputs = None
        self.sess_codename = tf.Session(graph=tf.Graph(),config=config)
        self.sess_codesplit = tf.Session(graph=tf.Graph(),config=config)
        self.inputs_code = None
        self.outputs_code = None
        if not lazyLoad:
            self.getModel()
            self.getModel_code()
        
        
    def getModel(self):
        '''
        @summary: 取得编号和名称模型
        '''
        if self.inputs is None:
            log("get model of codename")
            with self.sess_codename.as_default():
                with self.sess_codename.graph.as_default():
                    meta_graph_def = tf.saved_model.loader.load(self.sess_codename, ["serve"], export_dir=os.path.dirname(__file__)+"/codename_savedmodel_tf")
                    signature_key = tf.saved_model.signature_constants.DEFAULT_SERVING_SIGNATURE_DEF_KEY
                    signature_def = meta_graph_def.signature_def
                    self.inputs = self.sess_codename.graph.get_tensor_by_name(signature_def[signature_key].inputs["inputs"].name)
                    self.inputs_length = self.sess_codename.graph.get_tensor_by_name(signature_def[signature_key].inputs["inputs_length"].name)
                    self.keepprob = self.sess_codename.graph.get_tensor_by_name(signature_def[signature_key].inputs["keepprob"].name)
                    self.logits = self.sess_codename.graph.get_tensor_by_name(signature_def[signature_key].outputs["logits"].name)
                    self.trans = self.sess_codename.graph.get_tensor_by_name(signature_def[signature_key].outputs["trans"].name)

                return self.inputs,self.inputs_length,self.keepprob,self.logits,self.trans
        else:
            return self.inputs,self.inputs_length,self.keepprob,self.logits,self.trans
        '''    
        if self.model is None:
            self.model = self.getBiLSTMCRFModel(self.MAX_LEN, self.vocab, self.EMBED_DIM, self.BiRNN_UNITS, self.class_labels,weights=None)
            self.model.load_weights(self.filepath)
        return self.model
        '''
    
    def getModel_code(self):
        if self.inputs_code is None:
            log("get model of code")
            with self.sess_codesplit.as_default():
                with self.sess_codesplit.graph.as_default():
                    meta_graph_def = tf.saved_model.loader.load(self.sess_codesplit, ["serve"], export_dir=os.path.dirname(__file__)+"/codesplit_savedmodel")
                    signature_key = tf.saved_model.signature_constants.DEFAULT_SERVING_SIGNATURE_DEF_KEY
                    signature_def = meta_graph_def.signature_def
                    self.inputs_code = []
                    self.inputs_code.append(self.sess_codesplit.graph.get_tensor_by_name(signature_def[signature_key].inputs["input0"].name))
                    self.inputs_code.append(self.sess_codesplit.graph.get_tensor_by_name(signature_def[signature_key].inputs["input1"].name))
                    self.inputs_code.append(self.sess_codesplit.graph.get_tensor_by_name(signature_def[signature_key].inputs["input2"].name))
                    self.outputs_code = self.sess_codesplit.graph.get_tensor_by_name(signature_def[signature_key].outputs["outputs"].name)
                    self.sess_codesplit.graph.finalize()
                    return self.inputs_code,self.outputs_code
        else:
            return self.inputs_code,self.outputs_code
        '''
        if self.model_code is None:
            log("get model of model_code")
            with self.sess_codesplit.as_default():
                with self.sess_codesplit.graph.as_default():
                    self.model_code = models.load_model(self.filepath_code, custom_objects={'precision':precision,'recall':recall,'f1_score':f1_score})
        return self.model_code
        '''
    
    def getBiLSTMCRFModel(self,MAX_LEN,vocab,EMBED_DIM,BiRNN_UNITS,chunk_tags,weights):
        '''
        model = models.Sequential()
        model.add(layers.Embedding(len(vocab), EMBED_DIM, mask_zero=True))  # Random embedding
        model.add(layers.Bidirectional(layers.LSTM(BiRNN_UNITS // 2, return_sequences=True)))
        crf = CRF(len(chunk_tags), sparse_target=True)
        model.add(crf)
        model.summary()
        model.compile('adam', loss=crf.loss_function, metrics=[crf.accuracy])
        return model
        '''
        input = layers.Input(shape=(None,))
        if weights is not None:
            embedding = layers.embeddings.Embedding(len(vocab),EMBED_DIM,mask_zero=True,weights=[weights],trainable=True)(input)
        else:
            embedding = layers.embeddings.Embedding(len(vocab),EMBED_DIM,mask_zero=True)(input)
        bilstm = layers.Bidirectional(layers.LSTM(BiRNN_UNITS//2,return_sequences=True))(embedding)
        bilstm_dense = layers.TimeDistributed(layers.Dense(len(chunk_tags)))(bilstm)
        crf = CRF(len(chunk_tags),sparse_target=True)
        crf_out = crf(bilstm_dense)
        model = models.Model(input=[input],output = [crf_out])
        model.summary()
        model.compile(optimizer = 'adam', loss = crf.loss_function, metrics = [crf.accuracy])
        return model
    
    #根据规则补全编号或名称两边的符号
    def fitDataByRule(self,data):
        symbol_dict = {"(":")",
                       "（":"）",
                       "[":"]",
                       "【":"】",
                       ")":"(",
                       "）":"（",
                       "]":"[",
                       "】":"【"}
        leftSymbol_pattern = re.compile("[\(（\[【]")
        rightSymbol_pattern = re.compile("[\)）\]】]")
        leftfinds = re.findall(leftSymbol_pattern,data)
        rightfinds = re.findall(rightSymbol_pattern,data)
        result = data
        if len(leftfinds)+len(rightfinds)==0:
            return data
        elif len(leftfinds)==len(rightfinds):
            return data
        elif abs(len(leftfinds)-len(rightfinds))==1:
            if len(leftfinds)>len(rightfinds):
                if symbol_dict.get(data[0]) is not None:
                    result = data[1:]
                else:
                    #print(symbol_dict.get(leftfinds[0]))
                    result = data+symbol_dict.get(leftfinds[0])
            else:
                if symbol_dict.get(data[-1]) is not None:
                    result = data[:-1]
                else:
                    result = symbol_dict.get(rightfinds[0])+data
        return  result

    def decode(self,logits, trans, sequence_lengths, tag_num):
        viterbi_sequences = []
        for logit, length in zip(logits, sequence_lengths):
            score = logit[:length]
            viterbi_seq, viterbi_score = viterbi_decode(score, trans)
            viterbi_sequences.append(viterbi_seq)
        return viterbi_sequences
    
    def predict(self,list_sentences,list_entitys=None,MAX_AREA = 5000):
        #@summary: 获取每篇文章的code和name
        # pattern_score = re.compile("工程|服务|采购|施工|项目|系统|招标|中标|公告|学校|[大中小]学校?|医院|公司|分公司|研究院|政府采购中心|学院|中心校?|办公室|政府|财[政务]局|办事处|委员会|[部总支]队|警卫局|幼儿园|党委|党校|银行|分行|解放军|发电厂|供电局|管理所|供电公司|卷烟厂|机务段|研究[院所]|油厂|调查局|调查中心|出版社|电视台|监狱|水厂|服务站|信用合作联社|信用社|交易所|交易中心|交易中心党校|科学院|测绘所|运输厅|管理处|局|中心|机关|部门?|处|科|厂|集团|图书馆|馆|所|厅|楼|区|酒店|场|基地|矿|餐厅|酒店")
        pattern_score = re.compile('建设项目|服务项目|工程项目|工程施工|建设工程|服务中心|基础设施|物业管理|工程设计|妇幼保健|咨询服务|管理系统|管理中心|改建工程|配套工程|公安局|幼儿园|管理局|使用权|办公楼|教育局|管理处|图书馆|经营权|项目|采购|工程|改造|服务|设备|中心|医院|系统|建设|监理|施工|维修|学院|安装|设计|关于|标段|招标|技术|询价|管理|学校|小学|中学|平台|提升|设施|检测|整治|社区|装修|政府|绿化|物资|租赁|地块|医疗|编制|公开|规划|监控|教育|维护|校区|治理|升级|安置|竞价|购置|评估|勘察|承包|实验|大学|材料|生产|耗材|招租|硬化|维保|用地|消防|审计|拍卖|物业|入围|养护|机关|企业|用房|出让|资产|分局|验收|宣传|处置|校园|研究|咨询|修缮|更换|装饰|劳务|保养|物流|出租|局|院')
        result = []
        index_unk = self.word2index.get("<unk>")
        # index_pad = self.word2index.get("<pad>")
        if list_entitys is None:
            list_entitys = [[] for _ in range(len(list_sentences))]
        for list_sentence,list_entity in zip(list_sentences,list_entitys):
            if len(list_sentence)==0:
                result.append([{"code":[],"name":""}])
                continue
            doc_id = list_sentence[0].doc_id
            # sentences = []
            # for sentence in list_sentence:
            #     if len(sentence.sentence_text)>MAX_AREA:
            #         for _sentence_comma in re.split("[;；，\n]",sentence):
            #             _comma_index = 0
            #             while(_comma_index<len(_sentence_comma)):
            #                 sentences.append(_sentence_comma[_comma_index:_comma_index+MAX_AREA])
            #                 _comma_index += MAX_AREA
            #     else:
            #         sentences.append(sentence+"。")
            list_sentence.sort(key=lambda x:len(x.sentence_text),reverse=True)
            _begin_index = 0
            
            item = {"code":[],"name":""}
            code_set = set()
            dict_name_freq_score = dict()
            while(True):
                MAX_LEN = len(list_sentence[_begin_index].sentence_text)
                if MAX_LEN>MAX_AREA:
                    MAX_LEN = MAX_AREA
                _LEN = MAX_AREA//MAX_LEN
                #预测

                x = [[self.word2index.get(word,index_unk)for word in sentence.sentence_text[:MAX_AREA]]for sentence in list_sentence[_begin_index:_begin_index+_LEN]]
                # x = [[getIndexOfWord(word) for word in sentence.sentence_text[:MAX_AREA]]for sentence in list_sentence[_begin_index:_begin_index+_LEN]]
                x_len = [len(_x) if len(_x) < MAX_LEN else MAX_LEN for _x in x]
                x = pad_sequences(x,maxlen=MAX_LEN,padding="post",truncating="post")

                if USE_API:
                    requests_result = requests.post(API_URL + "/predict_codeName", json={"inouts": x.tolist(), "inouts_len": x_len},verify=True)
                    predict_y = json.loads(requests_result.text)['result']
                    # print("cost_time:", json.loads(requests_result.text)['cost_time'])
                    # print(MAX_LEN,_LEN,_begin_index)
                else:
                    with self.sess_codename.as_default():
                        t_input,t_input_length,t_keepprob,t_logits,t_trans = self.getModel()
                        _logits,_trans = self.sess_codename.run([t_logits,t_trans],feed_dict={t_input:x,
                                                                                              t_input_length:x_len,
                                                                                              t_keepprob:1.0})
                        predict_y = self.decode(_logits,_trans,x_len,7)
                        # print('==========',_logits)

                        '''
                        for item11 in np.argmax(predict_y,-1):
                            print(item11)
                        print(predict_y)
                        '''
                # print(predict_y)
                for sentence,predict in zip(list_sentence[_begin_index:_begin_index+_LEN],np.array(predict_y)):
                    pad_sentence = sentence.sentence_text[:MAX_LEN]
                    join_predict = "".join([str(s) for s in predict])
                    # print(pad_sentence)
                    # print(join_predict)
                    code_x = []
                    code_text = []
                    pre_text = []
                    temp_entitys = []
                    for iter in re.finditer(self.PC_pattern,join_predict):
                        get_len = 40
                        if iter.span()[0]<get_len:
                            begin = 0
                        else:
                            begin = iter.span()[0]-get_len
                        end = iter.span()[1]+get_len
                        code_x.append(embedding_word([pad_sentence[begin:iter.span()[0]],pad_sentence[iter.span()[0]:iter.span()[1]].replace("，",""),pad_sentence[iter.span()[1]:end]],shape=(3,get_len,60)))
                        code_text.append(pad_sentence[iter.span()[0]:iter.span()[1]].replace("，", ""))
                        pre_text.append(pad_sentence[begin:iter.span()[0]])
                        _entity = Entity(doc_id=sentence.doc_id,entity_id="%s_%s_%s_%s"%(sentence.doc_id,sentence.sentence_index,iter.span()[0],iter.span()[1]),entity_text=pad_sentence[iter.span()[0]:iter.span()[1]].replace("，",""),entity_type="code",sentence_index=sentence.sentence_index,begin_index=0,end_index=0,wordOffset_begin=iter.span()[0],wordOffset_end=iter.span()[1],in_attachment=sentence.in_attachment)
                        temp_entitys.append(_entity)
                    #print("code",code_text)
                    if len(code_x)>0:
                        code_x = np.transpose(np.array(code_x,dtype=np.float32),(1,0,2,3))
                        if USE_PAI_EAS:
                            request = tf_predict_pb2.PredictRequest()
                            request.inputs["input0"].dtype = tf_predict_pb2.DT_FLOAT
                            request.inputs["input0"].array_shape.dim.extend(np.shape(code_x[0]))
                            request.inputs["input0"].float_val.extend(np.array(code_x[0],dtype=np.float64).reshape(-1))
                            request.inputs["input1"].dtype = tf_predict_pb2.DT_FLOAT
                            request.inputs["input1"].array_shape.dim.extend(np.shape(code_x[1]))
                            request.inputs["input1"].float_val.extend(np.array(code_x[1],dtype=np.float64).reshape(-1))
                            request.inputs["input2"].dtype = tf_predict_pb2.DT_FLOAT
                            request.inputs["input2"].array_shape.dim.extend(np.shape(code_x[2]))
                            request.inputs["input2"].float_val.extend(np.array(code_x[2],dtype=np.float64).reshape(-1))
                            request_data = request.SerializeToString()
                            list_outputs = ["outputs"]
                            _result = vpc_requests(codeclasses_url, codeclasses_authorization, request_data, list_outputs)
                            if _result is not None:
                                predict_code = _result["outputs"]
                            else:
                                with self.sess_codesplit.as_default():
                                    with self.sess_codesplit.graph.as_default():
                                        predict_code = self.getModel_code().predict([code_x[0],code_x[1],code_x[2]])
                        else:
                            with self.sess_codesplit.as_default():
                                with self.sess_codesplit.graph.as_default():
                                    inputs_code,outputs_code = self.getModel_code()
                                    predict_code = limitRun(self.sess_codesplit,[outputs_code],feed_dict={inputs_code[0]:code_x[0],inputs_code[1]:code_x[1],inputs_code[2]:code_x[2]})[0]

                                    #predict_code = self.sess_codesplit.run(outputs_code,feed_dict={inputs_code[0]:code_x[0],inputs_code[1]:code_x[1],inputs_code[2]:code_x[2]})
                                    #predict_code = self.getModel_code().predict([code_x[0],code_x[1],code_x[2]])
                        for h in range(len(predict_code)):
                            if predict_code[h][0]>0.5:
                                the_code = self.fitDataByRule(code_text[h])
                                # print(the_code)
                                #add code to entitys
                                list_entity.append(temp_entitys[h])
                                if re.search(',|/|;|、|，', the_code) and len(the_code)>25:
                                    for it in re.split(',|/|;|、|，', the_code):
                                        if len(it) > 8:
                                            if it not in code_set:
                                                code_set.add(it)
                                                # item['code'].append(it)
                                                if re.search("(项目编号|招标编号)：?$", pre_text[h]):
                                                    item['code'].append((it, 0, sentence.sentence_index))
                                                elif re.search('采购(计划)?编号：?$', pre_text[h]):
                                                    item['code'].append((it, 1, sentence.sentence_index))
                                                elif re.search('(询价|合同)编号：?$', pre_text[h]):
                                                    item['code'].append((it, 2, sentence.sentence_index))
                                                elif re.search('(询价|合同|采购|招标|项目)标号：?$', pre_text[h]):
                                                    item['code'].append((it, 2.5, sentence.sentence_index))
                                                else:
                                                    item['code'].append((it, 3, sentence.sentence_index))
                                        elif len(item['code']) > 0:
                                            new_it = item['code'][-1][0] + re.search(',|/|;|、|，', the_code).group(0) + it
                                            if new_it not in code_set:
                                                code_set.add(new_it)
                                                # item['code'][-1] = new_it
                                                if re.search("(项目编号|招标编号)：?$", pre_text[h]):
                                                    item['code'][-1] = (new_it, 0, sentence.sentence_index)
                                                elif re.search('采购(计划)?编号：?$', pre_text[h]):
                                                    item['code'][-1] = (new_it, 1, sentence.sentence_index)
                                                elif re.search('(询价|合同)编号：?$', pre_text[h]):
                                                    item['code'][-1] = (new_it, 2, sentence.sentence_index)
                                                elif re.search('(询价|合同|采购|招标|项目)标号：?$', pre_text[h]):
                                                    item['code'].append((new_it, 2.5, sentence.sentence_index))
                                                else:
                                                    item['code'][-1] = (new_it, 3, sentence.sentence_index)
                                        else:
                                            if the_code not in code_set:
                                                code_set.add(the_code)
                                                # item['code'].append(the_code)
                                                if re.search("(项目编号|招标编号)：?$", pre_text[h]):
                                                    item['code'].append((the_code, 0, sentence.sentence_index))
                                                elif re.search('采购(计划)?编号：?$', pre_text[h]):
                                                    item['code'].append((the_code, 1, sentence.sentence_index))
                                                elif re.search('(询价|合同)编号：?$', pre_text[h]):
                                                    item['code'].append((the_code, 2, sentence.sentence_index))
                                                elif re.search('(询价|合同|采购|招标|项目)标号：?$', pre_text[h]):
                                                    item['code'].append((the_code, 2.5, sentence.sentence_index))
                                                else:
                                                    item['code'].append((the_code, 3, sentence.sentence_index))
                                            break
                                elif the_code not in code_set:
                                    if len(the_code)<5: # 避免510545935 这种把 招标项目编号：2024年第二期 只提取2024
                                        continue
                                    code_set.add(the_code)
                                    # item['code'].append(the_code)
                                    if re.search("(项目编号|招标编号)：?$", pre_text[h]):
                                        item['code'].append((the_code, 0, sentence.sentence_index))
                                    elif re.search('采购(计划)?编号：?$', pre_text[h]):
                                        item['code'].append((the_code, 1, sentence.sentence_index))
                                    elif re.search('(询价|合同)编号：?$', pre_text[h]):
                                        item['code'].append((the_code, 2, sentence.sentence_index))
                                    elif re.search('(询价|合同|采购|招标|项目)标号：?$', pre_text[h]):
                                        item['code'].append((the_code, 2.5, sentence.sentence_index))
                                    else:
                                        item['code'].append((the_code, 3, sentence.sentence_index))

                                # if the_code not in code_set:
                                #     code_set.add(the_code)
                                #     item['code'] = list(code_set)
                    for iter in re.finditer(self.PN_pattern,join_predict):
                        _name = self.fitDataByRule(pad_sentence[iter.span()[0]:iter.span()[1]])
                        if len(_name)>200: # 避免模型预测类似 202750503 这种很长重复字很多的错误项目名称
                            continue
                        elif '公司：你单位在' in _name: # 避免类似 339900030 这种作为项目名称，导致中标角色作为招标角色
                            continue
                        elif _name.endswith('公司') and len(_name)<20: # 修复 456957250 雄县辉茂纸塑包装制品销售有限公司 作为项目名称
                            continue

                        #add name to entitys
                        _entity = Entity(doc_id=sentence.doc_id,entity_id="%s_%s_%s_%s"%(sentence.doc_id,sentence.sentence_index,iter.span()[0],iter.span()[1]),entity_text=_name,entity_type="name",sentence_index=sentence.sentence_index,begin_index=0,end_index=0,wordOffset_begin=iter.span()[0],wordOffset_end=iter.span()[1],in_attachment=sentence.in_attachment)
                        list_entity.append(_entity)
                        # w = 1 if re.search('(项目|工程|招标|合同|标项|标的|计划|询价|询价单|询价通知书|申购)(名称|标题|主题)[:：\s]', pad_sentence[iter.span()[0]-10:iter.span()[0]])!=None else 0.5
                        w = 1 if re.search('(项目|工程|招标|采购|合同|标项|标的|计划|询价|询价单|询价通知书|申购)(名称|标题|主题|项目)[:：\s]', pad_sentence[iter.span()[0]-10:iter.span()[0]])!=None else 0.5
                        if _name not in dict_name_freq_score:
                            # dict_name_freq_score[_name] = [1,len(re.findall(pattern_score,_name))+len(_name)*0.1]
                            len_name = len(_name) if len(_name) <50 else 100-len(_name) # 2023/03/02 超出50长度的逐渐递减
                            dict_name_freq_score[_name] = [1, (len(re.findall(pattern_score, _name)) + len_name * 0.05), w]
                        else:
                            dict_name_freq_score[_name][0] += 1
                        if w > dict_name_freq_score[_name][2]:
                            dict_name_freq_score[_name][2] = w
                    '''
                    for iter in re.finditer(self.PN_pattern,join_predict):
                        print("name-",self.fitDataByRule(pad_sentence[iter.span()[0]:iter.span()[1]]))
                    if item[1]['name']=="":
                        for iter in re.finditer(self.PN_pattern,join_predict):
                            #item[1]['name']=item[1]['name']+";"+self.fitDataByRule(pad_sentence[iter.span()[0]:iter.span()[1]])
                            item[1]['name']=self.fitDataByRule(pad_sentence[iter.span()[0]:iter.span()[1]])
                            break
                    '''
                if _begin_index+_LEN>=len(list_sentence):
                    break
                _begin_index += _LEN
            
            list_name_freq_score = []
            # print('模型预测项目名称：', dict_name_freq_score)

            # 2020/11/23 大网站规则调整
            if len(dict_name_freq_score) == 0:
                # name_re1 = '(项目|工程|招标|合同|标项|标的|计划|询价|询价单|询价通知书|申购)(名称|标题|主题)[:：\s]+([^，。：；]{2,60})[，。]'
                name_re1 = '(项目|工程|招标|采购(条目)?|合同|标项|标的|计划|询价|询价单|询价通知书|申购单|申购)(名称|标名|标题|主题)[:：\s]+(?P<name>[^，。：；]{2,60})[，。]'
                name_re2 = '(合同|采购)包\d（(?P<name>[^，。：；]{2,60})）[：，。]' # 20241202 补充合同包 包名表达 558410976
                for sentence in list_sentence:
                    # pad_sentence = sentence.sentence_text
                    othername = re.search(name_re1, sentence.sentence_text)
                    if othername == None:
                        othername = re.search(name_re2, sentence.sentence_text)
                    if othername != None:
                        project_name = othername.group('name')
                        if re.search('[\u4e00-\u9fa5]+', project_name) == None:  # 没有中文的项目名称去除
                            # log('没有中文的项目名称去除')
                            continue
                        beg = find_index([project_name], sentence.sentence_text)[0]
                        end = beg + len(project_name)
                        _name = self.fitDataByRule(sentence.sentence_text[beg:end])
                        # print('规则召回项目名称：', _name)
                        # add name to entitys
                        _entity = Entity(doc_id=sentence.doc_id, entity_id="%s_%s_%s_%s" % (
                        sentence.doc_id, sentence.sentence_index, beg, end), entity_text=_name,
                                         entity_type="name", sentence_index=sentence.sentence_index, begin_index=0,
                                         end_index=0, wordOffset_begin=beg, wordOffset_end=end,in_attachment=sentence.in_attachment)
                        list_entity.append(_entity)
                        w = 1
                        if _name not in dict_name_freq_score:
                            # dict_name_freq_score[_name] = [1,len(re.findall(pattern_score,_name))+len(_name)*0.1]
                            dict_name_freq_score[_name] = [1, (len(re.findall(pattern_score, _name)) + len(_name) * 0.05), w]
                        else:
                            dict_name_freq_score[_name][0] += 1
                # othername = re.search(name_re1, sentence.sentence_text)
                # if othername != None:
                #     _name = othername.group(3)
                #     if _name not in dict_name_freq_score:
                #         dict_name_freq_score[_name] = [1, len(re.findall(pattern_score, _name)) + len(_name) * 0.1]
                #     else:
                #         dict_name_freq_score[_name][0] += 1

            for _name in dict_name_freq_score.keys():
                list_name_freq_score.append([_name,dict_name_freq_score[_name]])
            # print(list_name_freq_score)
            if len(list_name_freq_score)>0:
                list_name_freq_score.sort(key=lambda x:x[1][0]*x[1][1]*x[1][2],reverse=True)
                item['name'] = list_name_freq_score[0][0]
                # for it in list_name_freq_score:
                    # print('项目名称及分值：',it[0],it[1], it[1][0]*it[1][1])
                # if list_name_freq_score[0][1][0]>1:
                #     item[1]['name'] = list_name_freq_score[0][0]
                # else:
                #     list_name_freq_score.sort(key=lambda x:x[1][1],reverse=True)
                #     item[1]["name"] = list_name_freq_score[0][0]
                
            #下面代码加上去用正则添加某些识别不到的项目编号
            if item['code'] == []:
                for sentence in list_sentence:
                    # othercode = re.search('(采购计划编号|询价编号)[\)）]?[:：]?([\[\]a-zA-Z0-9\-]{5,30})', sentence.sentence_text)
                    # if othercode != None:
                    #     item[1]['code'].append(othercode.group(2))
                    # 2020/11/23 大网站规则调整
                    othercode = re.search('(项目|采购|招标|品目|询价|竞价|询价[单书]|磋商|订单|账单|交易|文件|计划|场次|标的|标段|标包|分包|标段\(包\)|招标文件|合同|通知书|公告|工程|寻源|标书|包件|谈判|申购)(单据?号|编号|标号|编码|代码|备案号|号)[:：\s]+(?P<code>[^，。；：、]{6,30}[a-zA-Z0-9\号期])[\)，。\u4e00-\u9fa5]', sentence.sentence_text)
                    if othercode != None:
                        # item['code'].append(othercode.group('code'))
                        if re.search("(项目编号|招标编号)：?$", othercode.group(0)):
                            item['code'].append((othercode.group('code'), 0, sentence.sentence_index))
                        elif re.search('采购(计划)?编号：?$', othercode.group(0)):
                            item['code'].append((othercode.group('code'), 1, sentence.sentence_index))
                        elif re.search('(询价|合同)编号：?$', othercode.group(0)):
                            item['code'].append((othercode.group('code'), 2, sentence.sentence_index))
                        elif re.search('(询价|合同|采购|招标|项目)标号：?$', othercode.group(0)):
                            item['code'].append((othercode.group('code'), 2.5, sentence.sentence_index))
                        else:
                            item['code'].append((othercode.group('code'), 3, sentence.sentence_index))
                        # print('规则召回项目编号：', othercode.group('code'))
            # item['code'] = [code for code in item['code'] if len(code)<500]
            # item['code'].sort(key=lambda x:len(x),reverse=True)
            item['code'] = [code for code in item['code'] if len(code[0]) < 500]
            item['code'].sort(key=lambda x: [x[1],x[2]])
            item['code'] = [it[0] for it in item['code']]
            result.append(item)

            list_sentence.sort(key=lambda x: x.sentence_index,reverse=False)
        return result
                        
                
    '''
    #当数据量过大时会报错
    def predict(self,articles,MAX_LEN = None):
        sentences = []
        for article in articles:
            for sentence in article.content.split("。"):
                sentences.append([sentence,article.id])
        if MAX_LEN is None:
            sent_len = [len(sentence[0]) for sentence in sentences]
            MAX_LEN = max(sent_len)
            #print(MAX_LEN)
           
        #若为空，则直接返回空
        result = [] 
        if MAX_LEN==0:
            for article in articles:
                result.append([article.id,{"code":[],"name":""}])
            return result
        
        index_unk = self.word2index.get("<unk>")
        index_pad = self.word2index.get("<pad>")
        
        x = [[self.word2index.get(word,index_unk)for word in sentence[0]]for sentence in sentences]
        x = pad_sequences(x,maxlen=MAX_LEN,padding="post",truncating="post")
        
        predict_y = self.getModel().predict(x)
        
        
        last_doc_id = ""
        item = []
        for sentence,predict in zip(sentences,np.argmax(predict_y,-1)):
            pad_sentence = sentence[0][:MAX_LEN]
            doc_id = sentence[1]
            join_predict = "".join([str(s) for s in predict])
            if doc_id!=last_doc_id:
                if last_doc_id!="":
                    result.append(item)
                item = [doc_id,{"code":[],"name":""}]
                code_set = set()
            code_x = []
            code_text = []
            for iter in re.finditer(self.PC_pattern,join_predict):
                get_len = 40
                if iter.span()[0]<get_len:
                    begin = 0
                else:
                    begin = iter.span()[0]-get_len
                end = iter.span()[1]+get_len
                code_x.append(embedding_word([pad_sentence[begin:iter.span()[0]],pad_sentence[iter.span()[0]:iter.span()[1]],pad_sentence[iter.span()[1]:end]],shape=(3,get_len,60)))
                code_text.append(pad_sentence[iter.span()[0]:iter.span()[1]])
            if len(code_x)>0:
                code_x = np.transpose(np.array(code_x),(1,0,2,3))
                predict_code = self.getModel_code().predict([code_x[0],code_x[1],code_x[2]])
                for h in range(len(predict_code)):
                    if predict_code[h][0]>0.5:
                        the_code = self.fitDataByRule(code_text[h])
                        if the_code not in code_set:
                            code_set.add(the_code)
                            item[1]['code'] = list(code_set)
            if item[1]['name']=="":
                for iter in re.finditer(self.PN_pattern,join_predict):
                    #item[1]['name']=item[1]['name']+";"+self.fitDataByRule(pad_sentence[iter.span()[0]:iter.span()[1]])
                    item[1]['name']=self.fitDataByRule(pad_sentence[iter.span()[0]:iter.span()[1]])
                    break
                
            last_doc_id = doc_id
        result.append(item)
        return result
    '''
        
#角色金额模型        
class PREMPredict():

    
    def __init__(self,config=None):
        #self.model_role_file = os.path.abspath("../role/models/model_role.model.hdf5")
        # self.model_role_file = os.path.dirname(__file__)+"/../role/log/new_biLSTM-ep012-loss0.028-val_loss0.040-f10.954.h5"
        self.model_role = Model_role_classify_word(config=config)
        self.model_money = Model_money_classify(config=config)
        # self.role_file = open('/data/python/lsm/role_model_predict.txt', 'a', encoding='utf-8')
        # self.money_file = open('/data/python/lsm/money_model_predict.txt', 'a', encoding='utf-8')
        
        return
    
    def search_role_data(self,list_sentences,list_entitys):
        '''
        @summary:根据句子list和实体list查询角色模型的输入数据
        @param:
            list_sentences:文章的sentences
            list_entitys:文章的entitys
        @return:角色模型的输入数据
        '''
        text_list = []
        data_x = []
        points_entitys = []
        for list_entity,list_sentence in zip(list_entitys,list_sentences):

            list_entity.sort(key=lambda x:x.sentence_index)
            list_sentence.sort(key=lambda x:x.sentence_index)
            p_entitys = 0
            p_sentences = 0
            while(p_entitys<len(list_entity)):
                entity = list_entity[p_entitys]
                if entity.entity_type in ['org','company']:
                    while(p_sentences<len(list_sentence)):
                        sentence = list_sentence[p_sentences]
                        if entity.doc_id==sentence.doc_id and entity.sentence_index==sentence.sentence_index:
                            # text_list.append(sentence.sentence_text[max(0, entity.wordOffset_begin-13):entity.wordOffset_end+10])
                            text_sen = sentence.sentence_text
                            b = entity.wordOffset_begin
                            e = entity.wordOffset_end
                            text_list.append((text_sen[max(0, b-13):b], text_sen[b:e], text_sen[e:e+15]))
                            # item_x = embedding(spanWindow(tokens=sentence.tokens,begin_index=entity.begin_index,end_index=entity.end_index,size=settings.MODEL_ROLE_INPUT_SHAPE[1]),shape=settings.MODEL_ROLE_INPUT_SHAPE)
                            # item_x = self.model_role.encode(tokens=sentence.tokens,begin_index=entity.begin_index,end_index=entity.end_index,entity_text=entity.entity_text)
                            item_x = self.model_role.encode_word(sentence_text=text_sen, begin_index=entity.wordOffset_begin, end_index=entity.wordOffset_end, size=30)
                            data_x.append(item_x)
                            points_entitys.append(entity)
                            break
                        p_sentences += 1
                    
                p_entitys += 1
            
        if len(points_entitys)==0:
            return None
        
        return [data_x,points_entitys, text_list]
    
    
    def search_money_data(self,list_sentences,list_entitys):
        '''
        @summary:根据句子list和实体list查询金额模型的输入数据
        @param:
            list_sentences:文章的sentences
            list_entitys:文章的entitys
        @return:金额模型的输入数据
        '''
        text_list = []
        data_x = []
        points_entitys = []
        for list_entity,list_sentence in zip(list_entitys,list_sentences):

            list_entity.sort(key=lambda x:x.sentence_index)
            list_sentence.sort(key=lambda x:x.sentence_index)
            p_entitys = 0
    
            while(p_entitys<len(list_entity)):
                entity = list_entity[p_entitys]
                if entity.entity_type=="money":
                    p_sentences = 0
                    while(p_sentences<len(list_sentence)):
                        sentence = list_sentence[p_sentences]
                        if entity.doc_id==sentence.doc_id and entity.sentence_index==sentence.sentence_index:
                            # text_list.append(sentence.sentence_text[max(0, entity.wordOffset_begin - 13):entity.wordOffset_begin])
                            text_sen = sentence.sentence_text
                            b = entity.wordOffset_begin
                            e = entity.wordOffset_end
                            text_list.append((text_sen[max(0, b - 13):b], text_sen[b:e], text_sen[e:e + 10]))
                            #item_x = embedding(spanWindow(tokens=sentence.tokens,begin_index=entity.begin_index,end_index=entity.end_index,size=settings.MODEL_MONEY_INPUT_SHAPE[1]),shape=settings.MODEL_MONEY_INPUT_SHAPE)
                            #item_x = embedding_word(spanWindow(tokens=sentence.tokens, begin_index=entity.begin_index, end_index=entity.end_index, size=10, center_include=True, word_flag=True),shape=settings.MODEL_MONEY_INPUT_SHAPE)
                            item_x = self.model_money.encode(tokens=sentence.tokens,begin_index=entity.begin_index,end_index=entity.end_index)
                            data_x.append(item_x)
                            points_entitys.append(entity)
                            break
                        p_sentences += 1
                p_entitys += 1
        
        if len(points_entitys)==0:
            return None
        
        return [data_x,points_entitys, text_list]
    
    def predict_role(self,list_sentences, list_entitys):
        datas = self.search_role_data(list_sentences, list_entitys)

        if datas is None:
            return
        points_entitys = datas[1]
        text_list = datas[2]


        if USE_PAI_EAS:
            _data = datas[0]
            _data = np.transpose(np.array(_data),(1,0,2))
            request = tf_predict_pb2.PredictRequest()
            request.inputs["input0"].dtype = tf_predict_pb2.DT_FLOAT
            request.inputs["input0"].array_shape.dim.extend(np.shape(_data[0]))
            request.inputs["input0"].float_val.extend(np.array(_data[0],dtype=np.float64).reshape(-1))
            request.inputs["input1"].dtype = tf_predict_pb2.DT_FLOAT
            request.inputs["input1"].array_shape.dim.extend(np.shape(_data[1]))
            request.inputs["input1"].float_val.extend(np.array(_data[1],dtype=np.float64).reshape(-1))
            request.inputs["input2"].dtype = tf_predict_pb2.DT_FLOAT
            request.inputs["input2"].array_shape.dim.extend(np.shape(_data[2]))
            request.inputs["input2"].float_val.extend(np.array(_data[2],dtype=np.float64).reshape(-1))
            request_data = request.SerializeToString()
            list_outputs = ["outputs"]
            _result = vpc_requests(role_url, role_authorization, request_data, list_outputs)
            if _result is not None:
                predict_y = _result["outputs"]
            else:
                predict_y = self.model_role.predict(datas[0])
        else:
            predict_y = self.model_role.predict(np.array(datas[0],dtype=np.float64))
        for i in range(len(predict_y)):
            entity = points_entitys[i]
            label = np.argmax(predict_y[i])
            values = predict_y[i]
            # text = text_list[i]
            text_tup = text_list[i]
            front, middle, behind = text_tup
            whole = "".join(text_tup)
            # print('模型预测角色：', front, entity.entity_text, behind,label, values)
            # if label in [0, 1, 2, 3, 4]:
            #     self.role_file.write("{0}#split#{1}#split#{2}#split#{3}#split#{4}\n".format(front, entity.entity_text, behind,label, entity.doc_id))
            if re.search('^以\d+[\d,.]+万?元中标', behind) and label != 2: # 优化244261884预测错误 大连长之琳科技发展有限公司以7.63277万元中标
                label = 2
                values[label] = 0.8
            if label in [0, 1, 2, 3, 4] and values[label] < 0.5: # 小于阈值的设为其他，让后面的规则召回重新判断
                # print(' # 小于阈值的设为其他，让后面的规则召回重新判断', values[label])
                label = 5
            elif label in [2,3,4] and re.search('序号：\d+，\w{,2}候选', front):
                label = 5
            elif label == 0:
                if re.search('拟邀请$|受邀谈判方', front):
                    label = 2
                    values[label] = 0.501
                elif re.search('(发布(人|方|单位|机构|组织|用户|业主|主体|部门|公司|企业)|组织(单位|人|方|机构)?|(采购|招标|发布)机构)(名称)?[是为：]+', front) and is_agency(entity.entity_text):
                    label = 1
                    values[label] = 0.501
                elif re.search('受托人(（盖章）)?：$', front):
                    label = 1
                    values[label] = 0.501
                elif re.search('采用$|异议受理部门|本次招标有：$|直购企业：$|主报名人：$|采购候选人：$', front): # 368177736 因本项目招标采用广西壮族自治区公共资源交易平台系统-  标公告，本次招标有：内黄县汇融钢材有限公司、安阳正元建筑工程有限公司、内黄县鸿业贸易有限责任公司三家合格供应商进行报名投标。  438880541 直购企业可能为多个，其中一个中标
                    label = 5
                elif re.search('，单位名称：$', front) and re.search('^，(中标|中选)价格', behind):
                    label = 2
                    values[label] = 0.501
            elif label == 2:
                if re.search('中标单位和.{,25}签订合同', whole):
                    label = 0
                    values[label] = 0.501
                elif re.search('尊敬的供应商：.{,25}我公司', whole):
                    label = 0
                    values[label] = 0.801
                elif re.search('尊敬的供应商：$|本项目确定1名中[标选]人为$', front):
                    label = 0
                    values[label] = 0.501
                elif re.search('第[4-9四五六]中标候选人|(提交单位|竞投单位)：$|第[4-9四五六七八九十]名', front):  #修复第4以上的预测错为中标人
                    label = 5
                    values[2] = 0.5
                elif re.search('(排名|排序|名次)：([4-9]|\d{2,})，', front): # or re.search('序号：\d+，(供应商|投标|候选)', front): # 293225236 附件中 排名预测错误
                    values[2] = 0.5
                    label = 5
                elif re.search('税费', front) and re.search('^承担', behind):
                    label = 5
                elif re.search('第一候补|第一后备|备选', front):
                    label = 3
                    values[label] = 0.6
                elif re.search('^放弃中标资格|是否中标：否|^(中标|成交)(公示|公告)', behind):
                    values[2] = 0.5
                    label = 5
                elif re.search('^，?(投标报价|(资格性审查：|符合性审查：)?(不通过|不符合))', behind) and re.search('中标|成交|中选|排名|排序|名次|第[一1]', front)==None and values[2]<0.7: #20241126补充条件避免漏提 560768263 第一候选人：单位名称： 上海理想信息产业（集团）有限公司 ，投标报价：
                    values[2] = 0.5
                    label = 5
                elif re.search('(承包权人|帐户名称|债务人|推荐预审合格投标人名单)：$|确定为标的的受让方，$|[主次出]入口?，?$|确定(项目|\w{,2})成交供应商，$|，承刻单位：$|乙方接受为$|丙方：$', front):  # 234501112 民币元，序号：1，债务人： 东营市海宁工贸有限责任公司 ，债权本金： 262414286 八、中标后签约单位，合同签约单位： 241929628 1月9，承刻单位： 肃宁县超凡网络光敏印章刻印部 ，印章预留印模
                    label = 5
                elif re.search('，来源：$', front) and re.search('^，', behind): # 修复 472062585 项目采购-关于定制手机询比价采购中标公告，来源：深圳市网联安瑞网络科技有限公司 预测为中标
                    label = 0
                    values[label] = 0.5
                elif re.search('合同供方：?$|合同签约单位', front):
                    label = 0
                    values[label] = 0.5
                elif re.search('现由$', front) and re.search('^作为\d个单位的牵头(单位|公司)?', behind): # 修复 469369884 站源批量预测错误 现由第七合同段保利长大工程有限公司作为6个单位的牵头单位，
                    label = 5
                elif re.search('(中标|成交）?|结果）?)(人|公告|公示)，$|中标人信息：$', front): # 20250227修复中标错误 588005167 现确定贵公司为该项目的中标人，中国二冶集团有限公司，2025年01月26日，
                    label = 5
                elif re.search('确定$', front) and re.search('^\w{,5}(项目|采购|招标)', behind):
                    label = 5
                elif re.search('由$', front) and re.search('^进行招标', behind):
                    label = 0
                    values[0] = 0.5
                elif re.search('^为\w{,10}第二(成交|中标)单位', behind): # 中标预测错误，例：601143888 河南省创慧新材料科技有限公司为铸咀采购项目第二成交单位
                    label = 3
                    values[3] = 0.5
            elif re.search('是否中标：是，供应商', front) and label == 5:
                label = 2
                values[label] = 0.9
            elif label == 1:
                if re.search('委托(单位|人|方)[是为：]+',front) and re.search('受委托(单位|人|方)[是为：]+', front)==None:
                    label = 0
                    values[label] = 0.501
                elif re.search('([，。：]|^)(第一)?(服务|中选|中标)(中介服务|代理)?(公司|机构)(名称)?', front):
                    label = 2
                    values[label] = 0.501
                elif re.search('在中介超市委托$', front) and re.search('^负责', behind):
                    label = 2
                    values[label] = 0.501
                elif re.search('^：受', behind):  # 354009560 附件格式问题 ，中选中介服务机构通知书，编号：HZ2305120541，中汕项目管理有限公司：受惠东县人民政府大岭街道办事处委托
                    label = 5
                elif re.search('发布机构', front) and not is_agency(entity.entity_text):
                    label = 0
                    values[label] = 0.501
                elif re.search('开户银行：$|环境影响评价机构|环评机构|评价机构', front): # 368214232 法定代表人：委托代理人：开户银行：鸡东建行
                    label = 5
                elif re.search('委托$', front) and re.search('^(抽样|送检|看样)', behind):
                    label = 5
                elif re.search('推荐入围的招标代理单位：$', front): # 20240709 修复302505502预测错为代理
                    label = 2
                    values[label] = 0.501
            elif label in [3,4]:
                if re.search('第[二三]分(公司|店)，中标(人|供应商|单位|公司)：$', front):
                    label = 2
                    values[label] = 0.7
                elif re.search('决定选择第[二三]名', front) and re.search('^作为(中标|成交)(人|供应商|单位|公司)', behind):
                    label = 2
                    values[label] = 0.8
                elif re.search('\d+\.\d+，供应商名称：', front): #  341385226 30.2，供应商名称： 预测为第二名
                    label = 2
                    values[label] = 0.501
                elif re.search('\d+\.\d+[，、]?(中标|成交)候选人|[；，][23]、(中标|中选|成交)候选人：', front):
                    label = 5
                    values[label] = 0.501
                elif re.search('第一名：$', front):
                    label = 2
                    values[label] = 0.7
            elif re.search('(中标|成交)通知书[，：]$', front) and re.search('^：', behind) and label != 2:
                label = 2
                values[label] = 0.8
            elif label==5 and re.search('^拟(招标|采购)一批|^须购置一批', front):
                label = 0
                values[label] = 0.7
            entity.set_Role(label, values)

    def predict_money(self,list_sentences,list_entitys):
        datas = self.search_money_data(list_sentences, list_entitys)
        if datas is None:
            return
        points_entitys = datas[1]
        _data = datas[0]
        text_list = datas[2]
        if USE_PAI_EAS:
            _data = np.transpose(np.array(_data),(1,0,2,3))
            request = tf_predict_pb2.PredictRequest()
            request.inputs["input0"].dtype = tf_predict_pb2.DT_FLOAT
            request.inputs["input0"].array_shape.dim.extend(np.shape(_data[0]))
            request.inputs["input0"].float_val.extend(np.array(_data[0],dtype=np.float64).reshape(-1))
            request.inputs["input1"].dtype = tf_predict_pb2.DT_FLOAT
            request.inputs["input1"].array_shape.dim.extend(np.shape(_data[1]))
            request.inputs["input1"].float_val.extend(np.array(_data[1],dtype=np.float64).reshape(-1))
            request.inputs["input2"].dtype = tf_predict_pb2.DT_FLOAT
            request.inputs["input2"].array_shape.dim.extend(np.shape(_data[2]))
            request.inputs["input2"].float_val.extend(np.array(_data[2],dtype=np.float64).reshape(-1))
            request_data = request.SerializeToString()
            list_outputs = ["outputs"]
            _result = vpc_requests(money_url, money_authorization, request_data, list_outputs)
            if _result is not None:
                predict_y = _result["outputs"]
            else:
                predict_y = self.model_money.predict(_data)
        else:
            predict_y = self.model_money.predict(_data)
        for i in range(len(predict_y)):
            entity = points_entitys[i]
            label = np.argmax(predict_y[i])
            values = predict_y[i]
            # text = text_list[i]
            text_tup = text_list[i]
            front, middle, behind = text_tup
            whole = "".join(text_tup)
            # print('金额： ', entity.entity_text, label, values, front, middle, behind)
            # if label in [0, 1]:
            #     self.money_file.write("{0}  {1}  {2}  {3}\n".format(front, entity.entity_text, behind, label))
            if label in [0, 1] and values[label] < 0.5: # 小于阈值的设为其他金额，让后面的规则召回重新判断
                # print('模型预测金额： ', entity.entity_text, label, values, front, middle, behind)
                label = 2
            elif label == 1: # 错误中标金额处理
                if re.search('[:：，。](总金额|总价|单价|合价)(（万?元）)?：?$', front) and re.search('(中标|投标|成交|中价)', front)==None:
                    values[label] = 0.5
                elif re.search('[\+=]（(中标|成交)(金?额|价格?)|[若如]果?(中标|成交)(金?额|价格?)为?', front): # 处理例如 241561780 如中标金额为 500-1000万元，则代理服务费=100 万元×0.5％+400万元×0.35％+（中标金额－500）万元
                    values[label] = 0.49
                elif re.search('^(以[上下])?按[\d.%]+收取|^及?以[上下]|^[（）]?[+×*-][\d.%]+', behind):
                    values[label] = 0.49
                elif re.search('(含|在|包括|[大小等高低]于|达到)$|[\d.%]+[+×*-]$', front):
                    values[label] = 0.49
                # elif entity.notes == '单价' and float(entity.entity_text)<5000: # 20241128 注释，单价单独存放
                #     label = 2
            elif label ==0: # 错误招标金额处理
                if entity.notes in ["投资", "总投资","工程造价"] or re.search('投资(金额|规模)：$', front): # 545988699 金额不大的投资金额作为备选招标金额
                    values[label] = 0.51
                elif re.search('最低限价：?$|注册资本', front) or re.search('服务内容：([\d,.]+万?亿?元?-?)$', front):
                    values[label] = 0.49
                    label = 2
                elif re.search('^(以[上下])?按[\d.%]+收取|^及?以[上下]|^[（）]?[+×*-][\d.%]+|（含）', behind):
                    values[label] = 0.49
                # elif re.search('(含|在|包括|[大小等高低]于|如预算金额为)$|[\d.%]+(（含）)?[+×*-]$', front):  # 2024/10/30 注销，避免漏提 预算金额：控制在26000元以内由合作银行出资 ；投资金额不低于人民币500万元
                #     values[label] = 0.49
                # elif entity.notes == '单价' and float(entity.entity_text)<5000: # 20241128 注释，单价单独存放
                #     label = 2
                elif re.search('招标金额|限价|预算|控制价|拦标价', front) == None and re.search('预计约?为?$',
                                                                                  front):  # 20241206纠正 565894149（预计约2500元）预测为预算
                    label = 2
            elif re.search('报价：预估不?含税总价[为：]$', front) and (label != 1 or values[label]<0.5):
                label = 1
                values[label] = 0.8
            entity.set_Money(label, values)

    def correct_money_by_rule(self, title, list_entitys, list_articles):
        if (len(re.findall('监理|施工|设计|勘察', title)) == 1 and re.search('施工|总承包|epc|EPC', title) == None) or re.search('服务金额', list_articles[0].content):
            # keyword = re.search('监理|设计|勘察', title).group(0)
            for list_entity in list_entitys:
                for _entity in list_entity:
                    # print('keyword:',keyword, '_entity.notes :',_entity.notes)
                    # if _entity.entity_type == "money" and _entity.notes == keyword and _entity.label == 2:
                    if _entity.entity_type == "money" and _entity.notes == '招标或中标金额' and _entity.label == 2:
                        # if channel_dic['docchannel'] == "招标公告":
                        if re.search('中标|成交|中选|中价|中租|结果|入围', title + list_articles[0].content[:100]) == None:
                            _entity.values[0] = 0.55
                            _entity.set_Money(0, _entity.values)  # 2021/11/18 根据公告类别把费用改为招标或中投标金额
                        else:
                            _entity.values[1] = 0.55
                            _entity.set_Money(1, _entity.values)

    def predict(self,list_sentences,list_entitys):
        self.predict_role(list_sentences,list_entitys)
        self.predict_money(list_sentences,list_entitys)
        
        
#联系人模型    
class EPCPredict():
    
    def __init__(self,config=None):
        self.model_person = Model_person_classify(config=config)


    def search_person_data(self,list_sentences,list_entitys):
        '''
        @summary:根据句子list和实体list查询联系人模型的输入数据
        @param:
            list_sentences:文章的sentences
            list_entitys:文章的entitys
        @return:联系人模型的输入数据
        '''

        data_x = []
        points_entitys = []
        pre_texts = []
        for list_entity,list_sentence in zip(list_entitys,list_sentences):
            
            p_entitys = 0
            dict_index_sentence = {}
            for _sentence in list_sentence:
                dict_index_sentence[_sentence.sentence_index] = _sentence

            _list_entity = [entity for entity in list_entity if entity.entity_type=="person"]
            while(p_entitys<len(_list_entity)):
                entity = _list_entity[p_entitys]
                if entity.entity_type=="person":
                    sentence = dict_index_sentence[entity.sentence_index]

                    item_x = self.model_person.encode(tokens=sentence.tokens,begin_index=entity.begin_index,end_index=entity.end_index)
                    data_x.append(item_x)
                    points_entitys.append(entity)
                    pre_texts.append(spanWindow(tokens=sentence.tokens,begin_index=entity.begin_index,end_index=entity.end_index,size=20))

                p_entitys += 1

        if len(points_entitys)==0:
            return None
        
        # return [data_x,points_entitys,dianhua]
        return [data_x,points_entitys, pre_texts]

    def predict_person(self,list_sentences, list_entitys):
        datas = self.search_person_data(list_sentences, list_entitys)
        if datas is None:
            return
        points_entitys = datas[1]
        pre_texts = datas[2]
        # phone = datas[2]
        if USE_PAI_EAS:
            _data = datas[0]
            _data = np.transpose(np.array(_data),(1,0,2,3))
            request = tf_predict_pb2.PredictRequest()
            request.inputs["input0"].dtype = tf_predict_pb2.DT_FLOAT
            request.inputs["input0"].array_shape.dim.extend(np.shape(_data[0]))
            request.inputs["input0"].float_val.extend(np.array(_data[0],dtype=np.float64).reshape(-1))
            request.inputs["input1"].dtype = tf_predict_pb2.DT_FLOAT
            request.inputs["input1"].array_shape.dim.extend(np.shape(_data[1]))
            request.inputs["input1"].float_val.extend(np.array(_data[1],dtype=np.float64).reshape(-1))
            request_data = request.SerializeToString()
            list_outputs = ["outputs"]
            _result = vpc_requests(person_url, person_authorization, request_data, list_outputs)
            if _result is not None:
                predict_y = _result["outputs"]
            else:
                predict_y = self.model_person.predict(datas[0])
        else:
            predict_y = self.model_person.predict(datas[0])
        # assert len(predict_y)==len(points_entitys)==len(phone)
        assert len(predict_y)==len(points_entitys)
        for i in range(len(predict_y)):
            entity = points_entitys[i]
            label = np.argmax(predict_y[i])
            pre_text = ''.join(pre_texts[i][0])
            # print('pre_text', pre_text)
            if label==0 and re.search('(谈判|磋商|询价|资格审查|评审专家|(评选|议标|评标|评审)委员会?|专家|评委)(小?组|小?组成员)?(成员|名单)[：，](\w{2,4}(（组长）|（成员）)?[、，,])*$', pre_text):
                # print(entity.entity_text, re.search('(谈判|磋商|询价|资格审查|评审专家|(评选|议标|评标|评审)委员会?|专家|评委)(小?组|小?组成员)?(成员|名单)[：，](\w{2,4}(（组长）|（成员）)?[、，,])*$', pre_text).group(0))
                label = 4
            values = []
            for item in predict_y[i]:
                values.append(item)
            # phone_number = phone[i]
            # entity.set_Person(label,values,phone_number)
            entity.set_Person(label,values,[])
        # 为联系人匹配电话
        # self.person_search_phone(list_sentences, list_entitys)

    def person_search_phone(self,list_sentences, list_entitys):
        def phoneFromList(phones):
            # for phone in phones:
            #     if len(phone)==11:
            #         return re.sub('电话[：|:]|联系方式[：|:]','',phone)
            return re.sub('电话[：|:]|联系方式[：|:]', '', phones[0])

        for list_entity, list_sentence in zip(list_entitys, list_sentences):
            # p_entitys = 0
            # p_sentences = 0
            #
            # key_word = re.compile('电话[：|:].{0,4}\d{7,12}|联系方式[：|:].{0,4}\d{7,12}')
            # # phone = re.compile('1[3|4|5|7|8][0-9][-—－]?\d{4}[-—－]?\d{4}|\d{3,4}[-—－]\d{7,8}/\d{3,8}|\d{3,4}[-—－]\d{7,8}转\d{1,4}|\d{3,4}[-—－]\d{7,8}|[\（|\(]0\d{2,3}[\）|\)]-?\d{7,8}-?\d{,4}')  # 联系电话
            # # 2020/11/25 增加发现的号码段
            # phone = re.compile('1[3|4|5|6|7|8|9][0-9][-—－]?\d{4}[-—－]?\d{4}|'
            #                    '\d{3,4}[-—－][1-9]\d{6,7}/\d{3,8}|'
            #                    '\d{3,4}[-—－]\d{7,8}转\d{1,4}|'
            #                    '\d{3,4}[-—－]?[1-9]\d{6,7}|'
            #                    '[\（|\(]0\d{2,3}[\）|\)]-?\d{7,8}-?\d{,4}|'
            #                    '[1-9]\d{6,7}')  # 联系电话
            # dict_index_sentence = {}
            # for _sentence in list_sentence:
            #     dict_index_sentence[_sentence.sentence_index] = _sentence
            #
            # dict_context_itemx = {}
            # last_person = "####****++++$$^"
            # last_person_phone = "####****++++$^"
            # _list_entity = [entity for entity in list_entity if entity.entity_type == "person"]
            # while (p_entitys < len(_list_entity)):
            #     entity = _list_entity[p_entitys]
            #     if entity.entity_type == "person" and entity.label in [1,2,3]:
            #         sentence = dict_index_sentence[entity.sentence_index]
            #         # item_x = embedding(spanWindow(tokens=sentence.tokens,begin_index=entity.begin_index,end_index=entity.end_index,size=settings.MODEL_PERSON_INPUT_SHAPE[1]),shape=settings.MODEL_PERSON_INPUT_SHAPE)
            #
            #         # s = spanWindow(tokens=sentence.tokens,begin_index=entity.begin_index,end_index=entity.end_index,size=20)
            #
            #         # 2021/5/8 取上下文的句子，解决表格处理的分句问题
            #         left_sentence = dict_index_sentence.get(entity.sentence_index - 1)
            #         left_sentence_tokens = left_sentence.tokens if left_sentence else []
            #         right_sentence = dict_index_sentence.get(entity.sentence_index + 1)
            #         right_sentence_tokens = right_sentence.tokens if right_sentence else []
            #         entity_beginIndex = entity.begin_index + len(left_sentence_tokens)
            #         entity_endIndex = entity.end_index + len(left_sentence_tokens)
            #         context_sentences_tokens = left_sentence_tokens + sentence.tokens + right_sentence_tokens
            #         s = spanWindow(tokens=context_sentences_tokens, begin_index=entity_beginIndex,
            #                        end_index=entity_endIndex, size=20)
            #
            #         _key = "".join(["".join(x) for x in s])
            #         if _key in dict_context_itemx:
            #             _dianhua = dict_context_itemx[_key][0]
            #         else:
            #             s1 = ''.join(s[1])
            #             # s1 = re.sub('，）', '-', s1)
            #             s1 = re.sub('\s', '', s1)
            #             have_key = re.findall(key_word, s1)
            #             have_phone = re.findall(phone, s1)
            #             s0 = ''.join(s[0])
            #             # s0 = re.sub('，）', '-', s0)
            #             s0 = re.sub('\s', '', s0)
            #             have_key2 = re.findall(key_word, s0)
            #             have_phone2 = re.findall(phone, s0)
            #
            #             s3 = ''.join(s[1])
            #             # s0 = re.sub('，）', '-', s0)
            #             s3 = re.sub(',|，|\s', '', s3)
            #             have_key3 = re.findall(key_word, s3)
            #             have_phone3 = re.findall(phone, s3)
            #
            #             s4 = ''.join(s[0])
            #             # s0 = re.sub('，）', '-', s0)
            #             s4 = re.sub(',|，|\s', '', s0)
            #             have_key4 = re.findall(key_word, s4)
            #             have_phone4 = re.findall(phone, s4)
            #
            #             _dianhua = ""
            #             if have_phone:
            #                 if entity.entity_text != last_person and s0.find(last_person) != -1 and s1.find(
            #                         last_person_phone) != -1:
            #                     if len(have_phone) > 1:
            #                         _dianhua = phoneFromList(have_phone[1:])
            #                 else:
            #                     _dianhua = phoneFromList(have_phone)
            #             elif have_key:
            #                 if entity.entity_text != last_person and s0.find(last_person) != -1 and s1.find(
            #                         last_person_phone) != -1:
            #                     if len(have_key) > 1:
            #                         _dianhua = phoneFromList(have_key[1:])
            #                 else:
            #                     _dianhua = phoneFromList(have_key)
            #             elif have_phone2:
            #                 if entity.entity_text != last_person and s0.find(last_person) != -1 and s0.find(
            #                         last_person_phone) != -1:
            #                     if len(have_phone2) > 1:
            #                         _dianhua = phoneFromList(have_phone2[1:])
            #                 else:
            #                     _dianhua = phoneFromList(have_phone2)
            #             elif have_key2:
            #                 if entity.entity_text != last_person and s0.find(last_person) != -1 and s0.find(
            #                         last_person_phone) != -1:
            #                     if len(have_key2) > 1:
            #                         _dianhua = phoneFromList(have_key2[1:])
            #                 else:
            #                     _dianhua = phoneFromList(have_key2)
            #             elif have_phone3:
            #                 if entity.entity_text != last_person and s4.find(last_person) != -1 and s3.find(
            #                         last_person_phone) != -1:
            #                     if len(have_phone3) > 1:
            #                         _dianhua = phoneFromList(have_phone3[1:])
            #                 else:
            #                     _dianhua = phoneFromList(have_phone3)
            #             elif have_key3:
            #                 if entity.entity_text != last_person and s4.find(last_person) != -1 and s3.find(
            #                         last_person_phone) != -1:
            #                     if len(have_key3) > 1:
            #                         _dianhua = phoneFromList(have_key3[1:])
            #                 else:
            #                     _dianhua = phoneFromList(have_key3)
            #             elif have_phone4:
            #                 if entity.entity_text != last_person and s4.find(last_person) != -1 and s4.find(
            #                         last_person_phone) != -1:
            #                     if len(have_phone4) > 1:
            #                         _dianhua = phoneFromList(have_phone4)
            #                 else:
            #                     _dianhua = phoneFromList(have_phone4)
            #             elif have_key4:
            #                 if entity.entity_text != last_person and s4.find(last_person) != -1 and s4.find(
            #                         last_person_phone) != -1:
            #                     if len(have_key4) > 1:
            #                         _dianhua = phoneFromList(have_key4)
            #                 else:
            #                     _dianhua = phoneFromList(have_key4)
            #             else:
            #                 _dianhua = ""
            #             # dict_context_itemx[_key] = [item_x, _dianhua]
            #             dict_context_itemx[_key] = [_dianhua]
            #         # points_entitys.append(entity)
            #         # dianhua.append(_dianhua)
            #         last_person = entity.entity_text
            #         if _dianhua:
            #             # 更新联系人entity联系方式（person_phone）
            #             entity.person_phone = _dianhua
            #             last_person_phone = _dianhua
            #         else:
            #             last_person_phone = "####****++++$^"
            #     p_entitys += 1

            from scipy.optimize import linear_sum_assignment
            from BiddingKG.dl.interface.Entitys import Match
            def dispatch(match_list):
                main_roles = list(set([match.main_role for match in match_list]))
                attributes = list(set([match.attribute for match in match_list]))

                label = np.zeros(shape=(len(main_roles), len(attributes)))
                for match in match_list:
                    main_role = match.main_role
                    attribute = match.attribute
                    value = match.value
                    label[main_roles.index(main_role), attributes.index(attribute)] = value + 10000
                # print(label)
                gragh = -label
                # km算法
                row, col = linear_sum_assignment(gragh)
                max_dispatch = [(i, j) for i, j, value in zip(row, col, gragh[row, col]) if value]
                return [Match(main_roles[row], attributes[col]) for row, col in max_dispatch]
            # km算法
            key_word = re.compile('((?:电话|联系方式|联系人).{0,4}?)(\d{7,12})')
            phone = re.compile('1[3|4|5|6|7|8|9][0-9][-—－―]?\d{4}[-—－―]?\d{4}|'
                               '\+86.?1[3|4|5|6|7|8|9]\d{9}|'
                               '0\d{2,3}[-—－―][1-9]\d{6,7}/[1-9]\d{6,10}|'
                               '0\d{2,3}[-—－―]\d{7,8}转\d{1,4}|'
                               '0\d{2,3}[-—－―]?[1-9]\d{6,7}|'
                               '[\（|\(]0\d{2,3}[\）|\)]-?\d{7,8}-?\d{,4}|'
                               '[1-9]\d{6,7}')
            phone_entitys = []
            for _sentence in list_sentence:
                sentence_text = _sentence.sentence_text
                res_set = set()
                for i in re.finditer(phone,sentence_text):
                    res_set.add((i.group(),i.start(),i.end()))
                for i in re.finditer(key_word,sentence_text):
                    res_set.add((i.group(2),i.start()+len(i.group(1)),i.end()))
                for item in list(res_set):
                    phone_left = sentence_text[max(0,item[1]-10):item[1]]
                    phone_right = sentence_text[item[2]:item[2]+8]
                    # 排除传真号 和 其它错误项
                    if re.search("传，?真|信，?箱|邮，?箱",phone_left):
                        if not re.search("电，?话",phone_left):
                            continue
                    if re.search("帐，?号|编，?号|报，?价|证，?号|价，?格|[\(（]万?元[\)）]",phone_left):
                        continue
                    if re.search("[.,]\d{2,}",phone_right):
                        continue
                    _entity = Entity(_sentence.doc_id, None, item[0], "phone", _sentence.sentence_index, None, None,item[1], item[2],in_attachment=_sentence.in_attachment)
                    phone_entitys.append(_entity)
            person_entitys = []
            for entity in list_entity:
                if entity.entity_type == "person":
                    entity.person_phone = ""
                    person_entitys.append(entity)
            _list_entity = phone_entitys + person_entitys
            _list_entity = sorted(_list_entity,key=lambda x:(x.sentence_index,x.wordOffset_begin))

            words_num_dict = dict()
            last_words_num = 0
            list_sentence = sorted(list_sentence, key=lambda x: x.sentence_index)
            for sentence in list_sentence:
                _index = sentence.sentence_index
                if _index == 0:
                    words_num_dict[_index] = 0
                else:
                    words_num_dict[_index] = words_num_dict[_index - 1] + last_words_num
                last_words_num = len(sentence.sentence_text)
            match_list = []
            for index in range(len(_list_entity)):
                entity = _list_entity[index]
                if entity.entity_type=="person" and entity.label in [1,2,3]:
                    match_nums = 0
                    for after_index in range(index + 1, min(len(_list_entity), index + 5)):
                        after_entity = _list_entity[after_index]
                        if after_entity.entity_type=="phone":
                            sentence_distance = after_entity.sentence_index - entity.sentence_index
                            distance = (words_num_dict[after_entity.sentence_index] + after_entity.wordOffset_begin) - (
                                    words_num_dict[entity.sentence_index] + entity.wordOffset_end)
                            if sentence_distance < 2 and distance < 50:
                                value = (-1 / 2 * (distance ** 2)) / 10000
                                match_list.append(Match(entity, after_entity, value))
                                match_nums += 1
                            else:
                                break
                        if after_entity.entity_type=="person":
                            if after_entity.label not in [1,2,3]:
                                break
                    if not match_nums:
                        for previous_index in range(index-1, max(0,index-5), -1):
                            previous_entity = _list_entity[previous_index]
                            if previous_entity.entity_type == "phone":
                                sentence_distance = entity.sentence_index - previous_entity.sentence_index
                                distance = (words_num_dict[entity.sentence_index] + entity.wordOffset_begin) - (
                                        words_num_dict[previous_entity.sentence_index] + previous_entity.wordOffset_end)
                                if sentence_distance < 1 and distance<30:
                                    # 前向 没有 /10000
                                    value = (-1 / 2 * (distance ** 2))
                                    match_list.append(Match(entity, previous_entity, value))
                                else:
                                    break

            result = dispatch(match_list)
            for match in result:
                entity = match.main_role
                # 更新 list_entity
                entity_index = list_entity.index(entity)
                list_entity[entity_index].person_phone = match.attribute.entity_text


    def predict(self,list_sentences,list_entitys):
        self.predict_person(list_sentences,list_entitys)
            
#表格预测
class FormPredictor():
    
    def __init__(self,lazyLoad=getLazyLoad(),config=None):
        self.model_file_line = os.path.dirname(__file__)+"/../form/model/model_form.model_line.hdf5"
        self.model_file_item = os.path.dirname(__file__)+"/../form/model/model_form.model_item.hdf5"
        self.model_form_item = Model_form_item(config=config)
        self.model_dict = {"line":[None,self.model_file_line]}
        self.model_form_context = Model_form_context(config=config)

        
    def getModel(self,type):
        if type=="item":
            return self.model_form_item
        elif type=="context":
            return self.model_form_context
        else:
            return self.getModel(type)

    def encode(self,data,**kwargs):
        return encodeInput([data], word_len=50, word_flag=True,userFool=False)[0]
        return encodeInput_form(data)

    
    def predict(self,form_datas,type):
        if type=="item":
            return self.model_form_item.predict(form_datas)
        elif type=="context":
            return self.model_form_context.predict(form_datas)
        else:
            return self.getModel(type).predict(form_datas)

    
#角色规则
#依据正则给所有无角色的实体赋予角色，给予等于阈值的最低概率
class RoleRulePredictor():
    
    def __init__(self):
        # (?P<tenderee_left_w1> 正则组名 后面的 w1 为概率权重关键词
        self.pattern_tenderee_left_55 = "(?P<tenderee_left_55>((遴选|寻源|采购|招标|竞价|议价|比选|委托|询比?价|比价|评选|谈判|邀标|邀请|洽谈|约谈|选取|抽取|抽选|项目|需求|甲方?|转让|招租|议标|合同主体|挂牌|出租|出让|出售|标卖|处置|发包|最终|建设|业主|竞卖|申购|公选)" \
                                    "(人|方|单位|组织|用户|业主|主体|部门|公司|企业|工厂|银行)|需求?方|买方|业主|权属人|甲方当事人|询价书企业|比选发起人|采购(执行|实施)单位)"\
                                    "[）)]?(信息|联系方式|概况)?[,，:：]?([(（](1|2|1.1|1.2)[）)])?((公司|单位)?名称)?([(（](全称|盖章|异议受理部门)[）)])?(是|为|：|:|\s*)+$)"
        self.pattern_tenderee_left_60 = "(?P<tenderee_left_60>(，|。|^)(项目)?((遴选|寻源|采购|招标|竞价|议价|比选|委托|询比?价|比价|评选|谈判|邀标|邀请|洽谈|约谈|选取|抽取|抽选|项目|需求|甲|转让|招租|议标|合同主体|挂牌|出租|出让|出售|标卖|处置|发包)" \
                                        "(人|方|单位|组织|用户|业主|主体|部门|公司|企业|工厂|银行))"\
                                        "[）)]?(信息|联系方式|概况)?[,，。:：]?([(（]?(1|2|1.1|1.2)[）)]?)?((公司|单位)?名称)?([(（](全称|盖章|异议受理部门)[）)])?(是|为|：|:|，|\s*)+$)" # 367784094 隆道-大企业采购平台 采购商：C5石油树脂-中国建材集团有限公司-四川省/成都市/市辖区
        self.pattern_tenderee_left_50 = "(?P<tenderee_left_50>((所需|需[用求]|购货|征集|发布|交易发起|开户|申报|填报|开票|收货)" \
                                     "(人|方|单位|组织|用户|业主|主体|部门|公司|企业|工厂)|[转流]出方|文章来源|委托机构|产权所有人|承包权人|结算单位|收货地址)" \
                                     "[）)]?(信息|联系方式|概况)?[,，:：]?([(（](1|2|1.1|1.2)[）)])?((公司|单位)?名称)?([(（](全称|盖章|异议受理部门)[）)])?(是|为|：|:|\s*)+$|(采购商|招标人)：(\w{2,10}-)?$|实施主体(基本情况，)?名称：$)"
        self.pattern_tenderee_center = "(?P<tenderee_center>(受.{5,20}的?委托|现将[\w()（）]{5,20}[\d年月季度至（）]+采购意向|尊敬的供应商(伙伴)?：\w{5,20}（以下简称“\w{2,5}”）))"
        self.pattern_tenderee_right = "(?P<tenderee_right>^(机关)?([(（](以下简称)?[，\"“]*((招标|采购)(人|单位|机构)|(服务)?购买方)[，\"”]*[)）]|^委托|^将于[\d年月日，:：]+进行|^现委托|^的\w{2,10}正在进行|[\d年月季度至]+采购意向|^）?的招标工作已圆满结束)|^([拟须需]|计划)(采购|招标|购置|购买)|^须购[买置]一批|作为(采购|招标)(人|单位)|^关于)"  #|(^[^.。，,:：](采购|竞价|招标|施工|监理|中标|物资)(公告|公示|项目|结果|招标))|的.*正在进行询比价)
        self.pattern_tendereeORagency_right = "(?P<tendereeORagency_right>(^拟对|^现?就|^现对))"
        self.pattern_agency_left = "(?P<agency_left>((代理|拍卖)(?:人|机构|公司|企业|单位|组织)|专业采购机构|集中采购机构|招标组织机构|交易机构|集采机构|[招议)）]+标机构|(采购|招标)代理)(名称|.{,4}名，?称|全称)?(是|为|：|:|[,，]?\s*)$|(受.{5,20}委托，?$))"
        self.pattern_agency_right = "(?P<agency_right>^([(（](以下简称)?[，\"“]*(代理)(人|单位|机构)[，\"”]*[)）])|^受.{5,20}委托|^受委?托，)"  # |^受托  会与 受托生产等冲突，代理表达一般会在后面有逗号
        # 2020//11/24 大网站规则 中标关键词添加 选定单位|指定的中介服务机构
        self.pattern_winTenderer_left_50 = "(?P<winTenderer_left_51>" \
               "(乙|竞得|受让|买受|签约|供货|供应?|合作|承做|承包|承建|承销|承保|承接|承制|承担|承修|承租(（包）)?|入围|入选|竞买)(候选|投标)?(人|单位|机构|供应商|方|公司|企业|厂商|商|社会资本方?|银行)(：?单位名称|：?名称|盖章)?[：:是为]+$" \
               "|(选定单位|指定的中介服务机构|实施主体|中标银行|中标通知书，致|征集结果|选择中介|选择结果|成交对象|勘察人|(，|审计|处置|勘察|设计)服务单位|受托[人方])[：:是为]+$" \
               "|((评审结果|名次|排名|中标结果)[:：]*第?[一1]名?)[：:是为]+$|成交供应商信息[，：]?(序号1)?：?|供应商名称$|竞争性选择申请人名称：$" \
               "|单一来源(采购)?(供应商|供货商|服务商|方式向)$|((中标|成交)(结果|信息))[：:是为]+$|(中标|成交)供应商、(中标|成交)(金额|价格)，$|合作伙伴名称：$|供应商（乙方）-?$" \
               "|现(公布|宣布|公示)中标单位如下：$|现将中标单位(公布|公示)如下：$|现宣布以下(企业|单位|公司)中标：$|经讨论，决定采用$|第\d+(包件?|标段?)(中标|中选|成交)候选人：$)"  # 承办单位：不作为中标 83914772  |施工 单位不作为中标人 例：386692187
        self.pattern_winTenderer_left_60 = "(?P<winTenderer_left_60>" \
                                           "(，|。|：|^)((中标(投标)?|[拟预]中标|中选|中价|中签|成交)(人|单位|机构|中介(服务)?机构|供应商|客户|方|公司|企业|厂商|商家?|社会资本方?|银行)|(中标候选人)?第?[一1]名|第[一1](中标|中选|成交)?候选人|服务机构)" \
                                           "(：?单位名称|：?名称|盖章)?[,，]?([(（]按综合排名排序[)）]|：择优选取)?[：:,，]$|选取(情况|说明)：中选，中介机构名称：$|排名如下：1、$|第[一1]名，?投标(人|单位|银行|公司)：$)"  # 解决表头识别不到加逗号情况，需前面为，。空 20240621补充 中选 云南省投资审批中介超市 补充排名如下 南阳师范学院
        self.pattern_winTenderer_left_55 = "(?P<winTenderer_left_55>(中标(投标)?|[拟预]中标|中选|中价|中签|成交|入选)(人|单位|机构|中介(服务)?机构|供应商|客户|方|公司|企业|厂商|商家?|社会资本方?|银行)" \
                                           "(：?单位名称|：?名称|盖章)?([(（]按综合排名排序[)）]|：择优选取)?[：:是为]+$" \
                                           "|结果公示如下：摇出球号：\d+号，中介机构：$)"  # 取消逗号 并拒绝执行改进计划的供应商，华新水泥将可能终止与其合作关系  # 中标候选人不能作为中标   # |直购企业：$不能作为中标人，看到有些公告会又多个公司，然后还会发布中选结果的公告，其中一个公司中标

        self.pattern_winTenderer_right = "(?P<winTenderer_right>(^[是为](首选)?((采购|中标|成交)(供应商|供货商|服务商)|(第[一1]|预)?(拟?(中标|中选|中价|成交)(候选|排序)?(人|单位|机构|供应商|公司|企业|厂商|银行)))|" \
                                         "^((报价|价格)最低，|以\w{5,10})?(确定|成|作)?为[\w“”（）]{3,25}((成交|中选|中标|服务)(人|单位|供应商|企业|公司)|供货单位|供应商|第一中标候选人)[，。]" \
                                         "|^：贵公司参与|^：?你方于|^(胜出)?(中标|成交)[，。]|^取得中标(单位)?资格|^以\d+[\d,.]+万?元(中标|成交|中选)" \
                                         "|^通过(挂牌|拍卖)方式(以[\d.,]+万?元)?竞得|^[（(](中标|成交|承包)人名?称?[）)]))" # 去掉 |\w{,20} 修复 460216955 网上公布的与本次采购项目有关的信息视为已送达各响应供应商。 作为中标
        self.pattern_winTenderer_whole = "(?P<winTenderer_center>(贵公司|由).{,15}以\w{,15}中标|确定[\w（）]{5,20}为[^，。；]{5,50}的?中标单位" \
                                         "|选定报价最低的[“”\w（）]{5,25}为[^，。；]{5,50}的?(服务|中标|成交)单位" \
                                         "|拟邀请[\w（）]{5,20}(进行)?单一来源谈判|(承办单位|报价人|投标人|中介机构)(名称)?：[\w（）]{5,20}，(中标|承办|中选)(价格|金额)" \
                                         "|(谈判结果：|结果|最终|确定|决定)[以由为][^，。；]{5,25}(向我单位)?(供货|承担|承接|中标|竞买成功)|中标通知书.{,15}你方|单一来源方?式?[从向][（）\w]{5,20}采购|供应商名称：[（）\w]{5,20}，独家采购原因)"  # 2020//11/24 大网站规则 中标关键词添加 谈判结果：由.{5,20}供货

        self.pattern_secondTenderer_left = "(?P<secondTenderer_left>((第[二2]名?(名|((中标|中选|中价|成交|候选)(候选)?(人|单位|机构|供应商|公司|银行))))(名称)?[：:是为]+$)|((评审结果|名次|排名|排序)[:：]第?[二2]名?，?(投标(供应)?商|供应商)(名称)?[:：]+$))"
        self.pattern_secondTenderer_right = "(?P<secondTenderer_right>^[是为\(]第[二2](名|(中标|中选|中价|成交)(候选)?(人|单位|机构|供应商|公司|银行)))"
        
        self.pattern_thirdTenderer_left = "(?P<thirdTenderer_left>(第[三3]名?(名|((中标|中选|中价|成交|候选)(候选)?(人|单位|机构|供应商|公司|银行))))(名称)?[：:是为]+$|((评审结果|名次|排名|排序)[:：]第?[三3]名?，?(投标(供应)?商|供应商)(名称)?[:：]+$))"
        self.pattern_thirdTenderer_right = "(?P<thirdTenderer_right>^[是为\(]第[三3](名|(中标|中选|中价|成交)(候选)?(人|单位|机构|供应商|公司|银行)))"

        self.candidate_left = "(?P<candidate_left>(((中[标选商]|成交|入围|入选)候选|投标)(人|单位|机构|中介(服务)?机构|供应商|客户|方|公司|厂商|商家?|社会资本方?|银行)|服务单位)(：?单位名称|：?名称|全称|（?盖\w{,5}章）?|如下|：?牵头人|[及与和](成交|中标)金额)?[：:是为]+$)"

        self.pattern_left = [
            self.pattern_tenderee_left_60,
            self.pattern_tenderee_left_55,
            self.pattern_tenderee_left_50,
            self.pattern_agency_left,
            self.pattern_secondTenderer_left,
            self.pattern_thirdTenderer_left,
            self.pattern_winTenderer_left_60,
            self.pattern_winTenderer_left_55,
            self.pattern_winTenderer_left_50,
        ]

        self.pattern_whole = [
            self.pattern_winTenderer_whole,
            self.pattern_tenderee_center,
        ]
        self.pattern_right = [
            self.pattern_thirdTenderer_right,
            self.pattern_secondTenderer_right,
            self.pattern_agency_right,
            self.pattern_tendereeORagency_right,
            self.pattern_tenderee_right,
            self.pattern_winTenderer_right,
        ]

        self.SET_NOT_TENDERER = set(["人民政府","人民法院","中华人民共和国","人民检察院","评标委员会","中国政府","中国海关","中华人民共和国政府"])
        
        self.pattern_money_tenderee = re.compile("投?标?最高限价|采购计划金额|项目预算|招标金额|采购金额|项目金额|投资估算|采购(单位|人)委托价|招标限价|拦标价|预算金额|标底|总计|限额|资金来源，?[为：]+\w{2,4}资金|采购成本价|总费用约?为|(招标|采购)总?(规模|额度|资金)|资金来源|合同价暂定")  # |建安费用 不作为招标金额
        self.pattern_money_tenderer = re.compile("((合同|成交|中标|应付款|交易|投标|验收|订单)[）\)]?(综合)?(总?金额|结果|[单报总]?价))|标的基本情况|承包价|报酬（含税）：|经评审的价格|报价不?含税")  # 单写 总价 不能作为中标金额，很多表格有单价、总价
        self.pattern_money_tenderer_whole = re.compile("(以金额.*中标)|中标供应商.*单价|以.*元(报价)?(中标|中选|成交)")
        self.pattern_money_other = re.compile("代理费|服务费")
        self.pattern_money_bank_tenderee = "存[款放](操作)?，?总?(金额|总额|规模|额度|资金)|招标的?资金总量|(项目|资金)总?(规模|额度)|现金管理的?(操作)?(额度|规模|总额)|定期存款|存款大?约|定期存储|竞争性存放|项目资金|日均存款|资金现状|存量金额|招标分配的资金量|资金总[量额]|总(规模|额度|金额)|投资金额" # 存款类招标金额
        self.pattern_money_bank_tenderee_right = "^，?(提供定期存放服务|存[款放](期限|时间)|存期|结构性存款|期限|\w{,4}(定期存款|公款存放|资金存放))" # 存款类招标金额
        self.pattern_pack = "(([^承](包|标[段号的包]|分?包|包组)编?号?|项目)[:：]?[\(（]?[0-9A-Za-z一二三四五六七八九十]{1,4})[^至]?|(第?[0-9A-Za-z一二三四五六七八九十]{1,4}(包号|标[段号的包]|分?包))|[0-9]个(包|标[段号的包]|分?包|包组)"
        # self.role_file = open('/data/python/lsm/role_rule_predict.txt', 'a', encoding='utf-8')

    def _check_input(self,text, ignore=False):
        if not text:
            return []
        
        if not isinstance(text, list):
            text = [text]
        
        null_index = [i for i, t in enumerate(text) if not t]
        if null_index and not ignore:
            raise Exception("null text in input ")
        
        return text

    def ser_role(self, pattern_list, text, entity_text):
        for _pattern in pattern_list:
            for _iter in re.finditer(_pattern, text):
                for _group, _v_group in _iter.groupdict().items():
                    if _v_group is not None and _v_group != "":
                        _role = _group.split("_")[0]
                        if _role == "tendereeORagency":  # 2022/3/9 新增不确定招标代理判断逻辑
                            # print('p_entity_sentenceindex:', p_entity.sentence_index)

                            # if re.search('医院|学校|大学|中学|小学|幼儿园|政府|部|委员会|署|行|局|厅|处|室|科|股|站', entity_text) \
                            #         or re.search('(采购|招标|投标|交易|代理|拍卖|咨询|顾问|管理)', entity_text) == None:
                            if is_agency(entity_text):
                                _role = 'tenderee'
                            else:
                                _role = "agency"
                        _direct = _group.split("_")[1]
                        # _weight = _group.split("_")[2] if len(_group.split("_")) == 3 else ""
                        prob = int(_group.split("_")[2])/100 if len(_group.split("_")) == 3 else 0.55
                        # print('实体召回概率：', prob)

                        _label = {"tenderee": 0, "agency": 1, "winTenderer": 2,
                                  "secondTenderer": 3, "thirdTenderer": 4}.get(_role)
                return (_label, prob, _iter.group(0))
        return (5, 0.5, '')


    def rule_predict(self, before, center, after, entity_text):
        # before = before if isinstance(before, str) else ""
        # center = center if isinstance(center, str) else ""
        # after = after if isinstance(after, str) else ""

        _label, _prob, keyword = self.ser_role(self.pattern_left, before, entity_text) # 前文匹配
        keyword = "left_" + keyword if keyword!="" else keyword
        if _label == 2 and re.search(
                '各.{,5}供应商|尊敬的供应商|[^\w]候选供应商|业绩|拟招|(交易|采购|招标|建设)服务(单位|机构)|第[四五六七4567]|是否中标：否|序号：\d+，\w{,2}候选|(排名|排序|名次)：([4-9]|\d{2,})|未(中[标选]|入围)|不得确定为|(响应|参[加与]报价|通过资格审查)的?供应商',
                # 135463002 拟招一家供应商为宜宾市第三人民医院、李庄同济医院院区提供消防维保服务
                before) != None:
            _label = 5
        elif _label == 2 and re.search('为$', before) and re.match('\w', after):  # 排除错误 前文为结尾，后文不是标点符号结尾的，如 353824459 供应商为社会团体的，  供应商为玉田县中医医院提供安保服务
            _label = 5
        elif _label == 2 and re.search('评委|未中标', after[:5]): # 397194341 过滤掉错误召回中标人
            _label = 5
        elif _label == 2 and re.search('^，?(投标报价|(资格性审查：|符合性审查：)?(不通过|不符合))', after) and re.search('中标|成交|中选|排名|排序|名次|第[一1]名', before[-10:])==None: #20240705 处理类似 493939047 错误
            _label = 5
        if _label == 5:
            _label, _prob, keyword = self.ser_role(self.pattern_whole, before + center + after, entity_text)  # 前后文匹配
            keyword = 'whole_'+ keyword[:keyword.find(entity_text)] if keyword!="" else keyword
            if _label == 2 and re.search('以[^，。；]{10,30}为准', before + center + after)!=None:
                _label = 5
            if _label != 5 and self.ser_role(self.pattern_whole, before, entity_text)[0] != 5 or \
                    self.ser_role(self.pattern_whole, after, entity_text)[0] != 5:
                _label = 5
            if _label == 5:
                _label, _prob, keyword = self.ser_role(self.pattern_right, after, entity_text) # 后文匹配
                keyword = "right_" + keyword if keyword!="" else keyword
        if _label==5 and re.search('(中标|中选|成交）?)(结果)?(公告|公示|通知书?)，', before) and re.match('：', after):
            _label = 2
            _prob = 0.5
        _flag = False if _label==5 else True
        return (_label, _prob, _flag, keyword)


    def predict(self, list_articles, list_sentences, list_entitys, list_codenames, channel_dic, on_value=0.5, all_winner=False, req_scope=[], deposit_project=False):
        '''

        :param list_articles:
        :param list_sentences:
        :param list_entitys:
        :param list_codenames:
        :param channel_dic:
        :param on_value: 最低阈值
        :param all_winner: 是否存款、入围等公告，不分排名作为中标人
        :param req_scope: 大纲采购内容开始结束位置[((开头句子index, 开头位置), (结束句子index, 结束句子位置)]
        :param is_deposit_project: 是否为银行存款类项目
        :return:
        '''

        for article, list_entity, list_sentence, list_codename in zip(list_articles, list_entitys, list_sentences,
                                                                      list_codenames):
            list_sentence.sort(key=lambda x: x.sentence_index)  # 2022/1/5 按句子顺序排序
            # list_name = list_codename["name"]
            list_name = []  # 2022/1/5  改为实体列表内所有项目名称
            name_entitys = [] # 2023/6/30 保存项目名称实体，直接通过位置判断角色是否在项目名称里面
            candidates = [] # 保存不能确定为第几的候选人 2023/04/14
            notfound_tenderer = True  # 未找到前三候选人
            deposit_moneys = []  # 保存存款类项目采购内容中大于百万的其他金额实体
            for entity in list_entity:
                if entity.entity_type == 'name':
                    list_name.append(entity.entity_text)
                    name_entitys.append(entity)
            list_name = self._check_input(list_name) + [article.title]
            for p_entity in list_entity:

                if p_entity.entity_type in ["org", "company"]:
                    # 只解析角色为无的或者概率低于阈值的
                    if p_entity.label is None:
                        continue
                    # 将上下文包含标题的实体概率置为0.6，因为标题中的实体不一定是招标人
                    if str(p_entity.label) == "0":
                        find_flag = False
                        for _sentence in list_sentence:
                            if _sentence.sentence_index == p_entity.sentence_index:
                                # _span = spanWindow(tokens=_sentence.tokens, begin_index=p_entity.begin_index,
                                #                    end_index=p_entity.end_index, size=20, center_include=True,
                                #                    word_flag=True, use_text=True,
                                #                    text=re.sub("）", ")", re.sub("（", "(", p_entity.entity_text)))
                                _span = get_context(_sentence.sentence_text, p_entity.wordOffset_begin,
                                                    p_entity.wordOffset_end, size=20, center_include=True)
                                if re.search(self.pattern_tenderee_left_50, _span[0]) or re.search(self.pattern_tenderee_left_55, _span[0]): # 前面有关键词的实体不判断是否在项目名称中出现
                                    find_flag = True
                                    break

                                if re.search('(项目|工程|招标|采购(条目)?|合同|标项|标的|计划|询价|询价单|询价通知书|申购单|申购)(名称|标名|标题|主题)：$', _span[0]):
                                    find_flag = True
                                    if re.search('(局|院|府|学|处|站|会|所|校|馆|队|厅|室|司|心|园|厂)$', p_entity.entity_text):
                                        p_entity.values[0] = 0.6 if p_entity.values[0]>0.6 else 0.55
                                    else:
                                        p_entity.values[0] = on_value  # 项目名称里面实体修改为最低概率
                                    break

                                for _name in name_entitys:
                                    if _name.sentence_index == p_entity.sentence_index and p_entity.wordOffset_begin >=_name.wordOffset_begin and p_entity.wordOffset_end < _name.wordOffset_end:
                                        find_flag = True
                                        if re.search('(局|院|府|学|处|站|会|所|校|馆|队|厅|室|司|心|园|厂)$', p_entity.entity_text):
                                            p_entity.values[0] = 0.6 if p_entity.values[0] > 0.6 else 0.55
                                        else:
                                            p_entity.values[0] = on_value # 项目名称里面实体修改为最低概率
                                        break
                                        # if p_entity.values[0] > on_value:
                                        #     p_entity.values[0] = 0.5 + (p_entity.values[0] - 0.5) / 10
                                        # else:
                                        #     p_entity.values[0] = on_value  # 2022/03/08 修正类似 223985179 公司在文章开头的项目名称概率又没达到0.5的情况

                                # for _name in list_name:
                                #     if _name != "" and str(_span[0][-10:]+_span[1] + _span[2][:len(str(_name))]).find(_name) >= 0:  #加上前面一些信息，修复公司不在项目名称开头的，检测不到
                                #         find_flag = True
                                #         if p_entity.values[0] > on_value:
                                #             p_entity.values[0] = 0.5 + (p_entity.values[0] - 0.5) / 10
                                #         else:
                                #             p_entity.values[0] = on_value  # 2022/03/08 修正类似 223985179 公司在文章开头的项目名称概率又没达到0.5的情况
                        if find_flag:
                            continue

                    # 正则从概率低于阈值或其他类别中召回角色
                    role_prob = float(p_entity.values[int(p_entity.label)])
                    if role_prob < on_value or str(p_entity.label) == "5":
                        # 将标题中的实体置为招标人
                        _list_name = self._check_input(list_name, ignore=True)
                        find_flag = False
                        for _name in _list_name:  # 2022/1/5修正只要项目名称出现过的角色，所有位置都标注为招标人
                            if str(_name).find(p_entity.entity_text) >= 0 and p_entity.sentence_index < 4:
                                for _sentence in list_sentence:
                                    if _sentence.sentence_index == p_entity.sentence_index:
                                        # _span = spanWindow(tokens=_sentence.tokens, begin_index=p_entity.begin_index,
                                        #                    end_index=p_entity.end_index, size=20, center_include=True,
                                        #                    word_flag=True, use_text=True, text=p_entity.entity_text)
                                        _span = get_context(_sentence.sentence_text, p_entity.wordOffset_begin,
                                                            p_entity.wordOffset_end, size=20, center_include=True)
                                        if _span[2].startswith("："): # 实体后面为冒号的不作为招标人，避免项目名称出错中标变招标  368122675 陇西兴恒建建筑有限责任公司：线路安全保护区内环境治理专项整改（第二标段）项目
                                            break
                                        if str(_span[0][-len(str(_name)):]+_span[1] + _span[2][:len(str(_name))]).find(
                                                _name) >= 0 or str(_name).startswith(p_entity.entity_text): # 20240621 补充公司开头的项目名称召回，避免name太长召回失败 例 367033697
                                            # if p_entity.entity_text in agency_set or re.search('(代理|管理|咨询|招投?标|采购)\w{,6}公司', p_entity.entity_text): # 在代理人集合的作为代理人
                                            if is_agency(p_entity.entity_text): # 2024/3/29 统一方法判断是否为代理
                                                find_flag = True
                                                _label = 1
                                                p_entity.label = _label
                                                p_entity.values[int(_label)] = on_value
                                                break
                                            else:
                                                find_flag = True
                                                _label = 0
                                                p_entity.label = _label
                                                p_entity.values[int(_label)] = on_value +  p_entity.values[int(_label)] / 10
                                                if 6<len(p_entity.entity_text) < 20 and p_entity.entity_type == 'org': # 标题中角色长度在一定范围内的加分 优化类似367720967 标题中两个实体选择错误问题
                                                    p_entity.values[int(_label)] += 0.005
                                                break
                                    if p_entity.sentence_index >= 4:
                                        break
                            if find_flag:
                                break
                        # 若是实体在标题中，默认为招标人，不进行以下的规则匹配
                        if find_flag:
                            continue

                        for s_index in range(len(list_sentence)):
                            if p_entity.doc_id == list_sentence[s_index].doc_id and p_entity.sentence_index == \
                                    list_sentence[s_index].sentence_index:
                                tokens = list_sentence[s_index].tokens
                                begin_index = p_entity.begin_index
                                end_index = p_entity.end_index
                                size = 40 #15
                                spans = spanWindow(tokens, begin_index, end_index, size, center_include=True,
                                                   word_flag=True, use_text=False)
                                # _flag = False

                                # 添加中标通知书类型特殊处理
                                try:
                                    if s_index == 0 and re.search('中标通知书.{,30}[，：]%s：'%p_entity.entity_text.replace('(', '').replace(')', ''),
                                                                  list_sentence[s_index].sentence_text.replace('(', '').replace(')', '')[:100]):
                                        p_entity.label = 2
                                        p_entity.values[2] = 0.5
                                        notfound_tenderer = False
                                        # log('正则召回实体: %s, %s, %s, %d, %.4f, %s'%(_group,  _v_group, p_entity.entity_text, p_entity.label, p_entity.values[p_entity.label], list_spans[_i_span]))
                                        break
                                except Exception as e:
                                    print('正则报错:', e)

                                before, center, after = spans[0], spans[1], spans[2]
                                entity_text = p_entity.entity_text
                                _label, _prob, _flag, kw = self.rule_predict(before, center, after, entity_text)

                                if _label == 5 and re.search('：(1[.、])?$', before) and re.search('^[、；，&/。]', after) and re.search('(监督|管理)(机构|部门|单位)：', before)==None and re.search(
                                        '(中标|成交|中选)）?(人|单位|供应商|银行|合作伙伴)?(公示)?(信息|情况|结果|如下)(公[示告]如下)?：|(遴选|寻源|采购|招标|竞价|议价|比选|委托|询比?价|比价|评选|谈判|邀标|邀请|洽谈|约谈|选取|抽取)结果(如下)(公[示告]如下)?：', list_sentence[s_index].sentence_text[:p_entity.wordOffset_begin]): # 补充召回 例：514053647 标段1：中国建设银行西安南大街支行，标段2：中国农业银行股份有限公司西安分行，
                                    _flag = True
                                    _label = 2
                                    _prob = 0.5
                                elif _label == 5 and all_winner==1 or (all_winner==2 and re.search('(排[名序]|名次|顺序|第)：?[0-9一二三四五六七八九十]+', before)==None):
                                    if re.search('(中标|中选|成交|入围|入选)(人|单位|供应商|银行)(名称)?：', before) and re.search('未(中标|中选|成交|入围|入选)', before)==None:
                                        _flag = True
                                        _label = 2
                                        _prob = 0.55
                                    elif re.search('(：|[:：，]\d{1,2}[.、])$', before) and re.search('^[、；，&/。]', after) and re.search('(监督|管理)(机构|部门|单位)：', before)==None and re.search('(入围|合格)(人|单位|供应商|银行|候选人|合作伙伴)?(信息|情况|结果|如下)(公[示告]如下)?(：|，?（(入围)?排名不分先后）)', list_sentence[s_index].sentence_text[:p_entity.wordOffset_begin]):
                                        _flag = True
                                        _label = 2
                                        _prob = 0.51
                                    elif re.search('(候选|投标|应答|响应)(人|单位|供应商|银行)(名称)?：', before):
                                        _flag = True
                                        _label = 2
                                        _prob = 0.5

                                # if _label in [0, 1, 2, 3, 4]:
                                #     self.role_file.write("{0}#split#{1}#split#{2}#split#{3}#split#{4}\n".format(before,
                                #                                                                                 entity.entity_text,
                                #                                                                                 after,
                                #                                                                                 _label,
                                #                                                                                 entity.doc_id))
                                # 得到结果
                                if _flag:
                                    if _label in [2, 3, 4]:
                                        notfound_tenderer = False
                                    p_entity.label = _label
                                    # p_entity.values[int(_label)] = on_value + p_entity.values[
                                    #     int(_label)] / 10
                                    p_entity.values[_label] = _prob + p_entity.values[int(_label)] / 10
                                    # log('正则召回实体: %s, %s, %d, %.4f, %s'%(kw, p_entity.entity_text, p_entity.label, p_entity.values[p_entity.label], before+"  "+after))
                                    break
                                if re.search(self.candidate_left, before) and re.search('尊敬的|各', before[-10:])==None:
                                    candidates.append(p_entity)
                                elif channel_dic['docchannel']['docchannel'] in ['中标信息', '候选人公示', '合同公告'] and re.search('：$', before) and re.search('^[，。]', after) and re.search('候选人', before): # 补充 577756336 候选人，三期A160、A166地块：中国建设银行成都第九支行，
                                    candidates.append(p_entity)

                                # # 使用正则+距离解决冲突
                                # # 2021/6/11update center: spans[1] --> spans[0][-30:]+spans[1]
                                # list_spans = [spans[0][-30:], spans[0][-10:] + spans[1] + spans[2][:25], spans[2]] # 实体左、中、右 信息
                                # for _i_span in range(len(list_spans)):
                                #     _flag = False
                                #     _prob_weight = 1
                                #
                                #     # print(list_spans[_i_span],p_entity.entity_text)
                                #     for _pattern in self.pattern_whole:
                                #         for _iter in re.finditer(_pattern, list_spans[_i_span]):
                                #             for _group, _v_group in _iter.groupdict().items():
                                #                 if _v_group is not None and _v_group != "":
                                #                     _role = _group.split("_")[0]
                                #                     if _role == "tendereeORagency":   # 2022/3/9 新增不确定招标代理判断逻辑
                                #                         # print('p_entity_sentenceindex:', p_entity.sentence_index)
                                #                         if p_entity.sentence_index>=1:  # 只在第一句进行这种模糊匹配
                                #                             continue
                                #                         if re.search('医院|学校|大学|中学|小学|幼儿园|政府|部|委员会|署|行|局|厅|处|室|科|股|站', p_entity.entity_text)\
                                #                             or re.search('(采购|招标|投标|交易|代理|拍卖|咨询|顾问|管理)', p_entity.entity_text) == None:
                                #                             _role = 'tenderee'
                                #                         else:
                                #                             _role = "agency"
                                #                     _direct = _group.split("_")[1]
                                #                     _weight = _group.split("_")[2] if len(_group.split("_"))==3 else ""
                                #                     # _label = {"tenderee": 0, "agency": 1, "winTenderer": 2,
                                #                     #           "secondTenderer": 3, "thirdTenderer": 4}.get(_role)
                                #                     if _i_span == 0 and _direct == "left" and re.search('各.{,5}供应商|尊敬的供应商|业绩|拟招|(交易|采购|招标|建设)服务(单位|机构)|第[四五六七4567]|是否中标：否|序号：\d+，\w{,2}候选|(排名|排序|名次)：([4-9]|\d{2,})',  #135463002 拟招一家供应商为宜宾市第三人民医院、李庄同济医院院区提供消防维保服务
                                #                                                                         list_spans[0]) == None:  # 2021/12/22 修正错误中标召回 例子208668937
                                #                         _flag = True
                                #                         _label = {"tenderee": 0, "agency": 1, "winTenderer": 2,
                                #                                   "secondTenderer": 3, "thirdTenderer": 4}.get(_role)
                                #                         _prob_weight = 1.2 if _weight=='w1' else 1
                                #                         # print('_v_group:',_group, _v_group, p_entity.entity_text)
                                #
                                #                     if _i_span == 1 and _direct == "center" and _v_group.find(p_entity.entity_text) != -1 and re.search('以[^，。；]{10,30}为准', list_spans[1])==None:
                                #                         _flag = True
                                #                         _label = {"tenderee": 0, "agency": 1, "winTenderer": 2,
                                #                                   "secondTenderer": 3, "thirdTenderer": 4}.get(_role)
                                #                         _prob_weight = 1.2 if _weight == 'w1' else 1
                                #                         # print('_v_group:', _group, _v_group, p_entity.entity_text)
                                #
                                #                     if _i_span == 2 and _direct == "right":
                                #                         _flag = True
                                #                         _label = {"tenderee": 0, "agency": 1, "winTenderer": 2,
                                #                                   "secondTenderer": 3, "thirdTenderer": 4}.get(_role)
                                #                         _prob_weight = 1.2 if _weight == 'w1' else 1
                                #                         # print('_v_group:', _group, _v_group, p_entity.entity_text)

                                    #     # 得到结果
                                    # if _flag:
                                    #     if _label in [2, 3, 4]:
                                    #         notfound_tenderer = False
                                    #     p_entity.label = _label
                                    #     p_entity.values[int(_label)] = on_value*_prob_weight + p_entity.values[int(_label)] / 10
                                    #     # log('正则召回实体: %s, %s, %s, %d, %.4f, %s'%(_group,  _v_group, p_entity.entity_text, p_entity.label, p_entity.values[p_entity.label], list_spans[_i_span]))
                                    #     break
                                    # if _i_span == 0 and  re.search(self.candidate_left, list_spans[_i_span]):
                                    #     candidates.append(p_entity)

                    elif str(p_entity.label) in ['2', '3', '4']:
                        notfound_tenderer = False

                # 其他金额通过正则召回可能是招标或中投标的金额
                if p_entity.entity_type in ["money"]:
                    if str(p_entity.label) == "2":
                        for _sentence in list_sentence:
                            if _sentence.sentence_index == p_entity.sentence_index:
                                # _span = spanWindow(tokens=_sentence.tokens, begin_index=p_entity.begin_index,
                                #                    end_index=p_entity.end_index, size=10, center_include=True,
                                #                    word_flag=True, text=p_entity.entity_text)
                                _span = get_context(_sentence.sentence_text, p_entity.wordOffset_begin, p_entity.wordOffset_end, size=20, center_include=True) # 20241101 修复spanWindow方法取词错误， ['金额（万元：', '27000，存', '期：3个月，四、投标人资格：1.在嘉兴']
                                if re.search('(含|在|包括)(\d+)?$', _span[0]):
                                    continue
                                if re.search(self.pattern_money_tenderee, _span[0]) is not None and re.search(
                                        self.pattern_money_other, _span[0]) is None:
                                    front_text = _span[0][re.search(self.pattern_money_tenderee, _span[0]).end():]
                                    if re.search('\d[万亿]?元|元）?：?\d', front_text): # 当前金额与关键词中间有金额的过滤掉
                                        break
                                    p_entity.values[0] = 0.62 + p_entity.values[0] / 10
                                    p_entity.label = 0
                                elif deposit_project:
                                    if re.search(self.pattern_money_bank_tenderee,
                                                   _span[0]) is not None and re.search(
                                        self.pattern_money_other, _span[0]) is None:
                                        front_text = _span[0][re.search(self.pattern_money_bank_tenderee, _span[0]).end():]
                                        if re.search('\d[万亿]?元|元）?：?\d', front_text):  # 当前金额与关键词中间有金额的过滤掉
                                            break
                                        p_entity.values[0] = 0.6 + p_entity.values[0] / 10
                                        p_entity.label = 0
                                    elif re.search(self.pattern_money_bank_tenderee_right, _span[2]):
                                        p_entity.values[0] = 0.55 + p_entity.values[0] / 10
                                        p_entity.label = 0
                                    elif (re.search('存款|总额度', _span[0]) or re.search('存[款放]|专项债资金', _span[2])):
                                        front_text = _span[0][(re.search('存款|总额度', _span[0]) or re.search('存[款放]|专项债资金', _span[2])).end():]
                                        if re.search('\d[万亿]?元|元）?：?\d', front_text):  # 当前金额与关键词中间有金额的过滤掉
                                            break
                                        p_entity.values[0] = 0.55
                                        p_entity.label = 0
                                        # print('规则召回预算金额 4：', p_entity.entity_text, _span[0],p_entity.values[0])
                                if re.search(self.pattern_money_tenderer, _span[0]) is not None:
                                    front_text = _span[0][re.search(self.pattern_money_tenderer, _span[0]).end():]
                                    if re.search('\d[万亿]?元|元）?：?\d', front_text):  # 当前金额与关键词中间有金额的过滤掉
                                        break
                                    elif re.search('合同价暂定为?$', _span[0]): # 20250310 修复 598504921 合同价暂定 为招标金额
                                        break
                                    if re.search(self.pattern_money_other, _span[0]) is not None:
                                        if re.search(self.pattern_money_tenderer, _span[0]).span()[1] > \
                                                re.search(self.pattern_money_other, _span[0]).span()[1]:
                                            p_entity.values[1] = 0.6 + p_entity.values[1] / 10
                                            p_entity.label = 1
                                    else:
                                        p_entity.values[1] = 0.6 + p_entity.values[1] / 10
                                        p_entity.label = 1
                                if re.search(self.pattern_money_tenderer_whole,"".join(_span)) and re.search(self.pattern_money_tenderer_whole, _span[0])==None \
                                        and  re.search(self.pattern_money_tenderer_whole, _span[2])==None and re.search(self.pattern_money_other,_span[0])==None:
                                    p_entity.values[1] = 0.6 + p_entity.values[1] / 10
                                    p_entity.label = 1
                                elif re.search('(预算金额|最高(投标)?上?限[价额]?格?|招标控制价)）?：?([\d.,]+万?元[，（]其中)?(第?[一二三四五0-9](标[段|包]|[分子]包)：?[\d.,]+万?元，)*第?[一二三四五0-9](标[段|包]|[分子]包)：?$'
                                        , _sentence.sentence_text[:p_entity.wordOffset_begin]): # 处理几个标段金额相邻情况 例子：191705231
                                    p_entity.values[0] = 0.6 + p_entity.values[0] / 10
                                    p_entity.label = 0
                    if deposit_project and p_entity.label in [1,2]:
                        if req_scope and float(p_entity.entity_text)>1000000 and (p_entity.sentence_index>req_scope[0][0]\
                            or (p_entity.sentence_index==req_scope[0][0] and p_entity.wordOffset_begin>req_scope[0][1])) and (p_entity.sentence_index<req_scope[1][0]\
                            or (p_entity.sentence_index==req_scope[1][0] and p_entity.wordOffset_end<=req_scope[1][1])):
                            deposit_moneys.append(p_entity)

            if deposit_moneys:
                moneys = [float(p.entity_text) for p in deposit_moneys]
                for p in deposit_moneys:
                    if float(p.entity_text)==max(moneys):
                        p.values[0] = 0.55
                        p.label = 0
                    else:
                        p.values[0] = 0.5
                        p.label = 0

            if notfound_tenderer and len(set([ent.entity_text for ent in candidates])) == 1 and channel_dic['docchannel']['docchannel'] in ['中标信息', '候选人公示', '合同公告']:
                for p_entity in candidates:
                    # print('只有一个候选人的作为中标人', p_entity.entity_text)
                    p_entity.label = 2
                    p_entity.values[2] = on_value

            # 增加招标金额扩展，招标金额+连续的未识别金额，并且都可以匹配到标段信息，则将为识别的金额设置为招标金额
            list_p = []
            state = 0
            for p_entity in list_entity:
                for _sentence in list_sentence:
                    if _sentence.sentence_index == p_entity.sentence_index:
                        # _span = spanWindow(tokens=_sentence.tokens, begin_index=p_entity.begin_index,
                        #                    end_index=p_entity.end_index, size=20, center_include=True, word_flag=True,
                        #                    text=p_entity.entity_text)
                        _span = get_context(_sentence.sentence_text, p_entity.wordOffset_begin, p_entity.wordOffset_end,
                                            size=30, center_include=True)
                        if state == 2:
                            for _p in list_p[1:]:
                                if _p.label == 2:
                                    _p.values[0] = 0.5 + _p.values[0] / 10
                                    _p.label = 0
                            state = 0
                            list_p = []

                        if state == 0:
                            if p_entity.entity_type in ["money"]:
                                if str(p_entity.label) == "0" and re.search(self.pattern_pack,
                                                                            _span[0] + "-" + _span[2]) is not None:
                                    state = 1
                                    list_p.append(p_entity)
                        elif state == 1:
                            if p_entity.entity_type in ["money"]:
                                if str(p_entity.label) in ["0", "2"] and re.search(self.pattern_pack,
                                                                                   _span[0] + "-" + _span[
                                                                                       2]) is not None and re.search(
                                        self.pattern_money_other,
                                        _span[0] + "-" + _span[2]) is None and p_entity.sentence_index == list_p[
                                    0].sentence_index:
                                    list_p.append(p_entity)
                                else:
                                    state = 2

            if len(list_p) > 1:
                for _p in list_p[1:]:
                    # print("==",_p.entity_text,_p.sentence_index,_p.label)
                    if _p.label == 2:
                        _p.values[0] = 0.5 + _p.values[0] / 10
                        _p.label = 0
                state = 0
                list_p = []

            for p_entity in list_entity:
                # 将属于集合中的不可能是中标人的标签置为无
                if p_entity.entity_text in self.SET_NOT_TENDERER:
                    p_entity.label = 5

'''正则补充最后一句实体日期格式为招标或代理 2021/12/30'''
class RoleRuleFinalAdd():
    def predict(self, list_articles,list_sentences, list_entitys, list_codenames):
        '''
        最终规则召回角色
        :param list_articles:
        :param list_sentences:
        :param list_entitys:
        :param list_codenames:
        :return:
        '''

        # text_end = list_articles[0].content.split('##attachment##')[0][-40:]
        main_sentences = [sentence for sentence in list_sentences[0] if not sentence.in_attachment]
        if len(list_sentences[0])>0 and list_sentences[0][-1].in_attachment:
            main_sentences = list_sentences[0][-1:] + main_sentences[-2:]
        if len(main_sentences)==0:
            return 0
        # end_tokens = []
        for sentence in main_sentences[-5:][::-1]:  # 402073799 最后五句由后往前，匹配文末角色，日期
            # end_tokens.extend(sentence.tokens)
            # text_end = "".join(end_tokens[-30:])
            # text_end = "".join(end_tokens)
            text_end = "".join(sentence.tokens)
            text_end = re.sub(r"http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+", '', text_end) # 去除网址
            text_end = re.sub('，?(招标办|招投标管理中心|国有资产管理处|采办共享中心|采购与招标管理办公室|附件\d*：[^附件，。]{5,100}\.(docx|doc|rar|xlsx|xls|jpg|pdf)|附件\d*：.{,100})', '', text_end)[-200:]  # 处理 类似 285264698 传真：0512-62690315，苏州卫生职业技术学院，国有资产管理处，2022年11月24日， 这种情况
            # sear_ent = re.search('[，。]([\u4e00-\u9fa5()（）]{5,20})，?\s*[.]{2,4}年.{1,2}月.{1,2}日', text_end)
            sear_ent = re.search('([，。；]|^)(?P<entity>[\u4e00-\u9fa5()（）]{5,20}(，?[\u4e00-\u9fa5]{,8})?)，?\s*(公告日期：)?[0-9零一二三四五六七八九十〇]{2,4}[年\-/][0-9零一二三四五六七八九十]{1,2}[月\-/][0-9零一二三四五六七八九十]{1,2}日?', text_end)
            if sear_ent:
                b, e = sear_ent.span()
                if re.search('报价记录|竞价成交', text_end[max(b-10, 0):b] + text_end[e:]):
                    sear_ent = None
                break
        if sear_ent == None:
            text_end = list_articles[0].content[-100:]
            sear_ent = re.search(
                '([，。；]|^)(?P<entity>[\u4e00-\u9fa5()（）]{5,20}(，?[\u4e00-\u9fa5]{,8})?)，?\s*(公告日期：)?[0-9零一二三四五六七八九十〇]{2,4}[年\-/][0-9零一二三四五六七八九十]{1,2}[月\-/][0-9零一二三四五六七八九十]{1,2}日?',
                text_end)
            if sear_ent:
                b, e = sear_ent.span()
                if re.search('报价记录|竞价成交', text_end[max(b-10, 0):b] + text_end[e:]):
                    sear_ent = None
        sear_ent1 = re.search('((招标|采购)联系人)[，:：][A-Za-z0-9_]*(?P<entity>[\u4e00-\u9fa5()（）]{4,20})', list_articles[0].content[:5000])
        sear_ent2 = re.search('[，：](户名|开户名称|发票抬头|单位名称|名称)[:：](?P<entity>[\u4e00-\u9fa5()（）]{5,20})[，。]', list_articles[0].content[:5000])
        if sear_ent2 and sear_ent2.group(1) in ['单位名称','名称'] and re.search('报价|(中标|成交|结果|候选人|评标|开标)(公告|公示)', list_articles[0].content[:5000]): # 排除 341354479 这种作为招标人
            sear_ent2 = None
        sear_ent3 = re.search('(买家信息|所有权人|土地权属单位|报名咨询|[收送交]货地点)[，：](?P<entity>[\u4e00-\u9fa5()（）]{5,20})[0-9\-]*[，。]', list_articles[0].content[:5000])
        sear_ent4 = re.search('(发布(?:人|单位|机构|企业)|项目业主|所属公司|寻源单位)[，:：][A-Za-z0-9_]*(?P<entity>[\u4e00-\u9fa5()（）]{4,20})[，。]', list_articles[0].content[:5000])
        sear_list = [sear_ent4 , sear_ent3 , sear_ent2 ,sear_ent1, sear_ent]

        tenderee_notfound = True
        agency_notfound = True
        tenderee_list = []
        agency_list = []
        ents = []
        for ent in list_entitys[0]:
            if ent.entity_type in ['org', 'company']:
                if ent.label == 0 and ent.values[ent.label]>0.55:
                    if '公共资源交易中心' in ent.entity_text:  # 公共资源交易中心不算招标或代理，只算平台
                        # ent.label = 5
                        ent.values[ent.label] = 0.6 if ent.values[ent.label]>0.6 else 0.5 # 改为降低概率，不改类别，防止 382573066 明显招标人表达不提取
                        continue
                    tenderee_list.append(ent.entity_text)
                    tenderee_notfound = False
                elif ent.label == 1 and ent.values[ent.label]>0.55:
                    agency_list.append(ent.entity_text)
                    agency_notfound = False
                elif ent.label == 5:
                    if '公共资源交易中心' in ent.entity_text:
                        continue
                    ents.append(ent)
        if sear_ent or sear_ent1 or sear_ent2 or sear_ent3 or sear_ent4:
            for _sear_ent in [_sear for _sear in sear_list if _sear]:
                ent_re = _sear_ent.group('entity')
                ent_re = ent_re.replace('，', '').replace("(","（").replace(")","）")

                if tenderee_notfound or agency_notfound:
                    n = 0
                    for i in range(len(ents) - 1, -1, -1):
                        if not ents[i].in_attachment:
                            n += 1
                        if n > 3 and _sear_ent==sear_ent: # 文章末尾角色加日期这种只找后三个实体
                            break
                        elif _sear_ent==sear_ent and ents[i].label != 5:  # 后面有角色的实体的停止继续往前
                            break
                        if ents[i].entity_text == ent_re or (ents[i].entity_text in ent_re and re.search('(大学|中学|小学|幼儿园|医院)$', ents[i].entity_text)) or (ents[i].entity_text in ent_re and len(ents[i].entity_text)/len(ent_re)>0.6):
                            if agency_notfound and is_agency(ents[i].entity_text) and ents[i].entity_text not in tenderee_list:
                                ents[i].label = 1
                                ents[i].values[1] = 0.51 # 修改为比标题概率略高
                                agency_notfound = False
                            elif tenderee_notfound and not is_agency(ents[i].entity_text) and ents[i].entity_text not in agency_list:
                                ents[i].label = 0
                                ents[i].values[0] = 0.51 # 修改为比标题概率略高
                                tenderee_notfound = False
                            # log('正则最后补充实体： %s'%(ent_re))
                            break
                    if not tenderee_notfound:
                        break


# 招标人角色召回规则
class TendereeRuleRecall():
    def __init__(self):
        # self.tenderee_left = re.compile("(发布(人|单位|机构)|需求方(信息[，：])?(单位|公司)?名称|购买主体|收货单位|项目申请单位|发起组织|联系单位|"
        #                                 "询价(机构|企业)|联系(人|方式)，?(单位|公司)(名称)?|联系(人|方式)，名称)[:：是为][^。；，]{,5}$")

        # self.tenderee_left_1 = re.compile("采购商公司|询价单位|项目法人单位|项目法人|项目业主名称|申购单位|预算单位|预算单位名称|预算单位单位名称|买方单位|需求公司|寻源单位|项目业主|采购商|业主单位咨询电话|需用单位|采购工厂|征集单位")
        self.tenderee_left_1 = re.compile("((?:采购商|项目法人|项目业主)(名称)?|(?:采购商|询价|项目法人|项目业主|申购|预算|买方|需求|寻源|需用|征集)(单位|公司)((?:单位|公司)?名称)?|询价企业|"
                                          "业主单位咨询电话|购买主体|采购工厂|需求方(信息[，：])?(单位|公司)?名称|采购单位[\(（].{1,6}[\)）])[:：是为][^。；，]{,2}$")
        self.tenderee_left_2 = re.compile("(招标承办单位|交易人(?:名称)?|招标人代表|(采购|招标)联系人|交易单位|发起(单位|组织)|收货单位|使用方|买家信息)[:：是为][^。；，]{,2}$")
        self.tenderee_left_3 = re.compile("[本我](?:公司|单位)[\(\[（【]?$")
        # self.tenderee_left_4 = re.compile("(采购机构|组织机构|组织方|执行单位|采购组织单位|招标组织单位|招标组织部门|采购执行方|采购执行单位|询价执行组织|组织单位|联系单位|联系部门)[:：是为][^。；，]{,2}$")
        self.tenderee_left_4 = re.compile("(采购机构|(?:采购|招标|询价)?(组织|执行)(机构|方|单位|部门|组织)|联系(单位|部门)|联系(人|方式)，?(单位|公司)(名称)?|联系(人|方式)，名称)[:：是为][^。；，]{,2}$")
        self.tenderee_left_5 = re.compile("(撰写单位|发布(?:人|单位|机构|公司|部门|企业))[^。；，]{,2}$")


        self.tenderee_right = re.compile("^[^。；：:]{,5}[(（](以?下简?称)?，?[，\"“]*[我本][\u4e00-\u9fa5]{1,2}[，\"”]*[)）]|"
                                         "^[\(（][^。；：:\)）]{,5}称(?:招标|采购)(?:人|单位)|"
                                        "^[^。；：:]{,10}[对就][^。；，]+，?[^。；，]{,20}进行[^。；，]*(采购|询比?价|遴选|招投?标|征集)|"
                                         "^[^。；：:]{,10}关于[^。；，]+，?[^。；，]{,20}的[^。；，]{,20}公告|"
                                         "^[^。；，：:]{,10}的[^。；，]+，?[^。；，]{,20}正在[^。；，]{,5}进行|"
                                         "^[^。；，：:]{,10}的[^。；，]+，?[^。，；]{,20}已?[^。；，]{,20}批准|"
                                         "^[^。；，：:]{,15}(选定|选取|征集|遴选)[^。；，]{,20}(供应商|(代理|咨询|设计)[^。；，]{,5}机构|代理人)")
        self.tenderee_right2 = re.compile("^[^。；，：:]{,10}(招标办|采购部|办事处|采购小?组)")
        self.tenderee_right3 = re.compile("^[^。；，：:]{,10}(对|就|关于|的)(?P<project>[^。；，？！：:]{4,40})")
        # 公告主语判断规则
        self.subject = re.compile("[我本][院校局]")
        # 未识别实体召回正则
        self.unrecognized1 = re.compile("(?P<tenderee_left>((遴选|采购|招标|竞价|议价|比选|委托|询比?价|评选|谈判|邀标|邀请|洽谈|约谈)" \
                                        "(人|商|公司|单位|组织|用户|业主|主体|方|部门))" \
                                        "(信息[，：]?)?((公司|单位)?名称)?([(（](全称|盖章)[）)])?(是|：|:)+)(?P<unrecognized>[^，。：:；]+)[，。；：:]")
        self.unrecognized2 = re.compile("(?P<tenderee_left>((项目|需求|最终|建设|业主|转让|招租|甲|议标|合同主体|挂牌|出租|出让|选取|抽取|抽选|出售|标卖|比价|处置)" \
                                "(人|公司|单位|组织|用户|业主|主体|方|部门)|文章来源|委托机构|产权所有人|需求?方|买方|业主|(业主|采购人|招标人)联系方式[，：]公司名称：|权属人|甲方当事人|询价书企业|比选发起人|项目单位[，：]单位名称|结算单位)"\
                                "[）)]?(信息[，：])?((公司|单位)?名称)?([(（](全称|盖章)[）)])?(是|：|:)+)(?P<unrecognized>[^，。：:；]+)[，。；：:]")
        # 未识别实体尾部判断
        # self.unrecognized_end1 = re.compile(
        #     "^[\u4e00-\u9fa5]{2,}?(?:公司|医院|学校|学院|大学|中学|小学|幼儿园|政府|指挥部|办公室|项目部|业主大会|监狱|教育局|委员会|研究所|招标办|采购部|办事处|水利局|公墓|中心|联合社|合作社)")
        # self.unrecognized_end2 = re.compile("^[\u4e00-\u9fa5]{4,}(?:署|局|厅|处|室|科|部|站|所|股|行|园)")

    def predict(self, list_articles,list_sentences, list_entitys, list_codenames):

        self.get_tenderee = False
        ents = []
        list_name = []
        agency_set = set()
        for ent in list_entitys[0]:
            if ent.entity_type == 'name':
                list_name.append(ent.entity_text)
            if ent.entity_type in ['org', 'company']:
                if ent.label == 0 and ent.values[ent.label]>=0.5:
                    self.get_tenderee = True
                    break
                elif ent.label == 1:
                    if ent.values[ent.label]>0.5:
                        agency_set.add(ent.entity_text)
                elif ent.label == 5:
                    if len(ent.entity_text)>=4:
                        ents.append(ent)
        if not self.get_tenderee:
            self.entity_context_rule(ents,list_name,list_sentences,list(agency_set))
        if not self.get_tenderee:
            self.subject_rule(ents,list_articles,list_sentences)
        # if not self.get_tenderee:
        #     self.unrecognized_entity_rule(self.unrecognized1,list_sentences,list_entitys,0.55)
        # if not self.get_tenderee:
        #     self.unrecognized_entity_rule(self.unrecognized2,list_sentences,list_entitys,0.5)

    #entity上下文正则判断
    def entity_context_rule(self,entitys,list_name,list_sentences,list_agency):
        list_sentences[0].sort(key=lambda x:x.sentence_index)
        entity_data = []
        for ent in entitys:
            _sentence = list_sentences[0][ent.sentence_index]
            _span = spanWindow(tokens=_sentence.tokens, begin_index=ent.begin_index,
                               end_index=ent.end_index, size=40, center_include=True,
                               word_flag=True, use_text=True,
                               text=re.sub("）", ")", re.sub("（", "(", ent.entity_text)))
            entity_data.append((ent,_span))
        if not self.get_tenderee:
            for _data in entity_data:
                ent = _data[0]
                _span = _data[1]
                if re.search(self.tenderee_left_1,_span[0]):
                    ent.label = 0
                    ent.values[0] = 0.5 + ent.values[0] / 10
                    self.get_tenderee = True
        if not self.get_tenderee:
            for _data in entity_data:
                ent = _data[0]
                _span = _data[1]
                if re.search(self.tenderee_left_2,_span[0]):
                    ent.label = 0
                    ent.values[0] = 0.5 + ent.values[0] / 10
                    self.get_tenderee = True
        if not self.get_tenderee:
            for _data in entity_data:
                ent = _data[0]
                _span = _data[1]
                if re.search(self.tenderee_left_3,_span[0]):
                    ent.label = 0
                    ent.values[0] = 0.5 + ent.values[0] / 10
                    self.get_tenderee = True
        if not self.get_tenderee:
            for _data in entity_data:
                ent = _data[0]
                _span = _data[1]
                if re.search(self.tenderee_left_4,_span[0]):
                    if len(list_agency)>0:
                        _same = False
                        for agency in list_agency:
                            if ent.entity_text in agency or agency in ent.entity_text:
                                _same = True
                                break
                        if not _same:
                            ent.label = 0
                            ent.values[0] = 0.5 + ent.values[0] / 10
                            self.get_tenderee = True
                    else:
                        if re.search('医院|学校|大学|中学|小学|幼儿园|政府|部|委员会|署|行|局|厅|处|室|科|股|站', ent.entity_text
                                     ) or not re.search('(采购|招标|投标|交易|代理|拍卖|咨询|顾问|管理)', ent.entity_text) or re.search("自行.?采购",list_sentences[0][ent.sentence_index].sentence_text):
                            ent.label = 0
                            ent.values[0] = 0.5 + ent.values[0] / 10
                            self.get_tenderee = True
        if not self.get_tenderee:
            for _data in entity_data:
                ent = _data[0]
                _span = _data[1]
                if re.search(self.tenderee_left_5,_span[0]):
                    if len(list_agency)>0:
                        _same = False
                        for agency in list_agency:
                            if ent.entity_text in agency or agency in ent.entity_text:
                                _same = True
                                break
                        if not _same:
                            ent.label = 0
                            ent.values[0] = 0.5 + ent.values[0] / 10
                            self.get_tenderee = True
                    else:
                        if re.search('医院|学校|大学|中学|小学|幼儿园|政府|部|委员会|署|行|局|厅|处|室|科|股|站', ent.entity_text
                                     ) or not re.search('(采购|招标|投标|交易|代理|拍卖|咨询|顾问|管理)', ent.entity_text):
                            ent.label = 0
                            ent.values[0] = 0.5 + ent.values[0] / 10
                            self.get_tenderee = True
        if not self.get_tenderee:
            for _data in entity_data:
                ent = _data[0]
                _span = _data[1]
                if re.search(self.tenderee_right, _span[2]):
                    ent.label = 0
                    ent.values[0] = 0.5 + ent.values[0] / 10
                    self.get_tenderee = True
        if not self.get_tenderee:
            for _data in entity_data:
                ent = _data[0]
                _span = _data[1]
                if re.search(self.tenderee_right2, _span[2]):
                    ent.label = 0
                    ent.values[0] = 0.5 + ent.values[0] / 10
                    self.get_tenderee = True
        if not self.get_tenderee:
            if list_name:
                for _data in entity_data:
                    ent = _data[0]
                    _span = _data[1]
                    pj_name = re.search(self.tenderee_right3, _span[2])
                    if pj_name:
                        pj_name = pj_name.groupdict()["project"]
                        for _name in list_name:
                            if _name in pj_name:
                                ent.label = 0
                                ent.values[0] = 0.5
                                self.get_tenderee = True
                                break

        # for _data in entity_data:
        #     ent = _data[0]
        #     _span = _data[1]
            # if re.search(self.tenderee_left,_span[0]):
            #     ent.label = 0
            #     ent.values[0] = 0.5 + ent.values[0] / 10
            #     self.get_tenderee = True
            # elif re.search(self.tenderee_right,_span[2]):
            #     ent.label = 0
            #     ent.values[0] = 0.5 + ent.values[0] / 10
            #     self.get_tenderee = True
            # elif re.search(self.tenderee_right2, _span[2]):
            #     ent.label = 0
            #     ent.values[0] = 0.5 + ent.values[0] / 10
            #     self.get_tenderee = True
            # elif list_name:
            #     pj_name = re.search(self.tenderee_right3, _span[2])
            #     if pj_name:
            #         pj_name = pj_name.groupdict()["project"]
            #         for _name in list_name:
            #             if _name in pj_name:
            #                 ent.label = 0
            #                 ent.values[0] = 0.5
            #                 self.get_tenderee = True
            #                 break
    # 公告主语判断
    def subject_rule(self, entitys,list_articles,list_sentences):
        content = list_articles[0].content.split('##attachment##')[0]
        if re.search(self.subject,content):
            _subject = re.search(self.subject,content).group()
            for ent in entitys:
                if re.search("院",_subject) and re.search("医院|学院",ent.entity_text):
                    ent.label = 0
                    ent.values[0] = 0.5 + ent.values[0] / 10
                    self.get_tenderee = True
                elif re.search("校",_subject) and re.search("学校|学院|大学|高中|初中|中学|小学",ent.entity_text):
                    ent.label = 0
                    ent.values[0] = 0.5 + ent.values[0] / 10
                    self.get_tenderee = True
                elif re.search("局", _subject) and re.search("局", ent.entity_text):
                    _sentence = list_sentences[0][ent.sentence_index]
                    _span = spanWindow(tokens=_sentence.tokens, begin_index=ent.begin_index,
                                       end_index=ent.end_index, size=20, center_include=True,
                                       word_flag=True, use_text=True,
                                       text=re.sub("）", ")", re.sub("（", "(", ent.entity_text)))
                    if not re.search("监督|投诉",_span[0][-10:]):
                        ent.label = 0
                        ent.values[0] = 0.5 + ent.values[0] / 10
                        self.get_tenderee = True

    # 正则召回未识别实体
    # def unrecognized_entity_rule(self,pattern,list_sentences,list_entitys,on_value=0.5):
    #     list_sentence = list_sentences[0]
    #     for in_attachment in [False,True]:
    #         for sentence in [sentence for sentence in list_sentence if sentence.in_attachment==in_attachment]:
    #             sentence_text = sentence.sentence_text
    #             tokens = sentence.tokens
    #             doc_id = sentence.doc_id
    #             in_attachment = sentence.in_attachment
    #             list_tokenbegin = []
    #             begin = 0
    #             for i in range(0, len(tokens)):
    #                 list_tokenbegin.append(begin)
    #                 begin += len(str(tokens[i]))
    #             list_tokenbegin.append(begin + 1)
    #             for _match in re.finditer(pattern,sentence_text):
    #                 _groupdict = _match.groupdict()
    #                 _match_text = _match.group()
    #                 _unrecognized_text = _groupdict["unrecognized"]
    #                 _unrecognized = re.search(self.unrecognized_end1,_unrecognized_text)
    #                 if not _unrecognized:
    #                     _unrecognized = re.search(self.unrecognized_end2, _unrecognized_text)
    #                 if _unrecognized:
    #                     _unrecognized = _unrecognized.group()
    #                 else:
    #                     continue
    #                 # print(_unrecognized)
    #                 if re.search("某|乙方|代理",_unrecognized) or len(_unrecognized)>15:
    #                     continue
    #                 begin_index_temp = _match.start()+len(_groupdict['tenderee_left'])
    #                 for j in range(len(list_tokenbegin)):
    #                     if list_tokenbegin[j] == begin_index_temp:
    #                         begin_index = j
    #                         break
    #                     elif list_tokenbegin[j] > begin_index_temp:
    #                         begin_index = j - 1
    #                         break
    #                 index = begin_index_temp + len(_unrecognized)
    #                 end_index_temp = index
    #                 for j in range(begin_index, len(list_tokenbegin)):
    #                     if list_tokenbegin[j] >= index:
    #                         end_index = j - 1
    #                         break
    #                 entity_id = "%s_%d_%d_%d" % (doc_id, sentence.sentence_index, begin_index, end_index)
    #                 entity_text = _unrecognized
    #                 new_entity = Entity(doc_id, entity_id, entity_text, 'company', sentence.sentence_index, begin_index, end_index,
    #                            begin_index_temp, end_index_temp, in_attachment=in_attachment)
    #                 new_entity.label = 0
    #                 new_entity.values = [on_value,0,0,0,0,0]
    #                 list_entitys[0].append(new_entity)
    #                 self.get_tenderee = True
    #         if self.get_tenderee:
    #             list_entitys[0] = sorted(list_entitys[0], key=lambda x: (x.sentence_index, x.begin_index))
    #             break

class RoleGrade():
    def __init__(self):
        self.tenderee_left_9 = "(?P<tenderee_left_9>(招标|采购|遴选|寻源|竞价|议价|比选|询比?价|比价|评选|谈判|邀标|邀请|洽谈|约谈|选取|抽取|抽选)(人|方|单位))"
        self.tenderee_center_8 = "(?P<tenderee_center_8>受.{5,20}委托)"
        self.tenderee_left_8 = "(?P<tenderee_left_8>(尊敬的供应商|项目法人|(需求|最终|发包|征集|甲|转让|出租|处置)(人|方|单位|组织|用户|业主|主体|部门|公司)))"
        self.tenderee_left_6 = "(?P<tenderee_left_6>(业主|建设|委托)(人|方|单位|组织|用户|业主|主体|部门|公司|企业)|业主|买方)"
        self.tenderee_left_5 = "(?P<tenderee_left_5>(发布)(人|方|单位|组织|用户|业主|主体|部门|公司|企业)|买方|发布机构)"
        self.agency_left_9 = "(?P<agency_left_9>代理)"
        self.winTenderer_left_9 = "(?P<winTenderer_left_9>(中标|中选|中价|成交|竞得)|第[1一](名|候选)|排[名序]：1|名次：1)"
        self.winTenderer_left_8 = "(?P<winTenderer_left_8>(入选供应商|供货商|乙方|最[终后]选[择取]))"  # 229435497 最后选择西平，县中原彩印有限公司，作为此项目中标供应商，
        self.winTenderer_left_6 = "(?P<winTenderer_left_6>(入围|承[接建包修做制担租销]))"
        self.winTenderer_right_9 = "(?P<winTenderer_right_9>^(为(中标|成交|中选)(人|单位|供应商|公司)|以\d+[\d.,]+万?元中标))"
        self.secondTenderer_left_9 = "(?P<secondTenderer_left_9>(第[二2](中标|中选|中价|成交)?候选(人|单位|供应商|公司)|第[二2](名|候选)|排[名序]：2|名次：2))"
        self.thirdTenderer_left_9 = "(?P<thirdTenderer_left_9>(第[三3](中标|中选|中价|成交)?候选(人|单位|供应商|公司)|第[三3](名|候选)|排[名序]：3|名次：3))"
        self.pattern_list = [self.tenderee_left_9,self.tenderee_center_8, self.tenderee_left_8,self.tenderee_left_6,self.tenderee_left_5,self.agency_left_9,
                             self.winTenderer_left_9,self.winTenderer_left_8, self.winTenderer_right_9, self.winTenderer_left_6, self.secondTenderer_left_9, self.thirdTenderer_left_9] # 概率要由高到低 274941849
    def predict(self, list_sentences, list_entitys, original_docchannel, span=15, min_prob=0.7):
        '''
        根据规则给角色分配不同等级概率；分三级：0.9-1，0.8-0.9，0.7-0.8；附件0.7-0.8，0.6-0.7，0.5-0.6
        修改概率小于0.6的且在大数据代理集合里面的招标人为代理人
        :param list_articles:
        :param list_sentences:
        :param list_entitys:
        :param codeName:
        :return:
        '''
        sentences = sorted(list_sentences[0], key=lambda x:x.sentence_index)
        role2id = {"tenderee": 0, "agency": 1, "winTenderer": 2, "secondTenderer": 3, "thirdTenderer": 4}
        org_winner = []
        company_winner = []
        org_tenderee = []
        agency_l = []
        agency_like_tenderee = [] # 类似招标人的代理人实体列表
        low_prob_agency = []
        low_prob_tenderee = []
        low_prob_winner = []
        all_tenderee_agency = []
        for entity in list_entitys[0]:
            if entity.entity_type in ['org', 'company'] and entity.label in [0, 1, 2, 3, 4] and entity.values[entity.label]> min_prob:
                text = sentences[entity.sentence_index].sentence_text
                in_att = sentences[entity.sentence_index].in_attachment
                pre_prob = entity.values[entity.label] # 模型预测角色概率
                b = entity.wordOffset_begin
                e = entity.wordOffset_end
                not_found = 1
                if re.search('(乙方：甲方：|甲方(（买方）?，|：)乙方(（卖方）?)?：)$', text[max(0, b-span):b]):
                    entity.label = 0 if entity.entity_type == 'org' else 5   # 修复 290777022 乙方：甲方： 重庆机场集团有限公司 错分为中标
                    entity.values[entity.label] = 0.55
                    continue
                elif re.search('(采购|招标)人（?或其?(采购|招标)?代理机构）?', text[max(0, b-span-2):b]):  # 修复 275206588 招标人或其招标代理机构：（盖章）
                    entity.label = 1 if is_agency(entity.entity_text) else 0
                    entity.values[entity.label] = 0.8
                    continue
                elif re.search('(采购|招标|询比?价|遴选|寻源|比选)机构[是为：]+', text[max(0, b-span):b]) and not is_agency(entity.entity_text):
                    agency_like_tenderee.append(entity)
                for pattern in self.pattern_list:
                    if 'left' in pattern:
                        context = text[max(0, b-span):b]
                    elif 'right' in pattern:
                        context = text[e:e+span]
                    elif 'center' in pattern:
                        context = text[max(0, b-span):e+span]
                    else:
                        print('规则错误', pattern)
                    ser = re.search(pattern, context)
                    if ser:
                        groupdict = pattern.split('>')[0].replace('(?P<', '')
                        _role, _direct, _prob = groupdict.split('_')
                        _label = role2id.get(_role)
                        if _label != entity.label:
                            continue
                        _prob = int(_prob)*0.1
                        # print('规则修改角色概率前：', entity.entity_text, entity.label, entity.values)
                        if in_att:
                            _prob = _prob - 0.1 # 0.2
                        if pre_prob < _prob: # 如果模型预测概率小于关键词概率
                            _prob = 0.65
                        if len(entity.entity_text) < 6 and re.search('大学|医院', entity.entity_text)==None: # 如果实体名称小于6个字，概率再降0.05
                            _prob -= 0.05
                        if re.search('(地址|联系方式)：$', context): # 地址结尾的概率 概率降低
                            _prob -= 0.05
                        if _label == 0 and is_agency(entity.entity_text): # 20250116 修复 584333688 同时有招标单位 : 安徽省招标集团股份有限公司，.采购人信息 名 称：安徽开放大学
                            _prob -= 0.1
                        entity.values[_label] = _prob + entity.values[_label] / 20
                        not_found = 0
                        # print('规则修改角色概率后：', entity.entity_text, entity.label, entity.values)
                        break
                if not_found and entity.values[entity.label]> min_prob:
                    _prob = min_prob - 0.1 if in_att else min_prob
                    entity.values[entity.label] = _prob + entity.values[entity.label] / 20
                    # print('找不到规则修改角色概率：', entity.entity_text, entity.label, entity.values)

                if entity.label == 2 and entity.values[entity.label]> min_prob:
                    if entity.entity_type == 'org':
                        org_winner.append(entity)
                    elif entity.entity_type == 'company':
                        company_winner.append(entity)  # 保存中标人实体
                if entity.label == 0 and entity.values[entity.label]> min_prob:
                    org_tenderee.append(entity.entity_text)  # 保存所有招标人名称
                elif entity.label == 1 and entity.values[entity.label]> min_prob:
                    agency_l.append(entity.entity_text)
            # if entity.entity_type in ['org', 'company'] and entity.label == 0 and entity.entity_text in agency_set and entity.values[entity.label]<0.6:  # 修改概率小于0.6的且在大数据代理集合里面的招标人为代理人
            #     # log('修改概率小于0.6的且在大数据代理集合里面的招标人为代理人%s:'%entity.entity_text)
            #     entity.label = 1
            #     entity.values[entity.label] = 0.5

            elif entity.entity_type in ['org', 'company'] and entity.label in [1, 0] and 0.5<=entity.values[entity.label]<0.6:
                if entity.label == 1:
                    low_prob_agency.append(entity)
                else:
                    low_prob_tenderee.append(entity)
            elif entity.entity_type in ['org', 'company'] and entity.label == 2 and 0.5<=entity.values[entity.label]<0.6:
                low_prob_winner.append(entity)
            if entity.entity_type in ['org', 'company'] and entity.label in [1, 0] and 0.6<entity.values[entity.label]: # 由0.5调为0.6，避免367217504 同时为低概率招标、中标被改
                all_tenderee_agency.append(entity.entity_text)


        if org_tenderee == [] and agency_like_tenderee:
            for entity in agency_like_tenderee:
                entity.label = 0
                entity.values[entity.label] = 0.6
        for entity in low_prob_agency: # 如果低概率代理在招标人列表，改为招标人
            if entity.entity_text in org_tenderee:
                entity.label = 0
                entity.values[entity.label] = 0.6
        for entity in low_prob_tenderee:
            if entity.entity_text in agency_l:
                entity.label = 1
                entity.values[entity.label] = 0.6
        for entity in low_prob_winner: # 如果低概率中标人在招标或代理列表，改为非角色
            if entity.entity_text in all_tenderee_agency:
                entity.label = 5
            # elif entity.in_attachment: # 附件低概率中标角色不要 避免：516109391 桂林银行崇左宁明支行，宁明县城中镇兴宁大道中70号，预测为中标 20241126 注释掉，558294326 附件单个候选人漏提取
            #     entity.label = 5

        if org_winner != []:
            flag = 0
            if org_tenderee != []:
                for ent in org_winner:
                    if ent.entity_text in org_tenderee:
                        # log('如果org中标人同时为招标人角色，降低中标概率：%s, %s' % (ent.entity_text, ent.label))
                        ent.values[2] = 0.6
                        flag = 1
            # if flag == 0 and company_winner != []:  # 2024/04/18 注释掉 避免提取不到 273351465 供应商（乙方：湖南省第二测绘院
            #     for ent in org_winner:
            #         if ent.label == 2 and ent.values[2] > 0.6:
            #             # log('如果同时包含org和company中标人，降低org中标人概率为0.6：%s, %s' % (ent.entity_text, ent.values[2]))
            #             ent.values[2] = 0.6


class MoneyGrade():
    def __init__(self):
        self.tenderee_money_left_9 = "(?P<tenderee_left_9>最高(投标)?限价)|控制价|拦标价"
        self.tenderee_money_left_8 = "(?P<tenderee_left_8>预算|限价|起始|起拍|底价|标底)"
        self.tenderer_money_left_9 = "(?P<tenderer_left_9>(中标|成交|合同|总报价))"
        self.tenderer_money_left_8 = "(?P<tenderer_left_8>(投标|总价))"

        self.pattern_list = [self.tenderee_money_left_8, self.tenderer_money_left_8, self.tenderee_money_left_9, self.tenderer_money_left_9]

    def predict(self, list_sentences, list_entitys, span=10, min_prob=0.7):
        sentences = sorted(list_sentences[0], key=lambda x:x.sentence_index)
        role2id = {"tenderee": 0, "tenderer": 1}
        for entity in list_entitys[0]:
            if entity.entity_type in ['money'] and entity.label in [0, 1] and entity.values[entity.label]> 0.6:
                text = sentences[entity.sentence_index].sentence_text
                in_att = sentences[entity.sentence_index].in_attachment
                b = entity.wordOffset_begin
                e = entity.wordOffset_end
                context = text[max(0, b - span):b]
                not_found = 1
                for pattern in self.pattern_list:
                    ser = re.search(pattern, context)
                    if ser:
                        groupdict = pattern.split('>')[0].replace('(?P<', '')
                        _role, _direct, _prob = groupdict.split('_')
                        if re.search('单价', context[-4:]) or re.search('(最低|风险)控制价', context) or entity.notes == '总投资':# or float(entity.entity_text)<100:
                            _prob = 6
                        _label = role2id.get(_role)
                        if _label != entity.label:
                            continue
                        _prob = int(_prob) * 0.1
                        # print('规则修改金额概率前：', entity.entity_text, entity.label, entity.values)
                        if in_att:
                            _prob = max(0.5, _prob - 0.2)
                        entity.values[_label] = _prob + entity.values[_label] / 20
                        not_found = 0
                        # print('规则修改金额概率后：', entity.entity_text, entity.label, entity.values)
                        break
                if not_found and entity.values[entity.label] > min_prob:
                    if re.search('单价', context[-4:]) or re.search('(最低|风险)控制价', context) or float(entity.entity_text)<100:
                        _prob = 0.6
                    elif in_att:
                        _prob = max(0.5, min_prob - 0.1)
                    else:
                        _prob = min_prob
                    # _prob = min_prob - 0.1 if in_att else min_prob
                    entity.values[entity.label] = _prob + entity.values[entity.label] / 20
                    # print('找不到规则修改金额概率：', entity.entity_text, entity.label, entity.values)
            # if entity.entity_type in ['money'] and entity.label in [0, 1] and 0.5<=entity.values[entity.label]<0.75 and float(entity.entity_text)<100: # 20241011 低概率小金额改为其他金额 # 20241128 小金额可能为单价，放单价存放
            #     entity.label = 2


# 时间类别
class TimePredictor():
    def __init__(self,config=None):
        self.sess = tf.Session(graph=tf.Graph(),config=config)
        self.inputs_code = None
        self.outputs_code = None
        self.input_shape = (2,40,128)
        self.load_model()

    def load_model(self):
        model_path = os.path.dirname(__file__)+'/timesplit_model'
        if self.inputs_code is None:
            log("get model of time")
            with self.sess.as_default():
                with self.sess.graph.as_default():
                    meta_graph_def = tf.saved_model.loader.load(self.sess, tags=["serve"], export_dir=model_path)
                    signature_key = tf.saved_model.signature_constants.DEFAULT_SERVING_SIGNATURE_DEF_KEY
                    signature_def = meta_graph_def.signature_def
                    self.inputs_code = []
                    self.inputs_code.append(
                        self.sess.graph.get_tensor_by_name(signature_def[signature_key].inputs["input0"].name))
                    self.inputs_code.append(
                        self.sess.graph.get_tensor_by_name(signature_def[signature_key].inputs["input1"].name))
                    self.outputs_code = self.sess.graph.get_tensor_by_name(signature_def[signature_key].outputs["outputs"].name)
                    return self.inputs_code, self.outputs_code
        else:
            return self.inputs_code, self.outputs_code

    def search_time_data(self,list_sentences,list_entitys):
        data_x = []
        points_entitys = []
        for list_sentence, list_entity in zip(list_sentences, list_entitys):
            p_entitys = 0
            p_sentences = 0
            list_sentence.sort(key=lambda x: x.sentence_index)
            while(p_entitys<len(list_entity)):
                entity = list_entity[p_entitys]
                if entity.entity_type in ['time']:
                    while(p_sentences<len(list_sentence)):
                        sentence = list_sentence[p_sentences]
                        if entity.doc_id == sentence.doc_id and entity.sentence_index == sentence.sentence_index:
                            # left = sentence.sentence_text[max(0,entity.wordOffset_begin-self.input_shape[1]):entity.wordOffset_begin]
                            # right = sentence.sentence_text[entity.wordOffset_end:entity.wordOffset_end+self.input_shape[1]]
                            s = spanWindow(tokens=sentence.tokens,begin_index=entity.begin_index,end_index=entity.end_index,size=self.input_shape[1])
                            left = s[0]
                            right = s[1]
                            context = [left, right]
                            x = self.embedding_words(context, shape=self.input_shape)
                            data_x.append(x)
                            points_entitys.append(entity)
                            break
                        p_sentences += 1
                p_entitys += 1
        if len(points_entitys)==0:
            return None
        data_x = np.transpose(np.array(data_x), (1, 0, 2, 3))
        return [data_x, points_entitys]

    def embedding_words(self, datas, shape):
        '''
        @summary:查找词汇对应的词向量
        @param:
            datas:词汇的list
            shape:结果的shape
        @return: array,返回对应shape的词嵌入
        '''
        model_w2v = getModel_w2v()
        embed = np.zeros(shape)
        length = shape[1]
        out_index = 0
        for data in datas:
            index = 0
            for item in data:
                item_not_space = re.sub("\s*", "", item)
                if index >= length:
                    break
                if item_not_space in model_w2v.vocab:
                    embed[out_index][index] = model_w2v[item_not_space]
                    index += 1
                else:
                    embed[out_index][index] = model_w2v['unk']
                    index += 1
            out_index += 1
        return embed

    def predict(self, list_sentences,list_entitys):
        datas = self.search_time_data(list_sentences, list_entitys)
        if datas is None:
            return
        points_entitys = datas[1]
        with self.sess.as_default():
            predict_y = limitRun(self.sess,[self.outputs_code], feed_dict={self.inputs_code[0]:datas[0][0]
                ,self.inputs_code[1]:datas[0][1]})[0]
            for i in range(len(predict_y)):
                entity = points_entitys[i]
                label = np.argmax(predict_y[i])
                values = []
                for item in predict_y[i]:
                    values.append(item)
                if label != 0:
                    if not timeFormat(entity.entity_text):
                        label = 0
                        values[0] = 0.5
                entity.set_Role(label, values)

# 产品字段提取
class ProductPredictor():
    def __init__(self,config=None):
        vocabpath = os.path.dirname(__file__) + "/codename_vocab.pk"
        self.vocab = load(vocabpath)
        self.word2index = dict((w, i) for i, w in enumerate(np.array(self.vocab)))
        self.sess = tf.Session(graph=tf.Graph(),config=config)
        self.load_model()

    def load_model(self):
        # model_path = os.path.dirname(__file__)+'/product_savedmodel/product.pb'
        model_path = os.path.dirname(__file__)+'/product_savedmodel/productAndfailreason.pb'
        with self.sess.as_default():
            with self.sess.graph.as_default():
                output_graph_def = tf.GraphDef()
                with open(model_path, 'rb') as f:
                    output_graph_def.ParseFromString(f.read())
                    tf.import_graph_def(output_graph_def, name='')
                    self.sess.run(tf.global_variables_initializer())
                    self.char_input = self.sess.graph.get_tensor_by_name('CharInputs:0')
                    self.length = self.sess.graph.get_tensor_by_name("Sum:0")
                    self.dropout = self.sess.graph.get_tensor_by_name("Dropout:0")
                    self.logit = self.sess.graph.get_tensor_by_name("logits/Reshape:0")
                    self.tran = self.sess.graph.get_tensor_by_name("crf_loss/transitions:0")

    def decode(self,logits, lengths, matrix):
        paths = []
        small = -1000.0
        # start = np.asarray([[small] * 4 + [0]])
        start = np.asarray([[small]*7+[0]])
        for score, length in zip(logits, lengths):
            score = score[:length]
            pad = small * np.ones([length, 1])
            logits = np.concatenate([score, pad], axis=1)
            logits = np.concatenate([start, logits], axis=0)
            path, _ = viterbi_decode(logits, matrix)
            paths.append(path[1:])
        return paths

    def predict(self, list_sentences,list_entitys=None,list_articles=[], fail=False, MAX_AREA=5000, out_lines=[]):
        '''
        预测实体代码，每个句子最多取MAX_AREA个字，超过截断
        :param list_sentences: 多篇公告句子列表,[[一篇公告句子列表],[公告句子列表]]
        :param list_entitys: 多篇公告实体列表
        :param MAX_AREA: 每个句子最多截取多少字
        :return: 把预测出来的实体放进实体类
        '''
        p = "(采购需求|需求分析|项目说明|(采购|合同|招标|询比?价|项目|服务|工程|标的|需求|建设|分包)(的?(主要|简要|基本|具体|名称及))?" \
                          "(内容|概况|概述|范围|信息|规模|简介|介绍|说明|摘要|情况|名称)([及与和]((其它|\w{,2})[要需]求|发包范围|数量))?" \
                      "|招标项目技术要求|服务要求|服务需求|项目目标|需求内容如下|建设规模|(设备|材料|仪器|需求|产品|采购单?)(清单|名称|信息))为?([:：，]|$)"
        # sentence_range = [] #20240827 取消，修复线上接口产品耗时长问题
        # if len(out_lines) >= 3: # 三个以上大纲
        #     for i in range(len(out_lines)-1):
        #         text, s1, b1 = out_lines[i]
        #         _, s2, b2 = out_lines[i+1]
        #         if 3<text.find('：')<20:
        #             text = text.split('：')[0]
        #         if re.search(p, text[:15]):
        #             sentence_range.append((s1, s2))

        with self.sess.as_default() as sess:
            with self.sess.graph.as_default():
                result = []
                product_list = []
                if fail and list_articles!=[]:
                    text_list = [list_articles[0].content[:MAX_AREA]]
                    chars = [[self.word2index.get(it, self.word2index.get('<unk>')) for it in text] for text in text_list]
                    if USE_API:
                        requests_result = requests.post(API_URL + "/predict_product",
                                               json={"inputs": chars}, verify=True)
                        batch_paths = json.loads(requests_result.text)['result']
                        lengths = json.loads(requests_result.text)['lengths']
                    else:
                        lengths, scores, tran_ = sess.run([self.length, self.logit, self.tran],
                                                          feed_dict={
                                                              self.char_input: np.asarray(chars),
                                                              self.dropout: 1.0
                                                          })
                        batch_paths = self.decode(scores, lengths, tran_)
                    for text, path, length in zip(text_list, batch_paths, lengths):
                        tags = ''.join([str(it) for it in path[:length]])
                        # 提取产品
                        for it in re.finditer("12*3", tags):
                            start = it.start()
                            end = it.end()
                            _entity = Entity(doc_id=list_articles[0].id, entity_id="%s_%s_%s_%s" % (
                                list_articles[0].doc_id, 0, start, end),
                                             entity_text=text[start:end],
                                             entity_type="product", sentence_index=0,
                                             begin_index=0, end_index=0, wordOffset_begin=start,
                                             wordOffset_end=end)
                            list_entitys[0].append(_entity)
                            product_list.append(text[start:end])
                        # 提取失败原因
                        for it in re.finditer("45*6", tags):
                            start = it.start()
                            end = it.end()
                            result.append(text[start:end].replace('？', '').strip())
                    reasons = []
                    for it in result:
                        if "(√)" in it or "（√）" in it:
                            reasons = [it]
                            break
                        if reasons != [] and (it not in reasons[-1] and it not in reasons):
                            reasons.append(it)
                        elif reasons == []:
                            reasons.append(it)
                    if reasons == []: # 如果模型识别不到失败原因 就用规则补充
                        for text in text_list:
                            ser1 = re.search('\w{,4}(理由|原因)：\s*((第\d+包|标项\d+|原因类型)?[：:]?[\s*\w，]{2,30}((不满?足|少于|未达)((法定)?[123一二三两]家|(规定)?要求)|(项目|采购)(终止|废标))，?)+',text)
                            ser2 = re.search(
                                '\w{,4}(理由|原因)：\s*(第\d+包|标项\d+|原因类型)?[：:]?[\s*\w]{4,30}，', text)
                            if ser1:
                                reasons.append(ser1.group(0))
                                break
                            elif ser2:
                                reasons.append(ser2.group(0))
                                break
                    return {'fail_reason':'；'.join(reasons)}, product_list

                if list_entitys is None:
                    list_entitys = [[] for _ in range(len(list_sentences))]
                for list_sentence, list_entity in zip(list_sentences,list_entitys):
                    if len(list_sentence)==0:
                        result.append({"product":[]})
                        continue
                    # 20240827 取消，修复线上接口产品耗时长问题
                    # if sentence_range: # 20240815 如果有招标内容大纲，只从前两句及大纲内提取产品，避免类似 514920213 提取错其他内容 银行流水
                    #     new_list = []
                    #     word_num = 0
                    #     for sentence in list_sentence:
                    #         if sentence.sentence_index<2:
                    #             new_list.append(sentence)
                    #             continue
                    #         for s1, s2 in sentence_range:
                    #             if sentence.sentence_index < s1:
                    #                 continue
                    #             elif s1<=sentence.sentence_index <=s2:
                    #                 new_list.append(sentence)
                    #                 word_num += len(sentence.sentence_text)
                    #             elif sentence.sentence_index >= s2:
                    #                 break
                    #     if word_num > 100:
                    #         list_sentence = new_list

                    list_sentence.sort(key=lambda x:len(x.sentence_text), reverse=True)
                    _begin_index = 0
                    item = {"product":[]}
                    temp_list = []
                    while True:
                        MAX_LEN = len(list_sentence[_begin_index].sentence_text)
                        if MAX_LEN > MAX_AREA:
                            MAX_LEN = MAX_AREA
                        _LEN = MAX_AREA//MAX_LEN
                        chars = [sentence.sentence_text[:MAX_LEN] for sentence in list_sentence[_begin_index:_begin_index+_LEN]]
                        chars = [[self.word2index.get(it, self.word2index.get('<unk>')) for it in l] for l in chars]
                        chars = pad_sequences(chars, maxlen=MAX_LEN, padding="post", truncating="post")
                        if USE_API:
                            requests_result = requests.post(API_URL + "/predict_product",
                                                   json={"inputs": chars.tolist()}, verify=True)
                            batch_paths = json.loads(requests_result.text)['result']
                            lengths = json.loads(requests_result.text)['lengths']
                        else:
                            lengths, scores, tran_ = sess.run([self.length, self.logit, self.tran],
                                                              feed_dict={
                                                                        self.char_input: np.asarray(chars),
                                                                        self.dropout: 1.0
                                                                        })
                            batch_paths = self.decode(scores, lengths, tran_)
                        for sentence, path, length in zip(list_sentence[_begin_index:_begin_index+_LEN],batch_paths, lengths):
                            tags = ''.join([str(it) for it in path[:length]])
                            for it in re.finditer("12*3", tags):
                                start = it.start()
                                end = it.end()
                                _entity = Entity(doc_id=sentence.doc_id, entity_id="%s_%s_%s_%s" % (
                                sentence.doc_id, sentence.sentence_index, start, end),
                                                 entity_text=sentence.sentence_text[start:end],
                                                 entity_type="product", sentence_index=sentence.sentence_index,
                                                 begin_index=0, end_index=0, wordOffset_begin=start,
                                                 wordOffset_end=end,in_attachment=sentence.in_attachment)
                                list_entity.append(_entity)
                                temp_list.append(sentence.sentence_text[start:end])
                                product_list.append(sentence.sentence_text[start:end])

                        # item["product"] = list(set(temp_list))
                        # result.append(item)
                        if _begin_index+_LEN >= len(list_sentence):
                            break
                        _begin_index += _LEN
                    item["product"] = list(set(temp_list))
                    result.append(item) # 修正bug
                return {'fail_reason': ""},product_list


# 产品数量单价品牌规格提取 #2021/11/10 添加表格中的项目、需求、预算、时间要素提取
class ProductAttributesPredictor():
    def __init__(self,):
        self.p0 = '(类别|类型|物类|目录|类目|分类)(名称|$)|^品名|^品类|^品目|(标项|分项|项目|计划|包组|标段|[分子]?包|子目|服务|招标|中标|成交|工程|招标内容)(名称|内容|描述)'
        self.p1 = '(标的|维修|系统|报价构成|商品|产品|物料|物资|货物|设备|采购品|采购条目|物品|材料|印刷品?|采购|物装|配件|资产|耗材|清单|器材|仪器|器械|备件|拍卖物|标的物|物件|药品|药材|药械|货品|食品|食材|品目|^品名|气体)[\)）的]?([、\w]{,4}名称|内容|描述)'
        self.p2 = '标的|标项|项目$|商品|产品|物料|物资|货物|设备|采购品|采购条目|物品|材料|印刷品|物装|配件|资产|招标内容|耗材|清单|器材|仪器|器械|备件|拍卖物|标的物|物件|药品|药材|药械|货品|食品|食材|菜名|^品目$|^品名$|^名称|^内容$|(标项|分项|项目|计划|包组|标段|[分子]?包|子目|服务|招标|中标|成交|工程|招标内容)(名称|内容|描述)'
        # self.p1 = '(设备|货物|商品|产品|物品|货品|材料|物资|物料|物件|耗材|备件|食材|食品|品目|标的|标的物|标项|资产|拍卖物|仪器|器材|器械|药械|药品|药材|采购品?|项目|招标|工程|服务)[\)）]?(名称|内容|描述)'
        # self.p2 = '设备|货物|商品|产品|物品|货品|材料|物资|物料|物件|耗材|备件|食材|食品|品目|标的|标的物|资产|拍卖物|仪器|器材|器械|药械|药品|药材|采购品|项目|品名|菜名|内容|名称'
        with open(os.path.dirname(__file__)+'/header_set.pkl', 'rb') as f:
            self.header_set = pickle.load(f)
        self.tb = TableTag2List()
    def isTrueTable(self, table):
        '''真假表格规则：
        1、包含<caption>或<th>标签为真
        2、包含大量链接、表单、图片或嵌套表格为假
        3、表格尺寸太小为假
        4、外层<table>嵌套子<table>,一般子为真，外为假'''
        if table.find_all(['caption', 'th']) != []:
            return True
        elif len(table.find_all(['form', 'a', 'img'])) > 5:
            # print('过滤表格：包含链接图片等大于5的为假表格')
            return False
        elif len(table.find_all(['tr'])) < 2:
            # print('过滤表格：行数小于2的为假表格')
            return False
        elif len(table.find_all(['table'])) >= 1:
            # print('过滤表格：包含多个表格的为假表格')
            return False
        else:
            return True

    def getTrs(self, tbody):
        # 获取所有的tr
        trs = []
        objs = tbody.find_all(recursive=False)
        for obj in objs:
            if obj.name == "tr":
                trs.append(obj)
            if obj.name == "tbody":
                for tr in obj.find_all("tr", recursive=False):
                    trs.append(tr)
        return trs

    def getTable(self, tbody):
        trs = self.getTrs(tbody)
        inner_table = []
        if len(trs) < 2:
            return inner_table
        for tr in trs:
            tr_line = []
            tds = tr.findChildren(['td', 'th'], recursive=False)
            if len(tds) < 2:
                continue
            for td in tds:
                # td_text = re.sub('\s+|…', ' ', td.get_text()).strip()
                td_text = re.sub('…', '', td.get_text()).strip()
                td_text = td_text.replace("\x06", "").replace("\x05", "").replace("\x07", "").replace('\\', '/').replace('"', '') # 修复272144312 # 产品单价数量提取结果有特殊符号\  气动执行装置备件\密封组件\NBR+PT
                td_text = td_text.replace("(", "（").replace(")", "）").replace(':', '：')
                tr_line.append(td_text)
            inner_table.append(tr_line)
        return inner_table

    def fixSpan(self, tbody):
        # 处理colspan, rowspan信息补全问题
        trs = self.getTrs(tbody)
        ths_len = 0
        ths = list()
        trs_set = set()
        # 修改为先进行列补全再进行行补全，否则可能会出现表格解析混乱
        # 遍历每一个tr

        for indtr, tr in enumerate(trs):
            ths_tmp = tr.findChildren('th', recursive=False)
            # 不补全含有表格的tr
            if len(tr.findChildren('table')) > 0:
                continue
            if len(ths_tmp) > 0:
                ths_len = ths_len + len(ths_tmp)
                for th in ths_tmp:
                    ths.append(th)
                trs_set.add(tr)
            # 遍历每行中的element
            tds = tr.findChildren(recursive=False)
            if len(tds) < 3:
                continue  # 列数太少的不补全
            for indtd, td in enumerate(tds):
                # 若有colspan 则补全同一行下一个位置
                if 'colspan' in td.attrs and str(re.sub("[^0-9]", "", str(td['colspan']))) != "":
                    col = int(re.sub("[^0-9]", "", str(td['colspan'])))
                    if col < 10 and len(td.get_text()) < 500:
                        td['colspan'] = 1
                        for i in range(1, col, 1):
                            td.insert_after(copy.copy(td))
        for indtr, tr in enumerate(trs):
            ths_tmp = tr.findChildren('th', recursive=False)
            # 不补全含有表格的tr
            if len(tr.findChildren('table')) > 0:
                continue
            if len(ths_tmp) > 0:
                ths_len = ths_len + len(ths_tmp)
                for th in ths_tmp:
                    ths.append(th)
                trs_set.add(tr)
            # 遍历每行中的element
            tds = tr.findChildren(recursive=False)
            same_span = 0
            if len(tds) > 1 and 'rowspan' in tds[0].attrs:
                span0 = tds[0].attrs['rowspan']
                for td in tds:
                    if 'rowspan' in td.attrs and td.attrs['rowspan'] == span0:
                        same_span += 1
            if same_span == len(tds):
                continue

            for indtd, td in enumerate(tds):
                # 若有rowspan 则补全下一行同样位置
                if 'rowspan' in td.attrs and str(re.sub("[^0-9]", "", str(td['rowspan']))) != "":
                    row = int(re.sub("[^0-9]", "", str(td['rowspan'])))
                    td['rowspan'] = 1
                    for i in range(1, row, 1):
                        # 获取下一行的所有td， 在对应的位置插入
                        if indtr + i < len(trs):
                            tds1 = trs[indtr + i].findChildren(['td', 'th'], recursive=False)
                            if len(tds1) >= (indtd) and len(tds1) > 0:
                                if indtd > 0:
                                    tds1[indtd - 1].insert_after(copy.copy(td))
                                else:
                                    tds1[0].insert_before(copy.copy(td))
                            elif len(tds1) > 0 and len(tds1) == indtd - 1:
                                tds1[indtd - 2].insert_after(copy.copy(td))

    def get_monthlen(self, year, month):
        '''输入年份、月份 int类型 得到该月份天数'''
        try:
            weekday, num = calendar.monthrange(int(year), int(month))
        except:
            num = 30
        return str(num)
    def fix_time(self, text, html, page_time):
        '''输入日期字段返回格式化日期'''
        for it in [('十二', '12'),('十一', '11'),('十','10'),('九','9'),('八','8'),('七','7'),
                   ('六','6'),('五','5'),('四','4'),('三','3'),('二','2'),('一','1')]:
            if it[0] in text:
                text = text.replace(it[0], it[1])
        if re.search('^\d{1,2}月$', text):
            m = re.search('^(\d{1,2})月$', text).group(1)
            if len(m) < 2:
                m = '0' + m
            year = re.search('(\d{4})年(.{,12}采购意向)?', html)
            if year:
                y = year.group(1)
                num = self.get_monthlen(y, m)
                if len(num) < 2:
                    num = '0' + num
                order_begin = "%s-%s-01" % (y, m)
                order_end = "%s-%s-%s" % (y, m, num)
            elif page_time != "":
                year = re.search('\d{4}', page_time)
                if year:
                    y = year.group(0)
                    num = self.get_monthlen(y, m)
                    if len(num) < 2:
                        num = '0' + num
                    order_begin = "%s-%s-01" % (y, m)
                    order_end = "%s-%s-%s" % (y, m, num)
                else:
                    y = str(datetime.datetime.now().year)
                    num = self.get_monthlen(y, m)
                    if len(num) < 2:
                        num = '0' + num
                    order_begin = "%s-%s-01" % (y, m)
                    order_end = "%s-%s-%s" % (y, m, num)
            else:
                y = str(datetime.datetime.now().year)
                num = self.get_monthlen(y, m)
                if len(num) < 2:
                    num = '0' + num
                order_begin = "%s-%s-01" % (y, m)
                order_end = "%s-%s-%s" % (y, m, num)
            return order_begin, order_end

        t1 = re.search('^(\d{4})(年|/|\.|-)(\d{1,2})月?$', text)
        if t1:
            year = t1.group(1)
            month = t1.group(3)
            num = self.get_monthlen(year, month)
            if len(month)<2:
                month = '0'+month
            if len(num) < 2:
                num = '0'+num
            order_begin = "%s-%s-01" % (year, month)
            order_end = "%s-%s-%s" % (year, month, num)
            return order_begin, order_end
        t2 = re.search('^(\d{4})(年|/|\.|-)(\d{1,2})(月|/|\.|-)(\d{1,2})日?$', text)
        if t2:
            y = t2.group(1)
            m = t2.group(3)
            d = t2.group(5)
            m = '0'+ m if len(m)<2 else m
            d = '0'+d if len(d)<2 else d
            order_begin = order_end = "%s-%s-%s"%(y,m,d)
            return order_begin, order_end
        # 时间样式："202105"
        t3 = re.search("^(20\d{2})(\d{1,2})$",text)
        if t3:
            year = t3.group(1)
            month = t3.group(2)
            if int(month)>0 and int(month)<=12:
                num = self.get_monthlen(year, month)
                if len(month) < 2:
                    month = '0' + month
                if len(num) < 2:
                    num = '0' + num
                order_begin = "%s-%s-01" % (year, month)
                order_end = "%s-%s-%s" % (year, month, num)
                return order_begin, order_end
        # 时间样式："20210510"
        t4 = re.search("^(20\d{2})(\d{2})(\d{2})$", text)
        if t4:
            year = t4.group(1)
            month = t4.group(2)
            day = t4.group(3)
            if int(month) > 0 and int(month) <= 12 and int(day)>0 and int(day)<=31:
                order_begin = order_end = "%s-%s-%s"%(year,month,day)
                return order_begin, order_end
        all_match = re.finditer('^(?P<y1>\d{4})(年|/|\.)(?P<m1>\d{1,2})(?:(月|/|\.)(?:(?P<d1>\d{1,2})日)?)?'
                                '(到|至|-)(?:(?P<y2>\d{4})(年|/|\.))?(?P<m2>\d{1,2})(?:(月|/|\.)'
                                '(?:(?P<d2>\d{1,2})日)?)?$', text)
        y1 = m1 = d1 = y2 = m2 = d2 = ""
        found_math = False
        for _match in all_match:
            if len(_match.group()) > 0:
                found_math = True
                for k, v in _match.groupdict().items():
                    if v!="" and v is not None:
                        if k == 'y1':
                            y1 = v
                        elif k == 'm1':
                            m1 = v
                        elif k == 'd1':
                            d1 = v
                        elif k == 'y2':
                            y2 = v
                        elif k == 'm2':
                            m2 = v
                        elif k == 'd2':
                            d2 = v
        if not found_math:
            return "", ""
        y2 = y1 if y2 == "" else y2
        d1 = '1' if d1 == "" else d1
        d2 = self.get_monthlen(y2, m2) if d2 == "" else d2
        m1 = '0' + m1 if len(m1) < 2 else m1
        m2 = '0' + m2 if len(m2) < 2 else m2
        d1 = '0' + d1 if len(d1) < 2 else d1
        d2 = '0' + d2 if len(d2) < 2 else d2
        order_begin = "%s-%s-%s"%(y1,m1,d1)
        order_end = "%s-%s-%s"%(y2,m2,d2)
        return order_begin, order_end

    def fix_quantity(self, quantity_text, header_quan_unit):
        '''
        产品数量标准化，统一为数值型字符串
        :param quantity_text: 原始数量字符串
        :param header_quan_unit: 表头数量单位字符串
        :return: 返回数量及单位
        '''
        quantity = quantity_text
        quantity = re.sub('[一壹]', '1', quantity)
        quantity = re.sub('[,，约]|（\d+）', '', quantity)
        ser = re.search('^(\d+\.?\d*)（?([㎡\w/]{,5})', quantity)
        if ser:
            quantity = str(ser.group(1))
            quantity_unit = ser.group(2)
            if quantity_unit == "" and header_quan_unit != "":
                quantity_unit = header_quan_unit
        else:
            quantity = ""
            quantity_unit = ""
        return quantity, quantity_unit

    def find_header(self, items,p0, p1, p2):
        '''
        inner_table 每行正则检查是否为表头，是则返回表头所在列序号，及表头内容
        :param items: 列表，内容为每个td 文本内容
        :param p1: 优先表头正则
        :param p2: 第二表头正则
        :return: 表头所在列序号，是否表头，表头内容
        '''
        items = [re.sub('\s', '', it) for it in items]
        flag = False
        header_dic = {'名称': '', '数量': '', '单位': '', '单价': '', '品牌': '', '规格': '', '需求': '', '预算': '', '时间': '', '总价': '', '品目': '', '参数': '', '采购人':'', '备注':'','发布日期':'', '品目号':'', '品目名':''}
        product = ""  # 产品
        quantity = ""  # 数量
        quantity_unit = "" # 数量单位
        unitPrice = ""  # 单价
        brand = ""  # 品牌
        specs = ""  # 规格
        demand = "" # 采购需求
        budget = "" # 预算金额
        order_time = "" # 采购时间
        total_price = "" # 总价
        category = "" # 品目
        parameter = "" # 参数
        tenderee = "" # 采购人
        notes = "" # 备注  2024/3/27 达仁 需求
        issue_date = ""  # 发布日期 2024/3/27 达仁 需求
        pinmu_no = "" # 品目号
        pinmu_name = "" # 品目名称

        # for i in range(min(6, len(items))):
        for i in range(len(items)):
            it = items[i]
            if len(it) < 15 and re.search(p0, it) != None:
                flag = True
                if category != "" and category != it:
                    continue
                category = it
                header_dic['品目'] = i
            elif len(it) < 15 and re.search(p1, it) != None:
                flag = True
                if product !='' and product != it:
                    break
                product = it
                header_dic['名称'] = i
                # break
        # if not flag:
        if product == "":
            # for i in range(min(4, len(items))):
            for i in range(len(items)):
                it = items[i]
                if len(it) < 15 and it != category and re.search(p2, it) and (re.search('^名称|^品名|^品目', it) or re.search(
                        '编号|编码|号|情况|报名|单位|位置|地址|数量|单价|价格|金额|品牌|规格类型|型号|公司|中标人|企业|供应商|候选人', it) == None):
                    flag = True
                    product = it
                    header_dic['名称'] = i
                    break
        if flag == False and len(items)>3 and re.search('^第[一二三四五六七八九十](包|标段)$', items[0]):
            product = items[0]
            header_dic['名称'] = 0
            flag = True

        if flag:
            # for j in range(i + 1, len(items)):
            for j in range(len(items)):
                if header_dic['品目号'] == "" and re.search('(品目|品类)(编?号|编码|序号)', items[j]):
                    header_dic['品目号'] = j
                    pinmu_no = items[j]
                elif header_dic['品目名'] == "" and re.search('(品目|品类)名称|采购(品目|品类)$', items[j]):
                    header_dic['品目名'] = j
                    pinmu_name = items[j]
                if items[j] in [product, category]:
                    continue
                if len(items[j]) > 20 and len(re.sub('[\(（].*[）\)]|[^\u4e00-\u9fa5]', '', items[j])) > 10:
                    continue
                if header_dic['数量']=="" and re.search('数量|采购量', items[j]) and re.search('单价|用途|要求|规格|型号|运输|承运', items[j])==None:
                    header_dic['数量'] = j
                    quantity = items[j]
                elif header_dic['单位']=="" and re.search('^(数量单位|计量单位|单位)$', items[j]):
                    header_dic['单位'] = j
                    quantity_unit = items[j]
                elif re.search('单价', items[j]) and re.search('数量|规格|型号|品牌|供应商', items[j])==None:
                    header_dic['单价'] = j
                    unitPrice = items[j]
                elif re.search('品牌', items[j]):
                    header_dic['品牌'] = j
                    brand = items[j]
                elif re.search('规格|型号', items[j]):
                    header_dic['规格'] = j
                    specs = items[j]
                elif re.search('参数', items[j]):
                    header_dic['参数'] = j
                    parameter = items[j]
                elif re.search('预算单位|(采购|招标|购买)(单位|人|方|主体)|项目业主|采购商|申购单位|需求单位|业主单位',items[j]) and len(items[j])<=8:
                    header_dic['采购人'] = j
                    tenderee = items[j]
                elif re.search('需求|服务要求|服务标准', items[j]):
                    header_dic['需求'] = j
                    demand = items[j]
                elif re.search('预算|控制金额', items[j]) and not re.search('预算单位',items[j]):
                    header_dic['预算'] = j
                    budget = items[j]
                elif re.search('时间|采购实施月份|采购月份|采购日期|预计(招标|采购|发标|发包)(时间|月份)', items[j]):
                    header_dic['时间'] = j
                    order_time = items[j]
                elif re.search('总价|(成交|中标|验收|合同|预算|控制|总|合计)）?([金总]额|价格?)|最高限价|价格|金额', items[j]) and re.search('数量|规格|型号|品牌|供应商', items[j])==None:
                    header_dic['总价'] = j
                    total_price = items[j]
                elif re.search('^备\s*注$|资质要求|预留面向中小企业|是否适宜中小企业采购预算预留|公开征集信息', items[j]):
                    header_dic['备注'] = j
                    notes = items[j]
                elif re.search('^\w{,4}发布(时间|日期)$', items[j]):
                    header_dic['发布日期'] = j
                    issue_date = items[j]

            if header_dic.get('名称', "") != "" or header_dic.get('品目', "") != "":
                # num = 0
                # for it in (quantity, unitPrice, brand, specs, product, demand, budget, order_time, total_price):
                #     if it != "":
                #         num  += 1
                # if num >=2:
                #     return header_dic, flag, (product, quantity, quantity_unit, unitPrice, brand, specs, total_price, category, parameter), (product, demand, budget, order_time)
                if set([quantity, brand, specs, unitPrice, total_price])!=set([""]) or set([demand, budget])!=set([""]):
                    return header_dic, flag, (product, quantity, quantity_unit, unitPrice, brand, specs, total_price, category, parameter, pinmu_no, pinmu_name), (product, demand, budget, order_time,tenderee, notes,issue_date)
        flag = False
        return header_dic, flag, (product, quantity, quantity_unit, unitPrice, brand, specs, total_price, category, parameter, pinmu_no, pinmu_name), (product, demand, budget, order_time,tenderee,notes,issue_date)

    def predict(self, docid='', html='', page_time=""):
        '''
        正则寻找table表格内 产品相关信息
        :param html:公告HTML原文
        :return:公告表格内 产品、数量、单价、品牌、规格 ，表头，表头列等信息
        '''

        html = html.replace('<br>', '\n').replace('<br/>', '\n')
        html = re.sub("<html>|</html>|<body>|</body>","",html)
        html = re.sub("##attachment##","",html)
        soup = BeautifulSoup(html, 'lxml')
        # flag_yx = True if re.search('采购意向', html) else False
        flag_yx = True if re.search('采购意向|招标意向|选取意向|意向公告|意向公示|意向公开', html) else False
        tables = soup.find_all(['table'])
        headers = []
        headers_demand = []
        header_col = []
        product_link = []
        demand_link = []
        product_set = set()
        total_product_money = 0
        unit_price_list = [] # 单价列表，用于判断是否重复单价，避免多个表格重复提取造成合计产品价格错误。
        total_price_list = []  # 总价列表，拥有判断是否为几行产品合计总价
        # print('表格数：', len(tables))

        for i in range(len(tables)):  # (len(tables)-1, -1, -1) 由从最后到前改为 前到后
            table = tables[i]
            if table.parent.name == 'td' and len(table.find_all('td')) <= 3:
                table.string = table.get_text()
                table.name = 'turntable'
                # print('过滤表格：表格父节点为td,且表格td数量小于等于3')
                continue
            if not self.isTrueTable(table):
                continue

            # self.fixSpan(table)
            # inner_table = self.getTable(table)

            inner_table = self.tb.table2list(table)
            table.extract()
            # print(inner_table)
            i = 0
            found_header = False
            header_quan_unit = ""  # 数量表头 包含单位
            header_colnum = 0
            if flag_yx:
                # print('意向公告， 提取意向信息')
                col0_l = []
                col1_l = []
                for tds in inner_table:
                    if len(tds) == 2:
                        col0_l.append(re.sub('[：:]', '', tds[0]))  # 处理只有两列的情况
                        col1_l.append(tds[1])
                    elif len(tds)>=4 and len(inner_table)==2:  # 处理只有两行的情况
                        col0_l = inner_table[0]
                        col1_l = inner_table[1]
                        break
                # print(set(col0_l))
                # print('head: ',set(col0_l) & self.header_set)
                if len(set(col0_l) & self.header_set) > len(col0_l) * 0.2 and len(col0_l)==len(col1_l): # 保证两个列数一致
                    header_list2 = []
                    product = demand = budget = order_begin = order_end = ""
                    tenderee = ""
                    notes = ''
                    issue_date = ''
                    for i in range(len(col0_l)):
                        if re.search('项目名称', col0_l[i]):
                            header_list2.append(col0_l[i])
                            product = col1_l[i]
                        elif re.search('采购需求|需求概况|招标内容|项目概况', col0_l[i]):
                            header_list2.append(col0_l[i])
                            demand = col1_l[i]
                        elif re.search('采购预算|预算金额|控制金额', col0_l[i]):
                            header_list2.append(col0_l[i])
                            _budget = col1_l[i]
                            re_price = re.findall("[零壹贰叁肆伍陆柒捌玖拾佰仟萬億圆十百千万亿元角分]{3,}|\d[\d,]*(?:\.\d+)?万?", _budget)
                            if re_price:
                                # _budget = re_price[0]
                                # if '万元' in col0_l[i] and '万' not in _budget:
                                #     _budget += '万元'
                                # budget = str(getUnifyMoney(_budget))
                                _budget, _money_unit = money_process(_budget, col0_l[i])
                                budget = str(_budget)
                                if '.' in budget:
                                    budget = budget.rstrip('0').rstrip('.')
                                if float(budget)>= 500*100000000:
                                    budget = ""
                        elif re.search('预算单位|(采购|招标|购买)(单位|人|方|主体)|项目业主|采购商|申购单位|需求单位|业主单位', col0_l[i]):
                            header_list2.append(col0_l[i])
                            tenderee = re.sub("\s","",col1_l[i])
                            if len(tenderee) > 20:
                                tenderee = ""
                        elif re.search('采购时间|采购实施月份|采购月份|采购日期|预计(招标|采购|发标|发包)(时间|月份)', col0_l[i]):
                            header_list2.append(col0_l[i])
                            order_time = col1_l[i].strip()
                            order_begin, order_end = self.fix_time(order_time, html, page_time)
                        elif re.search('^备\s*注$|资质要求|预留面向中小企业|是否适宜中小企业采购预算预留|公开征集信息', col0_l[i]):
                            header_list2.append(col0_l[i])
                            notes = col1_l[i].strip()
                        elif re.search('^\w{,4}发布(时间|日期)$', col0_l[i]):
                            header_list2.append(col0_l[i])
                            issue_date = self.fix_time(col1_l[i].strip(), '', '')[0]
                    if order_begin != "" and order_end!="":
                        order_begin_year = int(order_begin.split("-")[0])
                        order_end_year = int(order_end.split("-")[0])
                        # 限制附件错误识别时间
                        if order_begin_year>=2050 or order_end_year>=2050:
                            order_begin = order_end = ""
                    # print(product,demand,budget,order_begin)
                    if product!= "" and demand != "" and budget!="" and order_begin != "":
                        link = {'project_name': product, 'product': [], 'demand': demand, 'budget': budget,
                                'order_begin': order_begin, 'order_end': order_end ,'tenderee':tenderee, 'notes':notes, 'issue_date':issue_date}
                        if link not in demand_link:
                            demand_link.append(link)
                            headers_demand.append('_'.join(header_list2))
                        continue
            if len(inner_table)>3 and len(inner_table[0])==2 and len(inner_table[1])==2: # 只有两列且第一列为表头的，行列切换
                col0_l = []
                col1_l = []
                for tds in inner_table:
                    if len(tds) == 2:
                        col0_l.append(re.sub('[：:]', '', tds[0]))  # 处理只有两列的情况
                        col1_l.append(tds[1])
                    else:
                        break
                if len(set(col0_l) & self.header_set) > len(col0_l) * 0.5 and len(col0_l) == len(col1_l):
                    inner_table = [col0_l, col1_l]
            elif len(inner_table)>2 and len(inner_table[0])==4 and len(inner_table[1])==4 and len(set(inner_table[0]) & self.header_set)==2: # 只有两列且第一列为表头的，行列切换
                col0_l = []
                col1_l = []
                col2_l = []
                col3_l = []
                for tds in inner_table:
                    if len(tds) == 4 and len(set(tds))>2:
                        col0_l.append(re.sub('[：:]', '', tds[0]))  # 处理只有两列的情况
                        col1_l.append(tds[1])
                        col2_l.append(re.sub('[：:]', '', tds[2]))  # 处理只有两列的情况
                        col3_l.append(tds[3])
                    else:
                        break
                if len(set(col0_l) & self.header_set) > len(col0_l) * 0.5 and len(set(col2_l) & self.header_set) > len(col2_l) * 0.5:
                    inner_table = [col0_l+col2_l, col1_l+col3_l]

            while i < (len(inner_table)):
                tds = inner_table[i]
                not_empty = [it for it in tds if re.sub('\s', '', it) != ""]
                if len(set(not_empty))<2 or len(set(tds))<2 or (len(set(tds))==2 and re.search('总计|合计|汇总', tds[0])): # 非空列或者不重复内容小于两列的 继续
                    i += 1
                    # print('表格产品提取：非空列或者不重复内容小于两列的 继续', i, tds)
                    continue
                product = ""  # 产品
                quantity = ""  # 数量
                quantity_unit = "" # 数量单位
                unitPrice = ""  # 单价
                brand = ""  # 品牌
                specs = ""  # 规格
                demand = ""  # 采购需求
                budget = ""  # 预算金额
                order_time = ""  # 采购时间
                order_begin = ""
                order_end = ""
                total_price = "" # 总金额
                parameter = "" # 参数
                tenderee = "" # 采购人
                notes = '' # 备注
                issue_date = '' # 发布日期
                pinmu_no = '' # 品目号
                pinmu_name = '' # 品目名称
                if len(set([re.sub('[:：\s]','',td) for td in tds]) & self.header_set) > len(tds) * 0.4:
                # if len(set(tds) & self.header_set) > len(tds) * 0.2:
                    header_dic, found_header, header_list, header_list2 = self.find_header(tds, self.p0, self.p1, self.p2)
                    if found_header:
                        header_colnum = len(tds) # 保存表头所在行列数
                    if found_header and isinstance(header_list, tuple) and len(header_list) > 2: # 获取表头中的 数量单位
                            quantity_header = header_list[1].replace('单位：', '')
                            if re.search('（([\w/]{,5})）', quantity_header):
                                header_quan_unit = re.search('（([\w/]{,5})）', quantity_header).group(1)
                            else:
                                header_quan_unit = ""

                    if found_header and ('_'.join(header_list) not in headers or '_'.join(header_list2) not in headers_demand):# and len(headers)<1:  # 只保留出现的第一个表头
                        headers.append('_'.join(header_list))
                        headers_demand.append('_'.join(header_list2))
                        header_col.append('_'.join(tds))
                    i += 1
                    # print('表头数量占行列数0.4倍不做内容匹配', set([re.sub('[:：]','',td) for td in tds]) & self.header_set, tds)
                    continue
                elif found_header:
                    if len(tds) > header_colnum or len(tds)-1<max([it for it in header_dic.values() if it!=""]):  # 表头、属性列数不一致跳过
                        i += 1
                        # print('表头、属性列数不一致跳过', len(tds), header_colnum, tds)
                        continue
                    id0 = header_dic.get('品目', "")
                    id1 = header_dic.get('名称', "")
                    id2 = header_dic.get('数量', "")
                    id2_2 = header_dic.get('单位', "")
                    id3 = header_dic.get('单价', "")
                    id4 = header_dic.get('品牌', "")
                    id5 = header_dic.get('规格', "")

                    id6 = header_dic.get('需求', "")
                    id7 = header_dic.get('预算', "")
                    id8 = header_dic.get('时间', "")

                    id9 = header_dic.get("总价", "")
                    id10 = header_dic.get('参数', "")
                    id11 = header_dic.get('采购人', "")

                    id12 = header_dic.get('备注', "")
                    id13 = header_dic.get('发布日期', "")
                    id14 = header_dic.get('品目号', "")
                    id15 = header_dic.get('品目名', "")

                    not_attr = 0
                    for k, v in header_dic.items():
                        if isinstance(v, int):
                            if v >= len(tds) or tds[v] in self.header_set:
                                # print('内容属性在表头集合里面', tds[v], v >= len(tds))
                                not_attr = 1
                                # break
                    if not_attr>=2: # 只要属性里面有两项为表头，停止匹配
                        i += 1
                        found_header = False
                        # print('只要属性里面有两项为表头，停止匹配')
                        continue

                    if id1!="" and re.search('[a-zA-Z\u4e00-\u9fa5]', tds[id1]) and tds[id1] not in self.header_set and \
                            re.search('备注|汇总|合计|总价|价格|金额|^详见|无$|xxx', tds[id1]) == None:
                        product = tds[id1]

                    if id0!="" and re.search('[a-zA-Z\u4e00-\u9fa5]', tds[id0]) and tds[id0] not in self.header_set and \
                            re.search('备注|汇总|合计|总价|价格|金额|^详见|无$|xxx', tds[id0]) == None:
                        category = tds[id0]
                        product = "%s_%s"%(category, product) if product!="" and product!=category else category

                    if product != "" and product not in ['工程类', '服务类', '货物类', '工程', '服务', '货物']:
                        # print('匹配产品内容： ', product)
                        if id2 != "":
                            if re.search('\d+|[壹贰叁肆伍陆柒捌玖拾一二三四五六七八九十]', tds[id2]):
                                # if re.search('(^\d{,3}(,?\d{3}){2,}(\.\d{2,7}，?)$)|万?元', tds[id2]):  # 254816100 这篇数量很大，貌似正常
                                #     i += 1
                                #     print('过滤：数量包含金额单位或值很大类似金额', tds[id2])
                                #     continue
                                quantity = tds[id2]
                            elif re.search('\w{5,}', tds[id2]) and re.search('^详见|^详情', tds[id2])==None:
                                i += 1
                                # print('过滤：数量包含五个字符以上且不包含^详见|^详情等字符', tds[id2])
                                continue
                        if id2_2 != "":
                            if re.search('^\w{1,4}$', tds[id2_2]) and re.search('元', tds[id2_2])==None:
                                quantity_unit = tds[id2_2]
                        if id3 != "":
                            if re.search('[零壹贰叁肆伍陆柒捌玖拾佰仟萬億十百千万亿元角分]{3,}', tds[id3]):
                                unitPrice = tds[id3]
                            elif re.search('^[\d,.亿万元人民币欧美日金额：（）();；、，\n]+$|￥|¥|RMB|USD|EUR|JPY|CNY|元$', tds[id3].strip()):
                                unitPrice = tds[id3]
                            elif len(re.sub('[金额万元（）():：零壹贰叁肆伍陆柒捌玖拾佰仟萬億圆十百千万亿元角分￥整\d,.]', '', tds[id3])) > 5 and re.search('^详见|^详情', tds[id3])==None:
                                i += 1
                                # print('过滤：产品单价包含金额外的字符数大于5个',  tds[id3])
                                continue
                            else:
                                unitPrice = tds[id3]
                        if id4 != "":
                            if re.search('\w', tds[id4]):
                                brand = tds[id4]
                                if re.match('^详见|^详情', brand.strip()):
                                    brand = ""
                            else:
                                brand = ""
                        if id5 != "":
                            if re.search('\w', tds[id5]):
                                specs = tds[id5][:500] # 限制最多500字
                                if re.match('^详见|^详情', specs.strip()):
                                    specs = ""
                            else:
                                specs = ""
                        if id6 != "":
                            if re.search('\w', tds[id6]):
                                demand = tds[id6]
                            else:
                                demand = ""
                        if id7 != "":
                            if re.search('\d+|[零壹贰叁肆伍陆柒捌玖拾佰仟萬億十百千万亿元角分]{3,}', tds[id7]):
                                budget = tds[id7]
                        if id8 != "":
                            if re.search('\w', tds[id8]):
                                order_time = tds[id8].strip()
                                order_begin, order_end = self.fix_time(order_time, html, page_time)
                        if id9 != "":
                            if re.search('[零壹贰叁肆伍陆柒捌玖拾佰仟萬億十百千万亿元角分]{3,}', tds[id9]):
                                total_price = tds[id9]
                            elif re.search('^[\d,.亿万元人民币欧美日金额：（）();；、，\n]+$|￥|¥|RMB|USD|EUR|JPY|CNY|元$', tds[id9].strip()):
                                total_price = tds[id9]
                            elif len(re.sub('[金额万元（）():：零壹贰叁肆伍陆柒捌玖拾佰仟萬億圆十百千万亿元角分￥整\d,.]', '', tds[id9])) > 5 and re.search('^详见|^详情', tds[id9])==None:
                                i += 1
                                # print('过滤：产品总价包含金额外的字符数大于5个', tds[id9])
                                continue
                        if id10 != "":
                            parameter = tds[id10][:500]
                            if re.match('^详见|^详情', parameter.strip()):
                                parameter = ""
                        if id11 != "":
                            tenderee = re.sub("\s","",tds[id11])
                            if len(tenderee) > 30:
                                tenderee = ""
                        if id12 != "":
                            notes = tds[id12].strip()
                        if id13 != "":
                            issue_date = self.fix_time(tds[id13].strip(), '', '')[0]
                        if id14 != "":
                            pinmu_no = tds[id14].strip()
                        if id15 != "":
                            pinmu_name = tds[id15].strip()
                        # print('数量：{0}, 单价：{1}, 品牌：{2}， 规格：{3}，总价：{4}'.format(quantity ,unitPrice, brand, specs, total_price))
                        if quantity != "" or unitPrice != "" or brand != "" or specs != "" or total_price or '单价' in header_dic or '总价' in header_dic:
                            if id1!="" and id2 != "" and id3 != "" and len(re.split('[;；、，\n]+', tds[id2])) > 1 and len(re.split('[;；、，\n]+', tds[id1])) == len(re.split('[;；、，\n]+', tds[id2])): # 处理一个空格包含多个产品，逗号或空格分割情况 例子 292846806 292650743
                                products = re.split('[;；、，\n]+', tds[id1])
                                quantitys = re.split('[;；、，\n]+', tds[id2])
                                unitPrices = re.split('[;；、，\n]+', tds[id3])
                                total_prices = re.split('[;；、，\n]+', total_price)
                                brands = re.split('[;；、，\n]+', brand) if re.search('等$', brand)==None else [brand]
                                specses = re.split('[;；、，\n]+', specs) if re.search('等$', specs)==None else [specs]
                                parameters = re.split('[;；、，\n]+', parameter) if re.search('等$', parameter)==None else [parameter]
                                unitPrices = [""]*len(products) if len(unitPrices)==1 else unitPrices
                                total_prices = [""]*len(products) if len(total_prices)==1 else total_prices
                                brands = brands*len(products) if len(brands)==1 else brands
                                specses = specses*len(products) if len(specses)==1 else specses

                                brands = [brand]*len(products) if len(brands) < len(products) else brands
                                specses = [specs] * len(products) if len(specses) < len(products) else specses

                                parameters = parameters*len(products) if len(parameters)==1 else parameters
                                # print('产品拆分：', len(products),len(quantitys) , len(unitPrices),len(brands),len(specses))
                                if len(products) == len(quantitys) == len(unitPrices) == len(brands) == len(specses):
                                    for product, quantity, unitPrice, brand, specs, total_price, parameter in zip(products,quantitys,unitPrices, brands, specses, total_prices, parameters):
                                        if product.strip() == '': # 20241219修复 572876124 最后一个符号分割产品所有要素为空问题
                                            continue
                                        if quantity != "":
                                            quantity, quantity_unit_ = self.fix_quantity(quantity, header_quan_unit)
                                            quantity_unit = quantity_unit_ if quantity_unit_ != "" else quantity_unit
                                        if unitPrice != "":
                                            unitPrice, _money_unit = money_process(unitPrice, header_list[3])
                                            unitPrice = str(unitPrice) if unitPrice != 0 and unitPrice<100000000 else ""
                                        if budget != "":
                                            budget, _money_unit = money_process(budget, header_list2[2])
                                            budget = str(budget) if budget != 0 and budget<50000000000 else ''
                                        if total_price != "":
                                            total_price, _money_unit = money_process(total_price, header_list[6])
                                            total_price_list.append(total_price)
                                            total_price = str(total_price) if total_price != 0 and total_price<50000000000 else ""
                                        link = {'product': product, 'quantity': quantity,
                                                'quantity_unit': quantity_unit, 'unitPrice': unitPrice,
                                                'brand': brand[:50], 'specs': specs, 'total_price': total_price, 'parameter': parameter}
                                        # if link not in product_link:
                                        #     product_link.append(link)
                                        #     mat = re.match('([0-9.,]+)[(（]?\w{,3}[)）]?$', link['quantity'])
                                        #     if link['unitPrice'] != "" and mat:
                                        #         try:
                                        #             total_product_money += float(link['unitPrice']) * float(
                                        #                 mat.group(1).replace(',', '')) if float(
                                        #                 mat.group(1).replace(',', '')) < 50000 else 0
                                        #         except:
                                        #             log('产品属性单价数量相乘出错, 单价： %s, 数量： %s' % (
                                        #             link['unitPrice'], link['quantity']))

                                        if (product, specs, unitPrice, quantity) not in product_set:
                                            product_set.add((product, specs, unitPrice, quantity))
                                            product_link.append(link)
                                            if link['unitPrice'] != "" and link['quantity'] != '':
                                                try:
                                                    total_product_money += float(link['unitPrice']) * float(
                                                        link['quantity']) if float(link['quantity']) < 50000 else 0
                                                except:
                                                    log('产品属性单价数量相乘出错, 单价： %s, 数量： %s' % (
                                                    link['unitPrice'], link['quantity']))

                            elif len(product)>100:  # 产品名称长于100字
                                i += 1
                                # print('过滤： 产品名称长于100字',)
                                continue
                            else:
                                if quantity != "":
                                    quantity, quantity_unit_ = self.fix_quantity(quantity, header_quan_unit)
                                    quantity_unit = quantity_unit_ if quantity_unit_ != "" else quantity_unit
                                if unitPrice != "":
                                    unitPrice, _money_unit = money_process(unitPrice, header_list[3])
                                    unitPrice = str(unitPrice) if unitPrice != 0 and unitPrice<100000000 else ""
                                if budget != "":
                                    budget, _money_unit = money_process(budget, header_list2[2])
                                    budget = str(budget) if budget != 0 and budget<50000000000 else ''
                                if total_price != "":
                                    total_price, _money_unit = money_process(total_price, header_list[6])
                                    total_price_list.append(total_price)
                                    total_price = str(total_price) if total_price != 0 and total_price<50000000000 else ""
                                link = {'product': product, 'quantity': quantity, 'quantity_unit': quantity_unit, 'unitPrice': unitPrice,
                                                          'brand': brand[:50], 'specs':specs, 'total_price': total_price, 'parameter': parameter,
                                                            'pinmu_no': pinmu_no, 'pinmu_name': pinmu_name}

                                # if link not in product_link:
                                #     product_link.append(link)
                                #     mat = re.match('([0-9.,]+)[(（]?\w{,3}[)）]?$', link['quantity'])
                                #     if link['unitPrice'] != "" and mat:
                                #         try:
                                #             total_product_money += float(link['unitPrice'])*float(mat.group(1).replace(',', '')) if float(mat.group(1).replace(',', ''))<50000 else 0
                                #         except:
                                #             log('产品属性单价数量相乘出错, 单价： %s, 数量： %s'%(link['unitPrice'], link['quantity']))

                                # if (product, unitPrice, quantity) not in product_set:
                                #     product_set.add((product, unitPrice, quantity))
                                if (product, unitPrice,) not in product_set: # 2023/09/22 改为只判断产品/单价,只要两个一样就不作为新产品 避免多个表格重复表达有些没数量造成重复提取 353858683
                                    product_set.add((product, unitPrice))
                                    product_link.append(link)
                                    if link['unitPrice']:
                                        unit_price_list.append(link['unitPrice'])
                                    if link['unitPrice'] != "" and link['quantity'] != '':
                                        try:
                                            total_product_money += float(link['unitPrice'])*float(link['quantity']) if float(link['quantity'])<50000 else 0
                                            if float(link['unitPrice'])>10000 and float(link['quantity'])>100: # 修复 325105750 总价做单价 造成中标金额错误
                                                total_product_money = 0
                                        except:
                                            log('产品属性单价数量相乘出错, 单价： %s, 数量： %s'%(link['unitPrice'], link['quantity']))


                        if order_begin != "" and order_end != "":
                            order_begin_year = int(order_begin.split("-")[0])
                            order_end_year = int(order_end.split("-")[0])
                            # 限制附件错误识别时间
                            if order_begin_year >= 2050 or order_end_year >= 2050:
                                order_begin = order_end = ""
                        # print(budget,order_time)
                        if budget != "" and order_time != "":
                            link = {'project_name': product, 'product':[], 'demand': demand, 'budget': budget, 'order_begin':order_begin, 'order_end':order_end, 'tenderee':tenderee,'notes':notes,'issue_date':issue_date}
                            if link not in demand_link:
                                demand_link.append(link)
                    i += 1
                else:
                    i += 1
        if len(total_price_list)>1 and len(set(total_price_list))/len(total_price_list)<=0.5: # 2023/7/27 总价一半以上重复的为多行一个总价，需去掉
            # print('总价一半以上重复的为多行一个总价，需去掉', total_price_list)
            for link in product_link:  # 预防最后一列总价为所有产品总价,列补全后所有产品总价一样情况
                if 'total_price' in link:
                    link['total_price'] = ""
        if len(demand_link) > 2 and demand_link[0].get('budget', '') != '' and len(set([d.get('budget', '') for d in demand_link])) == 1: # 20250310 去掉多项目共用招标金额 例：598019007
            for d in demand_link:
                if 'budget' in d:
                    d['budget'] = ""
        if len(unit_price_list)>0 and len(unit_price_list)==len(product_link) and len(set(unit_price_list))/len(unit_price_list)<=0.5:  # 2023/7/18 如果单价重复率高不算总产品价避免错误
            # print('如果单价重复率高不算总产品价避免错误')
            total_product_money = 0
            # for link in product_link:
            #     if 'unitPrice' in link:
            #         link['unitPrice'] = ""

        if len(product_link)>0:
            product_link = [{k:v for k,v in d.items() if v!=''} for d in product_link]
            attr_dic = {'product_attrs':{'data':product_link, 'header':headers, 'header_col':header_col}}
        else:
            attr_dic = {'product_attrs': {'data': [], 'header': [], 'header_col': []}}
        if len(demand_link)>0:
            demand_link = [{k: v for k, v in d.items() if v != ''} for d in demand_link]
            demand_dic = {'demand_info':{'data':demand_link, 'header':headers_demand, 'header_col':header_col}}
        else:
            demand_dic = {'demand_info':{'data':[], 'header':[], 'header_col':[]}}
        # print('表格产品属性提取：', attr_dic)
        return [attr_dic, demand_dic], total_product_money

    def predict_without_table(self,product_attrs,list_sentences,list_entitys,codeName,prem, html='', page_time=""):
        if len(prem[0]['prem'])==1:
            list_sentences[0].sort(key=lambda x:x.sentence_index)
            list_sentence = list_sentences[0]
            list_entity = list_entitys[0]
            _data = product_attrs[1]['demand_info']['data']
            re_bidding_time = re.compile("(采购|采购实施|预计(招标|采购|发标|发包))(时间|月份|日期)[:：，].{0,2}$")
            order_times = []
            for entity in list_entity:
                if entity.entity_type=='time':
                    sentence = list_sentence[entity.sentence_index]
                    s = spanWindow(tokens=sentence.tokens, begin_index=entity.begin_index,
                                   end_index=entity.end_index,size=20)
                    entity_left = "".join(s[0])
                    if re.search(re_bidding_time,entity_left):
                        time_text = entity.entity_text.strip()
                        standard_time = re.compile("((?P<year>\d{4}|\d{2})\s*[-\/年\.]\s*(?P<month>\d{1,2})\s*[-\/月\.]\s*((?P<day>\d{1,2})日?)?)")
                        time_match = re.search(standard_time,time_text)
                        # print(time_text, time_match)
                        if time_match:
                            time_text = time_match.group()
                        order_times.append(time_text)
            # print(order_times)
            order_times = [tuple(self.fix_time(order_time, html, page_time)) for order_time in order_times]
            order_times = [order_time for order_time in order_times if order_time[0]!=""]
            if len(set(order_times))==1:
                order_begin,order_end = order_times[0]
                project_name = codeName[0]['name']
                pack_info = [pack for pack in prem[0]['prem'].values()]
                budget = pack_info[0].get('tendereeMoney',0)
                product = prem[0]['product']
                link = {'project_name': project_name, 'product': product, 'demand': project_name, 'budget': budget,
                        'order_begin': order_begin, 'order_end': order_end}
                _data.append(link)
            product_attrs[1]['demand_info']['data'] = _data
        # print('predict_without_table: ', product_attrs)
        return product_attrs

    def predict_by_text(self,product_attrs,html,list_outlines,product_list,page_time=""):
        product_entity_list = list(set(product_list))
        list_outline = list_outlines[0]
        get_product_attrs = False
        for _outline in list_outline:
            if re.search("信息|情况|清单|概况",_outline.outline_summary):
                outline_text = _outline.outline_text
                outline_text = outline_text.replace(_outline.outline_summary,"")
                key_value_list = [_split for _split in re.split("[，。；]",outline_text) if re.search("[：:]",_split)]
                if not key_value_list:
                    continue
                head_list = []
                head_value_list = []
                for key_value in key_value_list:
                    key_value = re.sub("^[一二三四五六七八九十]{1,3}[、.]|^[\d]{1,2}[、.]\d{,2}|^[\(（]?[一二三四五六七八九十]{1,3}[\)）][、]?","",key_value)
                    temp = re.split("[:：]",key_value)
                    if len(temp)>2:
                        if temp[0] in head_list:
                            key = temp[0]
                            value = "".join(temp[1:])
                        else:
                            key = temp[-2]
                            value = temp[-1]
                    else:
                        key = temp[0]
                        value = temp[1]
                    key = re.sub("^[一二三四五六七八九十]{1,3}[、.]|^[\d]{1,2}[、.]\d{,2}|^[\(（]?[一二三四五六七八九十]{1,3}[\)）][、]?","",key)

                    head_list.append(key)
                    head_value_list.append(value)
                head_set = set(head_list)
                # print('head_set',head_set)
                if len(head_set & self.header_set) > len(head_set)*0.2:
                    loop_list = []
                    begin_list = [0]
                    for index,head in enumerate(head_list):
                        if head not in loop_list:
                            if re.search('第[一二三四五六七八九十](包|标段)', head) and re.search('第[一二三四五六七八九十](包|标段)', '|'.join(loop_list)):
                                begin_list.append(index)
                                loop_list = []
                                loop_list.append(head)
                            else:
                                loop_list.append(head)
                        else:
                            begin_list.append(index)
                            loop_list = []
                            loop_list.append(head)
                    headers = []
                    headers_demand = []
                    header_col = []
                    product_link = []
                    demand_link = []
                    product_set = set()
                    for idx in range(len(begin_list)):
                        if idx==len(begin_list)-1:
                            deal_list = head_value_list[begin_list[idx]:]
                            tmp_head_list = head_list[begin_list[idx]:]
                        else:
                            deal_list = head_value_list[begin_list[idx]:begin_list[idx+1]]
                            tmp_head_list = head_list[begin_list[idx]:begin_list[idx+1]]
                        product = ""  # 产品
                        quantity = ""  # 数量
                        quantity_unit = "" # 单位
                        unitPrice = ""  # 单价
                        brand = ""  # 品牌
                        specs = ""  # 规格
                        demand = ""  # 采购需求
                        budget = ""  # 预算金额
                        order_time = ""  # 采购时间
                        order_begin = ""
                        order_end = ""
                        total_price = ""  # 总金额
                        parameter = ""  # 参数

                        header_dic, found_header, header_list, header_list2 = self.find_header(tmp_head_list, self.p0, self.p1,self.p2)
                        if found_header:
                            headers.append('_'.join(header_list))
                            headers_demand.append('_'.join(header_list2))
                            header_col.append('_'.join(tmp_head_list))
                            # print('header_dic: ',header_dic)
                            id0 = header_dic.get('品目', "")
                            id1 = header_dic.get('名称', "")
                            id2 = header_dic.get('数量', "")
                            id2_2 = header_dic.get('单位', "")
                            id3 = header_dic.get('单价', "")
                            id4 = header_dic.get('品牌', "")
                            id5 = header_dic.get('规格', "")

                            id6 = header_dic.get('需求', "")
                            id7 = header_dic.get('预算', "")
                            id8 = header_dic.get('时间', "")

                            id9 = header_dic.get("总价", "")
                            id10 = header_dic.get('参数', "")
                            if id1!='' and re.search('[a-zA-Z\u4e00-\u9fa5]', deal_list[id1]) and deal_list[id1] not in self.header_set and \
                                    re.search('备注|汇总|合计|总价|价格|金额|公司|附件|详见|无$|xxx', deal_list[id1]) == None:
                                product = deal_list[id1]
                            if id0 != "" and re.search('[a-zA-Z\u4e00-\u9fa5]', deal_list[id0]) and deal_list[id0] not in self.header_set and \
                                    re.search('备注|汇总|合计|总价|价格|金额|公司|附件|详见|无$|xxx', deal_list[id0]) == None:
                                category = deal_list[id0]
                                product = "%s_%s" % (category, product) if product != "" else category

                            if product == "":
                                # print(deal_list[id4],deal_list[id5],tmp_head_list,deal_list)
                                if (id4 != "" and deal_list[id4] != "") or (id5 != "" and deal_list[id5] != ""):
                                    for head,value in zip(tmp_head_list,deal_list):
                                        if value and value in product_entity_list:
                                            product = value
                                            break

                            if product != "":
                                if id2 != "":
                                    if re.search('\d+|[壹贰叁肆伍陆柒捌玖拾一二三四五六七八九十]', deal_list[id2]):
                                        quantity = deal_list[id2]
                                        quantity = re.sub('[()（）,，约]', '', quantity)
                                        quantity = re.sub('[一壹]', '1', quantity)
                                        ser = re.search('^(\d+(?:\.\d+)?)([㎡\w/]{,5})', quantity)
                                        if ser:
                                            quantity = str(ser.group(1))
                                            quantity_unit = ser.group(2)
                                            if float(quantity)>=10000*10000:
                                                quantity = ""
                                                quantity_unit = ""
                                        else:
                                            quantity = ""
                                            quantity_unit = ""
                                if id2_2 != "":
                                    if re.search('^\w{1,4}$', deal_list[id2_2]):
                                        quantity_unit = deal_list[id2_2]
                                    else:
                                        quantity_unit = ""
                                # if id2 != "":
                                #     if re.search('\d+|[壹贰叁肆伍陆柒捌玖拾一二三四五六七八九十]', deal_list[id2]):
                                #         quantity = deal_list[id2]
                                #     else:
                                #         quantity = ""
                                if id3 != "":
                                    if re.search('\d+|[零壹贰叁肆伍陆柒捌玖拾佰仟萬億十百千万亿元角分]{3,}', deal_list[id3]):
                                        _unitPrice = deal_list[id3]
                                        re_price = re.findall("[零壹贰叁肆伍陆柒捌玖拾佰仟萬億圆十百千万亿元角分]{3,}|\d[\d,]*(?:\.\d+)?万?",_unitPrice)
                                        if re_price:
                                            # _unitPrice = re_price[0]
                                            # if '万元' in header_list[3] and '万' not in _unitPrice:
                                            #     _unitPrice += '万元'
                                            # unitPrice = getUnifyMoney(_unitPrice)
                                            # if unitPrice>=10000*10000:
                                            #     unitPrice = ""
                                            # unitPrice = str(unitPrice)
                                            _unitPrice, _money_unit = money_process(_unitPrice, header_list[3])
                                            if _unitPrice >= 10000 * 10000:
                                                _unitPrice = ""
                                            unitPrice = str(_unitPrice)
                                            if '.' in unitPrice:
                                                unitPrice = unitPrice.rstrip('0').rstrip('.')
                                if id4 != "":
                                    if re.search('\w', deal_list[id4]):
                                        brand = deal_list[id4]
                                        if re.match('^详见|^详情', brand.strip()):
                                            brand = ""
                                    else:
                                        brand = ""
                                if id5 != "":
                                    if re.search('\w', deal_list[id5]):
                                        specs = deal_list[id5][:500]
                                        if re.match('^详见|^详情', specs.strip()):
                                            brand = ""
                                    else:
                                        specs = ""
                                if id6 != "":
                                    if re.search('\w', deal_list[id6]):
                                        demand = deal_list[id6]
                                    else:
                                        demand = ""
                                if id7 != "":
                                    if re.search('\d+|[零壹贰叁肆伍陆柒捌玖拾佰仟萬億十百千万亿元角分]{3,}', deal_list[id7]):
                                        _budget = deal_list[id7]
                                        re_price = re.findall("[零壹贰叁肆伍陆柒捌玖拾佰仟萬億圆十百千万亿元角分]{3,}|\d[\d,]*(?:\.\d+)?万?",_budget)
                                        if re_price:
                                            # _budget = re_price[0]
                                            # if '万元' in header_list2[2] and '万' not in _budget:
                                            #     _budget += '万元'
                                            # budget = str(getUnifyMoney(_budget))
                                            _budget, _money_unit = money_process(_budget, header_list2[2])
                                            budget = str(_budget)
                                            if '.' in budget:
                                                budget = budget.rstrip('0').rstrip('.')
                                            if float(budget)>= 100000*10000:
                                                budget = ""
                                if id8 != "":
                                    if re.search('\w', deal_list[id8]) and re.search("(采购|采购实施|预计(招标|采购|发标|发包))(时间|月份|日期)",header_list2[3]):
                                        order_time = deal_list[id8].strip()
                                        order_begin, order_end = self.fix_time(order_time, html, page_time)
                                if id9 != "":
                                    if re.search('[零壹贰叁肆伍陆柒捌玖拾佰仟萬億十百千万亿元角分]{3,}', deal_list[id9]):
                                        total_price = deal_list[id9]
                                    elif re.search('^[\d,.亿万元人民币欧美日金额：（）();；、，\n]+$', deal_list[id9].strip()):
                                        total_price = deal_list[id9]
                                if id10 != "":
                                    parameter = deal_list[id10][:500]
                                    if re.match('^详见|^详情', parameter.strip()):
                                        parameter = ""
                                if quantity != "" or unitPrice != "" or brand != "" or specs != "" or total_price:
                                    if id1 != "" and id2 != "" and id3 != "" and len(re.split('[;；、，\n]', deal_list[id2])) > 1 and len(
                                            re.split('[;；、，\n]', deal_list[id1])) == len(re.split('[;；、，\n]', deal_list[id2])):  # 处理一个空格包含多个产品，逗号或空格分割情况 例子 292846806 292650743
                                        products = re.split('[;；、，\n]', deal_list[id1])
                                        quantitys = re.split('[;；、，\n]', deal_list[id2])
                                        unitPrices = re.split('[;；、，\n]', deal_list[id3])
                                        total_prices = re.split('[;；、，\n]', total_price)
                                        brands = re.split('[;；、，\n]', brand) if re.search('等$', brand) == None else [brand]
                                        specses = re.split('[;；、，\n]', specs) if re.search('等$', specs) == None else [specs]
                                        parameters = re.split('[;；、，\n]', parameter) if re.search('等$', parameter) == None else [parameter]
                                        unitPrices = [""] * len(products) if len(unitPrices) == 1 else unitPrices
                                        total_prices = [""] * len(products) if len(total_prices) == 1 else total_prices
                                        brands = brands * len(products) if len(brands) == 1 else brands
                                        specses = specses * len(products) if len(specses) == 1 else specses
                                        parameters = parameters * len(products) if len(parameters) == 1 else parameters
                                        if len(products) == len(quantitys) == len(unitPrices) == len(brands) == len(
                                                specses):
                                            for product, quantity, unitPrice, brand, specs, total_price, parameter in zip(
                                                    products, quantitys, unitPrices, brands, specses, total_prices,
                                                    parameters):
                                                if quantity != "":
                                                    quantity, quantity_unit_ = self.fix_quantity(quantity,quantity_unit)
                                                    quantity_unit = quantity_unit_ if quantity_unit_ != "" else quantity_unit
                                                if unitPrice != "":
                                                    unitPrice, _money_unit = money_process(unitPrice, header_list[3])
                                                    unitPrice = str(unitPrice) if unitPrice != 0 and unitPrice<100000000 else ""
                                                if budget != "":
                                                    budget, _money_unit = money_process(budget, header_list2[2])
                                                    budget = str(budget) if budget != 0 and budget<50000000000 else ''
                                                if total_price != "":
                                                    total_price, _money_unit = money_process(total_price,
                                                                                             header_list[6])
                                                    total_price = str(total_price) if total_price != 0 and total_price<50000000000 else ""
                                                link = {'product': product, 'quantity': quantity,
                                                        'quantity_unit': quantity_unit, 'unitPrice': unitPrice,
                                                        'brand': brand[:50], 'specs': specs, 'total_price': total_price,
                                                        'parameter': parameter}

                                                if (product, specs, unitPrice, quantity) not in product_set:
                                                    product_set.add((product, specs, unitPrice, quantity))
                                                    product_link.append(link)
                                                    # if link['unitPrice'] != "" and link['quantity'] != '':
                                                    #     try:
                                                    #         total_product_money += float(link['unitPrice']) * float(
                                                    #             link['quantity']) if float(
                                                    #             link['quantity']) < 50000 else 0
                                                    #     except:
                                                    #         log('产品属性单价数量相乘出错, 单价： %s, 数量： %s' % (
                                                    #             link['unitPrice'], link['quantity']))

                                    elif len(unitPrice) > 15 or len(product) > 100:  # 单价大于15位数或 产品名称长于100字
                                        # i += 1
                                        continue
                                    else:
                                        if quantity != "":
                                            quantity, quantity_unit_ = self.fix_quantity(quantity, quantity_unit)
                                            quantity_unit = quantity_unit_ if quantity_unit_ != "" else quantity_unit
                                        if unitPrice != "":
                                            unitPrice, _money_unit = money_process(unitPrice, header_list[3])
                                            unitPrice = str(unitPrice) if unitPrice != 0 and unitPrice<100000000 else ""
                                        if budget != "":
                                            budget, _money_unit = money_process(budget, header_list2[2])
                                            budget = str(budget) if budget != 0 and budget<50000000000 else ''
                                        if total_price != "":
                                            total_price, _money_unit = money_process(total_price, header_list[6])
                                            total_price = str(total_price) if total_price != 0 and total_price<50000000000 else ""
                                        link = {'product': product, 'quantity': quantity,
                                                'quantity_unit': quantity_unit, 'unitPrice': unitPrice,
                                                'brand': brand[:50], 'specs': specs, 'total_price': total_price,
                                                'parameter': parameter}

                                        if (product, specs, unitPrice, quantity) not in product_set:
                                            product_set.add((product, specs, unitPrice, quantity))
                                            product_link.append(link)
                                            # if link['unitPrice'] != "" and link['quantity'] != '':
                                            #     try:
                                            #         total_product_money += float(link['unitPrice']) * float(
                                            #             link['quantity']) if float(link['quantity']) < 50000 else 0
                                            #     except:
                                            #         log('产品属性单价数量相乘出错, 单价： %s, 数量： %s' % (
                                            #         link['unitPrice'], link['quantity']))

                                if order_begin != "" and order_end != "":
                                    order_begin_year = int(order_begin.split("-")[0])
                                    order_end_year = int(order_end.split("-")[0])
                                    # 限制附件错误识别时间
                                    if order_begin_year >= 2050 or order_begin_year < 2000 or order_end_year >= 2050 or order_end_year < 2000:
                                        order_begin = order_end = ""
                                # print(budget, order_time)
                                if budget != "" and order_time != "":
                                    link = {'project_name': product, 'product': [], 'demand': demand, 'budget': budget,
                                            'order_begin': order_begin, 'order_end': order_end}
                                    if link not in demand_link:
                                        demand_link.append(link)

                    if len(product_link) > 0:
                        attr_dic = {'product_attrs': {'data': product_link, 'header': list(set(headers)), 'header_col': list(set(header_col))}}
                        get_product_attrs = True
                    else:
                        attr_dic = {'product_attrs': {'data': [], 'header': [], 'header_col': []}}
                    if len(demand_link) > 0:
                        demand_dic = {'demand_info': {'data': demand_link, 'header': headers_demand, 'header_col': header_col}}
                    else:
                        demand_dic = {'demand_info': {'data': [], 'header': [], 'header_col': []}}
                    product_attrs[0] = attr_dic
                    if len(product_attrs[1]['demand_info']['data']) == 0:
                        product_attrs[1] = demand_dic
                    if get_product_attrs:
                        break
        # print('predict_by_text: ', product_attrs)
        return product_attrs


    def add_product_attrs(self,channel_dic, product_attrs,  list_sentences,list_entitys,list_outlines,product_list,codeName,prem,text,page_time):
        # print(1,product_attrs[1]['demand_info']['data'])
        if channel_dic['docchannel']['docchannel']=="采购意向" and len(product_attrs[1]['demand_info']['data']) == 0:
            product_attrs = self.predict_without_table(product_attrs, list_sentences,list_entitys,codeName,prem,text,page_time)
        # print(2,product_attrs[1]['demand_info']['data'])
        if len(product_attrs[0]['product_attrs']['data']) == 0:
            product_attrs = self.predict_by_text(product_attrs,text,list_outlines,product_list,page_time)
        # print(3,product_attrs[1]['demand_info']['data'])
        if len(product_attrs[1]['demand_info']['data'])>0:
            for d in product_attrs[1]['demand_info']['data']:
                for product in set(prem[0]['product']):
                    if product in d['project_name'] and product not in d['product']:
                        d['product'].append(product)  #把产品在项目名称中的添加进需求要素中


# docchannel类型提取
class DocChannel():
  def __init__(self, life_model='/channel_savedmodel/channel.pb', type_model='/channel_savedmodel/doctype.pb',config=None):
    self.lift_sess, self.lift_title, self.lift_content, self.lift_prob, self.lift_softmax,\
    self.mask, self.mask_title = self.load_life(life_model,config)
    self.type_sess, self.type_title, self.type_content, self.type_prob, self.type_softmax,\
    self.type_mask, self.type_mask_title = self.load_type(type_model)
    self.sequen_len = 200  # 150 200
    self.title_len = 30
    self.sentence_num = 10
    self.kws = '供货商|候选人|供应商|入选人|项目|选定|预告|中标|成交|补遗|延期|报名|暂缓|结果|意向|出租|补充|合同|限价|比选|指定|工程|废标|取消|中止|流标|资质|资格|地块|招标|采购|货物|租赁|计划|宗地|需求|来源|土地|澄清|失败|探矿|预审|变更|变卖|遴选|撤销|意见|恢复|采矿|更正|终止|废置|报建|流拍|供地|登记|挂牌|答疑|中选|受让|拍卖|竞拍|审查|入围|更改|条件|洽谈|乙方|后审|控制|暂停|用地|询价|预'

    lb_type = ['采招数据', '土地矿产', '拍卖出让', '产权交易', '新闻资讯']
    lb_life = ['采购意向', '招标预告', '招标公告', '招标答疑', '公告变更', '资审结果', '中标信息', '合同公告', '废标公告']
    self.id2type = {k: v for k, v in enumerate(lb_type)}
    self.id2life = {k: v for k, v in enumerate(lb_life)}

    self.load_pattern()

  def load_pattern(self):
      self.type_dic = {
          '土地矿产': '供地结果|(土地|用地|宗地|地块|海域|矿)的?(基本信息|基本情况|概况|信息|详情|来源|用途|性质|编号|位置|坐落|使用年限|出让年限)|(土地|山地|农田)(经营权)?(出让|出租|招租|租赁|承包|流转)|流转土地',
          '拍卖出让': '(拍卖|变卖|流拍|竞拍|竞买)的?(公告|活动|信息|结果|成交|主体|标的|资产|财产|方式|类型|流程|程序|规则|价格|保证金|时间)|(公开|进行|密封)(拍卖|变卖|竞拍)|第[一二三四五六七八九\d]次拍卖|(资产|司法|网络)拍卖|交易方式.{,2}拍卖|拍卖会|(拍卖.?方式|起拍价)[:：]|竞买人资格|竞买人资质要求',
          '产权交易': '(产权|资产|权证)的?(类型|类别|用途|性质|状态|信息|名称|编号|(基本)?情况)|(经营权|承包权|使用权|租赁权|股权|债权|排污权|化学需氧量|储备量)(挂牌|转让|出让)|竞价销售|销售结果|房屋所有权房产|免租期限|交易期限|(受让|转让|承租|出租)(人|方)|(店面|店铺|商铺|铺位?|门面|门市|食堂|饭堂|校舍|车位|停车场|厂?房|仓?库|馆|资产|物业|房产|房屋|场地|农田|鱼?塘)\w{,4}(处置|招租|出租|续租|租赁|转让)|(出租|转让|产权|资产)(项目|中标|成交|流标|废标)|出租(用途|类型)|转让底价|租赁(标的物|情况)|看[样货](时间|地[点址]|方式|仓库|验货)|最小加价|加价[幅梯]度|交易模式[：:\s]*延时竞价销售|挂牌(开始|结束)时间|挂牌价格?',
          '采招数据': '(采购|招标)(条件|范围|文件|内容)|(申请人|投标人|供应商|报价人|参选人)的?资格要求；|采购需求清单|最低价排序|竞争性采购方式|采购进行公开竞价|竞价模式[:：\s]*一次报价|预算金额|代理银行资格选定'  # |变更|答疑|澄清|中标|成交|合同|废标|流标 |(采购|招标|代理)(人|机构|单位)|
      }

      self.title_type_dic = { # ‘**2’ 为类别强相关关键词，不会被其他规则修正
          '土地矿产': '(土地|用地|宗地|荒地|山地|海域|矿)(出让|出租|招租|租赁|承包|流转|使用权|经营权|征收|划拨|中标|成交)|供地结果|矿业权|探矿权|采矿权|(土地|用地|宗地|地块)(使用权)?(终止|中止|网上)?(挂牌|出让|拍卖|招拍|划拨)|征收土地|流转土地',
          '土地矿产2': '(土地|用地|宗地|荒地|山地|海域|矿)(出让|出租|招租|租赁|承包|流转|使用权|经营权|征收|划拨|中标|成交)|供地结果|矿业权|探矿权|采矿权|(土地|用地|宗地|地块)(使用权)?(终止|中止|网上)?(挂牌|出让|拍卖|招拍|划拨)|征收土地|流转土地',
          '拍卖出让': '(拍卖|变卖|拍（变）卖|流拍|竞拍|竞买)[\)\]）】]?的?(公告|公示|预告|告知书)|拍卖|变卖|流拍|竞拍|第[一二三四五六七八九\d]次拍卖|拍卖会$',
          '拍卖出让2': '(拍卖|变卖|拍（变）卖|流拍|竞拍|竞买)[\)\]）】]?的?(公告|公示|预告|告知书)|拍卖|变卖|流拍|第[一二三四五六七八九\d]次拍卖|拍卖会$',
          '产权交易': '经营权|承包权|使用权|租赁权|股权|债权|排污权|化学需氧量|储备量|竞价销售|销售结果|出租|招租|拍租|竞租|续租|挂牌|出让|废[旧弃]?(物资|设备|资源|金属|钢筋|料)处[置理]',
          '产权交易2': '使用权|租赁权|股权|债权|排污权|竞价销售|销售结果|出租|招租|拍租|竞租|续租|挂牌|出让|废[旧弃]?(物资|设备|资源|金属|钢筋|料)处[置理]',
          # '采招数据': '(采购|招标|询价|议价|比价|比选|遴选|邀请|邀标|磋商|洽谈|约谈|谈判|征询|调研)的?(公告|公示|中标|成交|结果|$)|工程招标|定点服务|(设备|服务|\w{2})[直采]购|(建设|改造)项目|工程|拦标价|控制价|银行|资格选定|资金|公款|存款|存放|现金管理|招募|入围|入库',
          '采招数据': '(采购|招标|询价|议价|比价|比选|遴选|邀请|邀标|磋商|洽谈|约谈|谈判|征询|调研)的?(公告|公示|中标|成交|结果|$)|工程招标|定点服务|(设备|服务|\w{2})[直采]购|(建设|改造)项目|拦标价|控制价|资格选定|资格认定|资金|公款|存款|现金管理|招募|入库|遴选.{,25}(服务|事务所|机构)',
          # |竞价 采招/产权都有竞价方式 # 意向|需求|预公?告|报建|总承包|工程|施工|设计|勘察|代理|监理 |变更|答疑|澄清|中标|成交|合同|废标|流标
          '新闻资讯': '(考试|面试|笔试)成绩|成绩的?(公告|公示|公布)|公开招聘|招聘(公告|简章|启事|合同制)|疫情防控\s{,5}(通知|情况|提示)|行政审批结果'
      }
      self.life_dic = {
          '采购意向': '采购意向|招标意向|选取意向|意向公告|意向公示',
          '采购意向neg': '发布政府采购意向|采购意向公告已于',
          '招标预告': '(预计|计划)(招标|采购|发标|发包)(时间|日期)|采购(计划编号|需求方案|预告|预案)|(预|需求)公示|需求(方案|信息|论证|公告|公示)',
          '招标公告': '(采购|招标|竞选|报名)条件|报名(时间|流程|方法|要求|\w{,5}材料)[：\s]|[^\w]成交规则|参加竞价采购交易资格|(申请人|投标人|供应商|报价人|参选人)的?资格(要求|条件)|获取(采购|招标|询价|议价|竞价|比价|比选|遴选|邀请|邀标|磋商|洽谈|约谈|谈判|竞谈|应答)文件|(采购|招标|询价|议价|竞价|比价|比选|遴选|邀请|邀标|磋商|洽谈|约谈|谈判|竞谈|应答)文件的?(获取|领取)|评选方式：?\s*价格最低',
          '资审结果': '资审及业绩公示|资审结果及业绩|资格后审情况报告|资格(后审|预审|审查)结果(公告|公示)|(预审|审查)工作已经?结束|未通过原因', #|资格
          '招标答疑': '现澄清(为|如下)|答疑补遗|澄清内容如下|第[0-9一二三四五]次澄清|答疑澄清|(最高(投标)?限价|控制价|拦标价)公示',  # |异议的回复
          '公告变更': '第[\d一二]次变更|(更正|变更)(公告|公示|信息|内容|事项|原因|理由|日期|时间|如下)|原公告((主要)?(信息|内容)|发布时间)|(变更|更正)[前后]内容|现?在?(变更|更正|修改|更改)(内容)?为|(公告|如下|信息|内容|事项|结果|文件|发布|时间|日期)(更正|变更)',
          '公告变更neg': '履约变更内容',
          '候选人公示': '候选人公示|评标结果公示|中标候选人名单公示|现将中标候选人(进行公示|公[示布]如下)|(中标|中选)候选人(信息|情况)[：:\s]',
          '候选人公示neg': '中标候选人公示期|中标候选人公示前',
          '中标信息': '供地结果信息|采用单源直接采购的?情况说明|[特现]?将\w{,4}(成交|中标|中选|选定结果|选取结果|入围结果|竞价结果)\w{,4}(进行公示|公[示布]如下)|(询价|竞价|遴选)?(成交|中标|中选)(公告|公示)|(成交|中标|中选|选定|选取|入围|询价)结果(如下|公告|公示)|(中标|中选)(供应商|承包商|候选人|入围单位)如下|拟定供应商的情况|((中标|中选)(人|成交)|成交)\w{,3}(信息|情况)[：:\s]',
          '中标信息2': '\s(成交|中标|中选)(信息|日期|时间|总?金额|价格)[：:\s]|(成交|中标|中选)价格\s*[\d.,]+（?万?元|(采购|招标|成交|中标|中选|评标)结果|单一来源(采购|招标)?的?(中标|成交|结果)|项目已结束|中标公示 ', # |单一来源采购原因|拟采取单一来源方式采购|单一来源采购公示
          '中标信息3': '(中标|中选|成交|拟定|拟选用|最终选定的?|受让)(供应商|供货商|服务商|机构|企业|公司|单位|候选人|人)(信息[，：]?)?(名称)?[：:\s]|[、\s](第一名|(拟定|推荐|入围)?(供应商|供货商)|(中选|中标|供货)单位|中选人)[：:\s]|确定[\w（）]{6,25}为中标人', # |唯一
          '中标信息neg': '按项目控制价下浮\d%即为成交价|成交原则|不得确定为(中标|成交)|招标人按下列原则选择中标人|评选成交供应商：|拟邀请供应商|除单一来源采购项目外|单一来源除外|(各.{,5}|尊敬的)(供应商|供货商)[：\s]|竞拍起止时间：|询价结果[\s\n:：]*不公开|本项目已具备招标条件|现对该项目进行招标公告|发布\w{2}结果后\d天内送达|本次\w{2}结果不对外公示|供应商\s*资格要求|成交情况：\s*[流废]标|中标单位：本次招标拟?中标单位\d家|通知中标单位|影响(成交|中标)结果|确定为成交供应商|(成交|中标|中选)公[告示](发布|\w{,2})后|竞价成交后', # 503076535 按照服务方案的优劣 确定为成交供应商
      # |确定成交供应商[：，\s]
          '合同公告': '合同(公告|公示|信息|内容)|合同(编号|名称|主体|基本情况|完成(日期|时间))|(供应商乙方|乙方供应商)：|合同总?金额|履约信息',
          '废标公告': '(终止|中止|废标|流标|流采|失败|作废|异常|撤销)(结果)?(公告|公示|招标|采购|竞价)|(谈判结果为|结果类型)：?废标|((本|该)(项目|标段|合同|合同包|采购包|次)\w{,5})((失败|终止|流标|废标)|予以废标|(按|做|作)?(流标|废标|废置)处理)|(采购|招标|询价|议价|竞价|比价|比选|遴选|邀请|邀标|磋商|洽谈|约谈|谈判|竞谈|应答|项目)(终止|中止|废标|流标|失败|作废|异常|撤销)',
          '废标公告2': '(无效|中止|终止|废标|流标|失败|作废|异常|撤销)的?(原因|理由)|本项目因故取消|本(项目|次)(公开)?\w{2}失败|已终止\s*原因：|(人|人数|供应商|单位)(不足|未达\w{,3}数量)|已终止|不足[3三]家|无（废标）|成交情况：\s*[流废]标|现予以废置|报名未够三家',
          '废标公告neg': '超过此报价将作为[废流]标处理|否则按[废流]标处理|终止规则：|成交规则：|视为流标|竞价失败的一切其他情形|是否废标：否|若不足三家公司参与|供应商数量：?\s*报名供应商不足三家|有效报价不足三家，\s*系统自动废标|如遇项目流[标采]' # 503076535 供应商数量： 报名供应商不足三家。
      }
      self.title_life_dic = {
          '采购意向': '采购意向|招标意向|选取意向|意向公告|意向公示|意向公开',
          '招标预告': '预公?告|预公示|报建公告|(批前|标前)公示|(供应|招标)计划表?$|(论证|征求|征集)(供应商)?意见|意见征询|需求评审公告|需求(公告|公示|意见)',
          '公告变更': '第[\d一二]次变更|(变更|更正(事项)?|更改|延期|暂停)(招标|采购)?的?(公告|公示|通知)|变更$|更正$',
          '招标答疑': '质疑|澄清|答疑(文件)?|补遗书?|(最高(投标)?限价|控制价|拦标价)(公示|公告|$)',
          '废标公告': '(终止|中止|废标|废除|废置|流标|失败|作废|异常|撤销|撤回|取消成?交?|流拍|停止)(结果|竞价|项目)?的?(公告|公示|$)|(终止|中止)(采购|招标|询价|议价|竞价|比价|比选|遴选|邀请|邀标|磋商|洽谈|约谈|谈判|拍卖|招租|交易|出让)|关于废置',
          '合同公告': '(合同(成交|变更)?)(公告|公示|信息|公式|公开|签订)|合同备案|合同书|合同$', # |(履约|验收)(结果)?
          '候选人公示': '候选人(变更)?公示|评标(结果)?(公[告示]|报告)|评审结果', #中标前公示|中标预公示|
          '中标信息': '(中标|中选|中价|中租|成交）?|入选|确认)(候选人|人|供应商|记录|结果|变更|情况)?的?(公告|公示|结果)|未?入围(公示|公告)|(遴选|采购|招标|竞价|议价|比选|询比?价|评选|谈判|邀标|邀请|洽谈|约谈|评标|发包|磋商|交易|出让|抽取|抽签)\w{,2}结果|单一来源(采购|招标)?的?(中标|成交|结果)|中标通知书|中标$|项目中标|(项目|工程|服务|定点)的?结果公[告示]|超市直购订单', # |开标(记录|信息|情况)
          '资审结果': '((资格|资质)(审查|预审|后审|审核)|资审)结果(公告|公示)?|(资质|资格)(预审|后审)公示|资审及业绩公示',
          '招标公告': '(采购|招标|询价|议价|竞价|比价|比选|遴选|邀请|邀标|磋商|洽谈|约谈|谈判|拍卖|招租|交易|出让)的?(公告|公示|$)|公开(采购|招标|招租|拍卖|挂牌|出让)|(资审|预审|后审)公告',
          '开标记录': '开标记录|截标信息|评委名单公示|开标安排|开标数据表|开标信息|开标情况|开标一览表|开标结果|开标会|评审专家公示|开标日程',
          '验收合同': '(验收|履约)(公告|公示)|(验收|履约)(结果|报告|意见|单)(公告|公示)|预留项目执行情况'
      }

  def load_life(self,life_model,config):
    with tf.Graph().as_default() as graph:
      output_graph_def = graph.as_graph_def()
      with open(os.path.dirname(__file__)+life_model, 'rb') as f:
        output_graph_def.ParseFromString(f.read())
        tf.import_graph_def(output_graph_def, name='')
        # print("%d ops in the final graph" % len(output_graph_def.node))
        del output_graph_def
        sess = tf.Session(graph=graph,config=config)
        sess.run(tf.global_variables_initializer())
        inputs = sess.graph.get_tensor_by_name('inputs/inputs:0')
        prob = sess.graph.get_tensor_by_name('inputs/dropout:0')
        title = sess.graph.get_tensor_by_name('inputs/title:0')
        mask = sess.graph.get_tensor_by_name('inputs/mask:0')
        mask_title = sess.graph.get_tensor_by_name('inputs/mask_title:0')
        # logit = sess.graph.get_tensor_by_name('output/logit:0')
        softmax = sess.graph.get_tensor_by_name('output/softmax:0')
        return sess, title, inputs, prob, softmax, mask, mask_title

  def load_type(self,type_model):
    with tf.Graph().as_default() as graph:
      output_graph_def = graph.as_graph_def()
      with open(os.path.dirname(__file__)+type_model, 'rb') as f:
        output_graph_def.ParseFromString(f.read())
        tf.import_graph_def(output_graph_def, name='')
        # print("%d ops in the final graph" % len(output_graph_def.node))
        del output_graph_def
        sess = tf.Session(graph=graph)
        sess.run(tf.global_variables_initializer())
        inputs = sess.graph.get_tensor_by_name('inputs/inputs:0')
        prob = sess.graph.get_tensor_by_name('inputs/dropout:0')
        title = sess.graph.get_tensor_by_name('inputs/title:0')
        mask = sess.graph.get_tensor_by_name('inputs/mask:0')
        mask_title = sess.graph.get_tensor_by_name('inputs/mask_title:0')
        # logit = sess.graph.get_tensor_by_name('output/logit:0')
        softmax = sess.graph.get_tensor_by_name('output/softmax:0')
        return sess, title, inputs, prob, softmax, mask, mask_title

  def predict_process(self, docid='', doctitle='', dochtmlcon=''):
    # print('准备预处理')
    def get_kw_senten(s, span=10):
      doc_sens = []
      tmp = 0
      num = 0
      end_idx = 0
      for it in re.finditer(self.kws, s):  # '|'.join(keywordset)
        left = s[end_idx:it.end()].split()
        right = s[it.end():].split()
        tmp_seg = s[tmp:it.start()].split()
        if len(tmp_seg) > span or tmp == 0:
          doc_sens.append(' '.join(left[-span:] + right[:span]))
          end_idx = it.end() + 1 + len(' '.join(right[:span]))
          tmp = it.end()
          num += 1
          if num >= self.sentence_num:
            break
      if doc_sens == []:
        doc_sens.append(s)
      return doc_sens

    def word2id(wordlist, max_len=self.sequen_len):
      ids = [getIndexOfWords(w) for w in wordlist]
      ids = ids[:max_len] if len(ids) >= max_len else ids + [0] * (max_len - len(ids))
      assert len(ids) == max_len
      return ids

    cost_time = dict()
    datas = []
    datas_title = []
    try:
      segword_title = ' '.join(selffool.cut(doctitle)[0])
      segword_content = dochtmlcon
    except:
      segword_content = ''
      segword_title = ''
    if isinstance(segword_content, float):
      segword_content = ''
    if isinstance(segword_title, float):
      segword_title = ''
    segword_content = segword_content.replace(' 中 选 ', ' 中选 ').replace(' 中 标 ', ' 中标 ').replace(' 补 遗 ', ' 补遗 '). \
      replace(' 更 多', '').replace(' 更多', '').replace(' 中 号 ', ' 中标 ').replace(' 中 选人 ', ' 中选人 '). \
      replace(' 点击 下载 查看', '').replace(' 咨询 报价 请 点击', '').replace('终结', '终止')
    segword_title = re.sub('[^\s\u4e00-\u9fa5]', '', segword_title)
    segword_content = re.sub('[^\s\u4e00-\u9fa5]', '', segword_content)
    doc_word_list = segword_content.split()
    if len(doc_word_list) > self.sequen_len / 2:
      doc_sens = get_kw_senten(' '.join(doc_word_list[100:500]))
      doc_sens = ' '.join(doc_word_list[:100]) + '\n' + '\n'.join(doc_sens)
    else:
      doc_sens = ' '.join(doc_word_list[:self.sequen_len])
    # print('标题：',segword_title)
    # print('正文：',segword_content)
    datas.append(doc_sens.split())
    datas_title.append(segword_title.split())
    # print('完成预处理')
    return datas, datas_title

  def is_houxuan(self, title, content):
    '''
    通过标题和中文内容判断是否属于候选人公示类别
    :param title: 公告标题
    :param content: 公告正文文本内容
    :return: 1 是候选人公示 ；0 不是
    '''
    if re.search('候选人的?公示|评标结果|评审结果|中标公示', title):  # (中标|成交|中选|入围)
      if re.search('变更公告|更正公告|废标|终止|答疑|澄清', title):
        return 0
      return 1
    if re.search('候选人的?公示', content[:100]):
      if re.search('公示(期|活动)?已经?结束|公示期已满|中标结果公告|中标结果公示|变更公告|更正公告|废标|终止|答疑|澄清', content[:100]):
        return 0
      return 1
    else:
      return 0

  def predict(self, title='', list_sentence='', web_source_no='', original_docchannel=''):
    not_extract_dic = {
        104: '招标文件',
        106: '法律法规',
        107: '新闻资讯',
        108: '拟建项目',
        109: '展会推广',
        110: '企业名录',
        111: '企业资质',
        112: '全国工程人员',
        113: '业主采购'
    }
    if original_docchannel in not_extract_dic:
        return {'docchannel': {'docchannel':'', 'doctype':not_extract_dic[original_docchannel], "original_docchannel_id": str(original_docchannel)}}
    if web_source_no in ['02104-7']:
      return {'docchannel': {'docchannel':'', 'doctype':'采招数据'}}

    if isinstance(list_sentence, list):
      token_l = [it.tokens for it in list_sentence]
      tokens = [it for l in token_l for it in l]
      content = ' '.join(tokens[:500])

    title = re.sub('[^\u4e00-\u9fa5]', '', title)
    if len(title)>50:
        title = title[:20]+title[-30:]
    data_content, data_title = self.predict_process(docid='', doctitle=title[-50:], dochtmlcon=content) # 标题最多取50字
    text_len = len(data_content[0]) if len(data_content[0])<self.sequen_len else self.sequen_len
    title_len = len(data_title[0]) if len(data_title[0])<self.title_len else self.title_len
    result = {'docchannel': {'docchannel':'', 'doctype':'', "original_docchannel_id": str(original_docchannel)}}

    array_content = embedding(data_content, shape=(len(data_content), self.sequen_len, 128))
    array_title = embedding(data_title, shape=(len(data_title), self.title_len, 128))
    pred = self.type_sess.run(self.type_softmax,
                                    feed_dict={
                                              self.type_title: array_title,
                                              self.type_content: array_content,
                                              self.type_mask:[[0]*text_len+[1]*(self.sequen_len-text_len)],
                                              self.type_mask_title:[[0]*title_len+[1]*(self.title_len-title_len)],
                                              self.type_prob:1}
                            )
    id = np.argmax(pred, axis=1)[0]
    prob = pred[0][id]
    result['docchannel']['doctype'] = self.id2type[id]
    # print('公告类别：', self.id2type[id], '概率：',prob)
    # if id == 0:
    if result['docchannel']['doctype'] not in ['', '新闻资讯']:
      pred = self.lift_sess.run(self.lift_softmax,
                                      feed_dict={
                                                self.lift_title: array_title,
                                                self.lift_content: array_content,
                                                self.mask: [[0] * text_len + [1] * (self.sequen_len - text_len)],
                                                self.mask_title: [[0] * title_len + [1] * (self.title_len - title_len)],
                                                self.lift_prob:1}
                              )
      id = np.argmax(pred, axis=1)[0]
      prob = pred[0][id]
      result['docchannel']['docchannel'] = self.id2life[id]
      # print('生命周期：纯模型预测',self.id2life[id], '概率：',prob)
      # if id == 6:
      if result['docchannel']['docchannel'] == '中标信息':
        if self.is_houxuan(''.join([it for it in title if it.isalpha()]), ''.join([it for it in content if it.isalpha()])):
          result['docchannel']['docchannel'] = '候选人公示'
          # return '候选人公示', prob
          # return [{'docchannel': '候选人公示'}]

    return result
    #   return [{'docchannel':self.id2life[id]}]
    # else:
    #   # return self.id2type[id], prob
    #   return [{'docchannel':self.id2type[id]}]

  def predict_rule(self, title, content, channel_dic, prem_dic):
      '''2022/2/10加入规则去除某些数据源及内容过短且不包含类别关键词的公告不做预测'''
      hetong = '(合同|验收|履约)(公告|公示)|合同号?$'  # 合同标题正则
      zhongbiao_t = '(中标|中选|成交|入选|入围|结果|确认)(公告|公示|结果)|(遴选|采购|招标|竞价|议价|比选|询价|评选|谈判|邀标|邀请|洽谈|约谈|评标|发包|遴选)结果|开标(记录|信息|情况)|单一来源|直接(选取|选定)|中标通知书|中标$'
      zhongbiao_c = '(中标|中选|成交|拟选用|拟邀请|最终选定的?|拟定)(供应商|供货商|服务商|企业|公司|单位|(候选)?人)(名称)?[:：]|[，。：.](供应商|供货商|服务商)(名称)?：|指定的中介服务机构：|建设服务单位：'
      zhaobiao_t = '(遴选|采购|招标|竞价|议价|比选|询价|评选|谈判|邀标|邀请|洽谈|约谈)(公告|公示|$)'
      title_cn = re.sub('[^\u4e00-\u9fa5]', '', title)
      if len(re.sub('[^\u4e00-\u9fa5]', "", content))<50 and channel_dic['docchannel']['doctype'] != '新闻资讯':
          if re.search(hetong, title_cn) != None:
              channel_dic['docchannel']['docchannel'] = '合同公告'
          elif re.search(zhongbiao_t, title_cn):
              channel_dic['docchannel']['docchannel'] = '中标信息'
          elif re.search(zhaobiao_t, title_cn):
              channel_dic['docchannel']['docchannel'] = '招标公告'
          else:
              channel_dic['docchannel']['docchannel'] = ''
      elif channel_dic['docchannel'].get('docchannel', '') == '招标公告' and 'win_tenderer' in json.dumps(prem_dic,
                                                                                              ensure_ascii=False):
          if re.search(hetong, title_cn) != None:
              channel_dic['docchannel']['docchannel'] = '合同公告'
              log('正则把招标公告修改为合同公告')
          elif re.search(zhongbiao_t, title_cn) or re.search(zhongbiao_t, content[:200]) or re.search(zhongbiao_c,
                                                                                                      content):
              channel_dic['docchannel']['docchannel'] = '中标信息'
              log('正则把招标公告修改为中标信息')
      elif channel_dic['docchannel'].get('docchannel', '') == '中标信息' and 'win_tenderer' not in json.dumps(prem_dic,
                                                                                                    ensure_ascii=False):
          if re.search(hetong, title_cn):
              channel_dic['docchannel']['docchannel'] = '合同公告'
              log('正则把中标信息修改为合同公告')
          elif re.search(zhongbiao_t, title_cn) or re.search(zhongbiao_t, content[:200]) or re.search(zhongbiao_c,
                                                                                                      content):
              pass
          elif re.search(zhaobiao_t, title_cn):
              channel_dic['docchannel']['docchannel'] = '招标公告'
              log('正则把中标信息修改为招标公告')
          elif re.search('中标|成交|中选|入选|入围|结果|供应商|供货商|候选人', title_cn+content)==None:
              channel_dic['docchannel']['docchannel'] = ''
              log('正则把中标信息修改为空')
      return channel_dic

  def predict_merge(self, title, list_sentence, html, original_docchannel='', web_source_no=''):
      '''
      正则，模型混合预测，返回公告类型及生命周期
      :param title:  公告标题
      :param content: 预处理后的返回的句子实体列表 list_sentence
      :param html: 公告原文 html 内容
      :param bidway: 招标方式
      :return: {'docchannel': {'docchannel':'中标信息', 'doctype':'采招数据'}} 字典格式
      '''
      def cut_single_cn_space(text):
          new_text = ""
          for w in text.split():
              if len(w) == 1 or re.search('^[\u4e00-\u9fa5][:：]', w):
                  new_text += w
              else:
                  new_text += ' ' + w
          return new_text

      def html2text(html):
          ser = re.search('<div[^<>]*richTextFetch', html)
          # if ser and len(re.sub('[^\u4e00-\u9fa5]', '', html[:ser.start()]))>500:
          #     html = html[:ser.start()]+'##richTextFetch##'
          if ser:
              if len(re.sub('[^\u4e00-\u9fa5]', '', html[:ser.start()])) > 200:
                  html = html[:ser.start()] + '##richTextFetch##'
              else:
                  html = html[:ser.start() + 500]
          text = re.sub('<[^<]*?>', '', html).replace('&nbsp;', ' ')
          # text = re.sub('http[0-9a-zA-Z-.:/]+|[0-9a-zA-Z-./@]+', '', text)
          text = re.sub('\s+', ' ', text)
          # text = re.sub('[/|[()（）]', '', text)
          text = cut_single_cn_space(text)
          return text[:20000]

      def count_diffser(pattern, text):
          num = 0
          kw = []
          for p in pattern.split('；'):
              if re.search(p, text):
                  num += 1
                  kw.append(re.search(p, text).group(0))
          return num, '；'.join(kw)

      def is_single_source(bidway, title):
          if re.search('单一来源|单一性采购', title):
              return True
          elif bidway == '单一来源':
              return True
          else:
              return False

      def get_type(title, text):
          if re.search(self.title_type_dic['土地矿产'], title) or re.search(self.type_dic['土地矿产'],
                                                                   text):  # and re.search('(土地|用地|宗地|地块)(经营权)?(流转|承包|出租|招租|租赁|确权)', text)==None
              if re.search(self.title_type_dic['采招数据'], text.strip().split(' ')[0] + title) \
                  and not re.search(self.title_type_dic['土地矿产2'], title):
                  return '采招数据', re.search(self.title_type_dic['采招数据'], text.strip().split(' ')[0] + title).group(0)
              return '土地矿产', (re.search(self.title_type_dic['土地矿产'], title) or re.search(self.type_dic['土地矿产'], text)).group(0)

          elif (re.search(self.title_type_dic['拍卖出让'], title) or re.search(self.type_dic['拍卖出让'], text)):
              if re.search(self.title_type_dic['采招数据'], text.strip().split(' ')[0] + title) \
                  and not re.search(self.title_type_dic['拍卖出让2'], title):
                  return '采招数据', re.search(self.title_type_dic['采招数据'], text.strip().split(' ')[0] + title).group(0)
              return '拍卖出让', (re.search(self.title_type_dic['拍卖出让'], title) or re.search(self.type_dic['拍卖出让'], text)).group(0)

          elif re.search(self.title_type_dic['产权交易'], title) or re.search(self.type_dic['产权交易'], text):
              if re.search(self.title_type_dic['采招数据'], text.strip().split(' ')[0] + title) \
                  and not re.search(self.title_type_dic['产权交易2'], title):
                  return '采招数据', re.search(self.title_type_dic['采招数据'], text.strip().split(' ')[0] + title).group(0)
              return '产权交易', (re.search(self.title_type_dic['产权交易'], title) or re.search(self.type_dic['产权交易'], text)).group(0)

          elif re.search(self.title_type_dic['采招数据'], title) or re.search(self.type_dic['采招数据'], title + text) or re.search("银行|资格选定|资格认定|资金|公款|存款|存放|现金管理|招募|入围|入库", title +text.strip().split(' ')[0]):
              return '采招数据', (
                          re.search(self.title_type_dic['采招数据'], title) or re.search(self.type_dic['采招数据'], title + text) or re.search("银行|资格选定|资格认定|资金|公款|存款|存放|现金管理|招募|入围|入库", title +text.strip().split(' ')[0])).group(
                  0)
          elif re.search(self.title_type_dic['新闻资讯'], title):
              if re.search(self.title_type_dic['采招数据'], title +text.strip().split(' ')[0]) or re.search("银行|资格选定|资格认定|资金|公款|存款|存放|现金管理|招募|入围|入库", title +text.strip().split(' ')[0]):
                  return '采招数据', (re.search(self.title_type_dic['采招数据'], title +text.strip().split(' ')[0]) or re.search("银行|资格选定|资格认定|资金|公款|存款|存放|现金管理|招募|入围|入库", title +text.strip().split(' ')[0])).group(0)
              return '新闻资讯', re.search(self.title_type_dic['新闻资讯'], title).group(0)
          else:
              return '', '没有公告类型关键词,返回空'

      def get_life(title, text):
          title = re.sub('[-()（）0-9a-z]|第?[二三四]次公?告?', '', title)
          first_line = text.split()[0] if len(text.split()) > 2 else ''
          if title.strip()[-2:] not in ['公告', '公示'] and 5 < len(first_line) < 50 and first_line[-2:] in ['公告', '公示']:
              # print('title: ', title, first_line)
              title += first_line

          def count_score(l):
              return len(l) + len(set(l)) * 2

          life_kw_title = {}
          life_kw_content = {}
          life_score = {}

          # msc = ""
          # 查找标题每个类别关键词
          for k, v in self.title_life_dic.items():
              k2 = re.sub('[\da-z]', '', k)
              if k2 not in life_kw_title:
                  life_kw_title[k2] = []
              for it in re.finditer(v, title):
                  life_kw_title[k2].append(it.group(0))

          # 查找正文每个类别关键词
          for k, v in self.life_dic.items():
              k2 = re.sub('[\da-z]', '', k)
              if k2 not in life_kw_content:
                  life_kw_content[k2] = {'pos': [], 'neg': []}
              for it in re.finditer(v, text):
                  if 'neg' not in k:
                      life_kw_content[k2]['pos'].append(it.group(0))
                  else:
                      life_kw_content[k2]['neg'].append(it.group(0))
          for k2 in life_kw_content:
              life_score[k2] = count_score(life_kw_content[k2]['pos']) - count_score(
                  life_kw_content[k2]['neg'])

          life_kw_title = {k: v for k, v in life_kw_title.items() if v != []}
          life_kw_content = {k: v for k, v in life_kw_content.items() if life_score[k] > 0}
          msc = [life_kw_title, life_kw_content, life_score]
          msc = json.dumps(msc, ensure_ascii=False)

          max_score = 0
          life_list = []
          for k in life_score.keys():
              if life_score[k] > max_score:
                  max_score = life_score[k]
                  life_list = [k]
              elif life_score[k] == max_score and life_score[k] > 0:
                  life_list.append(k)
          if '采购意向' in life_kw_title or '采购意向' in life_list:
              if '中标信息' in life_kw_title or '中标信息' in life_list:
                  return '中标信息', msc
              elif '候选人公示' in life_kw_title:
                  return '候选人公示', msc
              elif set(['候选人公示', '合同公告']) & set(life_kw_title) != set():
                  return '', msc
              return '采购意向', msc
          elif '招标预告' in life_kw_title or '招标预告' in life_list:
              if '中标信息' in life_kw_title or '中标信息' in life_list:
                  return '中标信息', msc
              elif '候选人公示' in life_kw_title:
                  return '候选人公示', msc
              elif set(['候选人公示', '合同公告']) & set(life_kw_title) != set():
                  return '', msc
              return '招标预告', msc
          elif '公告变更' in life_kw_title or '公告变更' in life_list:
              if life_score.get('候选人公示', 0) > 3 or '候选人公示' in life_kw_title:
                  return '候选人公示', msc
              elif life_score.get('合同公告', 0) > 3 or '合同公告' in life_kw_title:
                  return '合同公告', msc
              elif life_score.get('中标信息', 0) > 3 or '中标信息' in life_kw_title:
                  return '中标信息', msc
              elif '招标公告' in life_kw_title and re.search('变更|更正', title[-4:])==None and life_score.get('公告变更', 0) < 4:
                  return '招标公告', msc
              return '公告变更', msc
          elif '招标答疑' in life_kw_title or '招标答疑' in life_list:
              if '招标公告' in life_kw_title and life_score.get('招标答疑', 0) < 4:
                  return '招标公告', msc
              elif life_score.get('招标答疑', 0) < max_score:
                  if max_score > 3 and len(life_list) == 1:
                      return life_list[0], msc
                  return '', msc
              return '招标答疑', msc
          elif '开标记录' in life_kw_title:
              return '开标记录', msc
          elif '验收合同' in life_kw_title:
              return '验收合同', msc
          elif '候选人公示' in life_kw_title or '候选人公示' in life_list:
              if '招标公告' in life_kw_title and '候选人公示' not in life_kw_title: # and life_score.get('招标公告', 0) > 3
                  return '招标公告', msc
              elif '废标公告' in life_kw_title or life_score.get('废标公告', 0) > 5:
                  return '废标公告', msc
              return '候选人公示', msc
          elif '合同公告' in life_kw_title or '合同公告' in life_list:
              if '招标公告' in life_kw_title and life_score.get('招标公告', 0) > 3:
                  return '招标公告', msc
              elif '废标公告' in life_kw_title or life_score.get('废标公告', 0) > 5:
                  return '废标公告', msc
              return '合同公告', msc

          elif '中标信息' in life_kw_title or '中标信息' in life_list:
              if '招标公告' in life_kw_title and '中标信息' not in life_kw_title and life_score.get('招标公告',0) >= life_score.get('中标信息',0):  # (life_score.get('招标公告', 0)>2 or life_score.get('中标信息', 0)<4) 0.7886409793924245
                  return '招标公告', msc
              elif '废标公告' in life_kw_title or life_score.get('废标公告', 0) > 5:
                  return '废标公告', msc
              elif life_score.get('候选人公示', 0) > 3:
                  return '候选人公示', msc
              elif life_score.get('合同公告', 0) > 5:
                  return '合同公告', msc
              return '中标信息', msc
          elif '废标公告' in life_kw_title or '废标公告' in life_list:
              if life_score.get('招标公告', 0) > 3 and '废标公告' not in life_kw_title:
                  return '招标公告', msc
              return '废标公告', msc
          elif '资审结果' in life_kw_title or '资审结果' in life_list:
              return '资审结果', msc
          elif '招标公告' in life_kw_title or '招标公告' in life_list:
              return '招标公告', msc

          return '', msc

      def get_model_inputs(list_sentence):
          list_sentence = sorted(list_sentence, key=lambda x:x.sentence_index)
          token_l = [it.tokens for it in list_sentence]
          tokens = [it for l in token_l for it in l]
          content = ' '.join(tokens[:500])
          data_content, data_title = self.predict_process(docid='', doctitle=title[-50:],
                                                          dochtmlcon=content)  # 标题最多取50字
          text_len = len(data_content[0]) if len(data_content[0]) < self.sequen_len else self.sequen_len
          title_len = len(data_title[0]) if len(data_title[0]) < self.title_len else self.title_len

          array_content = embedding(data_content, shape=(len(data_content), self.sequen_len, 128))
          array_title = embedding(data_title, shape=(len(data_title), self.title_len, 128))
          return array_content, array_title ,text_len, title_len, content

      def type_model_predict():
           pred = self.type_sess.run(self.type_softmax,
                                     feed_dict={
                                         self.type_title: array_title,
                                         self.type_content: array_content,
                                         self.type_mask: [[0] * text_len + [1] * (self.sequen_len - text_len)],
                                         self.type_mask_title: [[0] * title_len + [1] * (self.title_len - title_len)],
                                         self.type_prob: 1}
                                     )
           id = np.argmax(pred, axis=1)[0]
           prob = pred[0][id]
           return id, prob

      def life_model_predict():
          pred = self.lift_sess.run(self.lift_softmax,
                                    feed_dict={
                                        self.lift_title: array_title,
                                        self.lift_content: array_content,
                                        self.mask: [[0] * text_len + [1] * (self.sequen_len - text_len)],
                                        self.mask_title: [[0] * title_len + [1] * (self.title_len - title_len)],
                                        self.lift_prob: 1}
                                    )
          id = np.argmax(pred, axis=1)[0]
          prob = pred[0][id]
          return id, prob

      not_extract_dic = {
          104: '招标文件',
          106: '法律法规',
          107: '新闻资讯',
          108: '拟建项目',
          109: '展会推广',
          110: '企业名录',
          111: '企业资质',
          112: '全国工程人员',
          113: '业主采购'
      }

      origin_dic = {51: '公告变更',
       52: '招标公告',
       101: '中标信息',
       102: '招标预告',
       103: '招标答疑',
       104: '招标文件',
       105: '资审结果',
       106: '法律法规',
       107: '新闻资讯',
       108: '拟建项目',
       109: '展会推广',
       110: '企业名录',
       111: '企业资质',
       112: '全国工程',
       113: '业主采购',
       114: '采购意向',
       115: '拍卖出让',
       116: '土地矿产',
       117: '产权交易',
       118: '废标公告',
       119: '候选人公示',
       120: '合同公告'}

      title = re.sub('[^\u4e00-\u9fa5]+|出租车', '', title)
      if len(title) > 50:
          title = title[:20] + title[-30:]
      text = html2text(html)
      self.origin_dic = origin_dic
      self.title = title
      self.text = text

      if original_docchannel in not_extract_dic:
          return {'docchannel': {'docchannel': '', 'doctype': not_extract_dic[original_docchannel], 'life_docchannel': origin_dic.get(original_docchannel, '原始类别')}}, '公告类别不在提取范围'
      if web_source_no in ['02104-7', '04733', 'DX007628-6']: # 这些数据源无法识别
          return {'docchannel': {'docchannel': origin_dic.get(original_docchannel, '原始类别'), 'doctype': '采招数据', 'life_docchannel': origin_dic.get(original_docchannel, '原始类别')}}, '此数据源公告分类不明确，返回数据源类别'
      if original_docchannel == 303:
          return {'docchannel': {'docchannel': '处罚公告', 'doctype': '处罚公告', 'life_docchannel': '处罚公告'}}, "源类别为处罚公告"

      result = {'docchannel': {'docchannel': '', 'doctype': ''}}

      doc_type, type_kw = get_type(title, text)
      # print(doc_type, type_kw)
      # doc_life, life_kw = get_life(title, text, prem_json, bidway, original_docchannel)
      doc_life, life_kw = get_life(title, text)
      if doc_type in self.title_type_dic:
          result['docchannel']['doctype'] = doc_type
      if doc_life in self.title_life_dic:
          result['docchannel']['docchannel'] = doc_life
      # print('channel正则预测结果：', result)
      msc = '正则结果：类型：%s, 关键词：%s, 周期：%s， 关键词：%s'%(doc_type, type_kw,doc_life, life_kw)+'\n'+'模型结果：'
      # print('类型：%s, 关键词：%s, 周期：%s， 关键词：%s'%(doc_type, type_kw,doc_life, life_kw))
      if doc_type == "" or doc_life == "" or (doc_type != '采招数据' and origin_dic.get(original_docchannel, '原始类别') in ['招标公告', '中标信息', '招标预告', '采购意向']):
          array_content, array_title, text_len, title_len, content = get_model_inputs(list_sentence)
          if  doc_type =="" or (doc_type != '采招数据' and origin_dic.get(original_docchannel, '原始类别') in ['招标公告', '中标信息', '招标预告', '采购意向']):
              type_id, type_prob = type_model_predict()
              type_model = self.id2type[type_id]
              if type_model == '新闻资讯' and doc_life!='': # 修复bug 78584245 "docchannel": "合同公告", "doctype": "新闻资讯",
                  result['docchannel']['doctype'] = '采招数据'
                  msc += '模型结果为新闻资讯，生命周期不为空，改为采招数据；'
              else:
                  result['docchannel']['doctype'] = type_model
                  msc += type_model + ' 概率：%.4f；'%type_prob
              # print('公告类别：', self.id2type[id], '概率：',prob)
              # if id == 0:
          if doc_life=="" and result['docchannel']['doctype'] not in ['', '新闻资讯']:
              if len(text)>150 and re.search(self.kws, content):
                  life_id, life_prob = life_model_predict()
                  if life_prob>=0.8:
                      life_model = self.id2life[life_id]
                      result['docchannel']['docchannel'] = life_model
                      msc += life_model + ' 概率：%.4f；\n'%life_prob

      # msc = final_change(msc)
      # print('channel ', msc)
      return result, msc

  def final_change(self, result, prem, original_docchannel, msc):
      '''

      :param result: channel 结果字典
      :param prem:
      :param title: 标题
      :param text: 正文
      :param original_docchannel: 站源类别
      :param msc: 备注
      :return: channel结果字典
      '''
      '''
      修改逻辑：
      1、中标公告、合同公告无中标人且原始为非中标，返回原类型
      2、废标公告有中标人且标题无废标关键词，返回中标信息
      3、答疑公告标题无答疑关键且原始为招标，返回原始类别
      4、招标公告有中标人且原始为中标，返回中标信息
      5、预测为招标，原始为预告、意向，返回原始类别
      6、预测及原始均在变更、答疑，返回原始类别
      7、预测为采招数据，原始为产权且有关键词，返回原始类别
      8、废标公告原始为招标、预告且标题无废标关键期，返回原始类别
      9、若预测为非采招数据且源网为采招数据且有招标关键词返回采招数据
      10、招标公告有中标人，且标题有直购关键词，改为中标信息
      11、预测预告，原始为意向、招标且标题无预告关键词，返回原始类别

      '''
      def is_contain_winner(extract_json):
          if re.search('win_tenderer', extract_json):
              return True
          else:
              return False

      tenderee = ""
      agency = ""
      try:
          for k, v in prem['prem'].items():
              for link in v['roleList']:
                  if link['role_name'] == 'tenderee' and tenderee == "":
                      tenderee = link['role_text']
                  if link['role_name'] == 'agency' and agency == "":
                      agency = link['role_text']
      except Exception as e:
          # print('解析prem 获取招标人、代理人出错')
          pass
      origin_dic = self.origin_dic
      title = self.title
      text = self.text
      # 剔除招标单位名称影响
      if tenderee:
          title = title.replace(tenderee, " ")
          text = text.replace(tenderee, " ")
      if agency:
          title = title.replace(agency, " ")
          text = text.replace(agency, " ")
      prem_json = json.dumps(prem, ensure_ascii=False)
      if result['docchannel']['docchannel'] in ['中标信息', '合同公告'] and origin_dic.get(
              original_docchannel, '') in ['招标公告', '采购意向', '招标预告', '公告变更'] and is_contain_winner(
          prem_json) == False and re.search(self.title_life_dic['中标信息'], title) == None:
          result['docchannel']['docchannel'] = origin_dic.get(original_docchannel, '')
          msc += '最终规则修改：中标公告、合同公告无中标人且原始为非中标，返回原类型'
      elif result['docchannel']['docchannel'] in ['中标信息'] and is_contain_winner(prem_json) == False \
              and re.search("监督(抽查|检查)结果|抽查结果", title):
          result['docchannel']['doctype'] = "新闻资讯"
          result['docchannel']['docchannel'] = ""
          msc += '最终规则修改：中标公告无中标人且包含新闻资讯关键词，返回新闻资讯类型'
      elif result['docchannel']['docchannel'] == '废标公告' and is_contain_winner(prem_json) and re.search(
              self.title_life_dic['废标公告'], title) == None:
          if re.search(self.title_life_dic['合同公告'], title):
            result['docchannel']['docchannel'] = '合同公告'
          else:
            result['docchannel']['docchannel'] = '中标信息'
          msc += '最终规则修改：预测为废标却有中标人且标题无废标关键词改为中标信息;'
      elif result['docchannel']['docchannel'] in ['招标答疑'] and re.search(
              self.title_life_dic['招标答疑'], title) == None and origin_dic.get(
          original_docchannel, '') in ['招标公告', '采购意向', '招标预告']:
          result['docchannel']['docchannel'] = origin_dic.get(original_docchannel, '')
          msc += '最终规则修改：答疑公告标题无答疑关键且原始为招标，返回原始类别;'
      elif result['docchannel']['docchannel'] == '招标公告' and is_contain_winner(prem_json) and (origin_dic.get(
              original_docchannel, '') == '中标信息' or re.search('直接采购', title)): # 20241025补充 标题包含直接采购且有中标人的为中标公告
          result['docchannel']['docchannel'] = '中标信息'
          msc += '最终规则修改：预测为招标公告却有中标人且原始为中标改为中标信息;'
      elif result['docchannel']['docchannel'] in ['招标公告'] and origin_dic.get(
              original_docchannel, '') in ['采购意向', '招标预告']:
          result['docchannel']['docchannel'] = origin_dic.get(original_docchannel, '')
          msc += '最终规则修改：预测为招标，原始为预告、意向，返回原始类别'
      elif result['docchannel']['docchannel'] in ['招标预告'] and origin_dic.get(
              original_docchannel, '') in ['采购意向', '招标公告'] and re.search(
          self.title_life_dic['招标预告'], title) == None:
          result['docchannel']['docchannel'] = origin_dic.get(original_docchannel, '')
          msc += '最终规则修改：预测预告，原始为意向、招标且标题无预告关键词，返回原始类别'
      elif result['docchannel']['docchannel'] in ['招标答疑', '公告变更'] and origin_dic.get(
              original_docchannel, '') in ['招标答疑', '公告变更']:
          result['docchannel']['docchannel'] = origin_dic.get(original_docchannel, '')
          msc += '最终规则修改：预测及原始均在答疑、变更，返回原始类别'
      elif result['docchannel']['doctype'] == '采招数据' and origin_dic.get(
              original_docchannel, '') in ['产权交易', '土地矿产'] and re.search('产权|转让|受让|招租|出租|承租|竞价', text):
          result['docchannel']['doctype'] = origin_dic.get(original_docchannel, '')
          # print(re.findall('产权|转让|受让|招租|出租|承租|竞价', text))
          msc += '最终规则修改：预测为采招数据，原始为产权且有关键词，返回原始类别'
      elif result['docchannel']['docchannel'] == '废标公告' and origin_dic.get(
              original_docchannel, '') in ['招标公告', '采购意向', '招标预告'] and re.search(
          self.title_life_dic['废标公告'], title) == None:
          result['docchannel']['docchannel'] = origin_dic.get(original_docchannel, '')
          msc += '最终规则修改：废标公告原始为招标、预告且标题无废标关键期，返回原始类别;'
      elif result['docchannel']['docchannel'] in ['招标公告', '招标预告'] and is_contain_winner(
              prem_json) and re.search('直购', title):
          result['docchannel']['docchannel'] = '中标信息'
          msc += "最终规则修改：预测为招标却有中标人且标题有直购关键词返回中标"
      elif result['docchannel']['docchannel'] == '开标记录' and '开标结果' in title and is_contain_winner(prem_json):
          msc += "最终规则修改：开标结果包含中标人的作为中标信息"
          result['docchannel']['docchannel'] = '中标信息'
      if result['docchannel']['doctype'] in ['产权交易', '土地矿产', '拍卖出让'] and origin_dic.get(
              original_docchannel, '') not in ['产权交易', '土地矿产', '拍卖出让'] \
              and (re.search(self.title_type_dic['采招数据'], title) or re.search('采购|询价|磋商', title)
               or re.search('(采购|招投?标|投标)(信息|内容|项目|公告|数量|人|单位|方式)|(建设|工程|服务|施工|监理|勘察|设计)项目|(%s)'
          % self.type_dic['采招数据'], text)
      ):
          # print('test',re.findall('(采购|招投?标|投标)(信息|内容|项目|公告|数量|人|单位|方式)|(建设|工程|服务|施工|监理|勘察|设计)项目|(%s)' % self.type_dic['采招数据'], text))
          result['docchannel']['doctype'] = '采招数据'
          msc += ' 最终规则修改：预测为非采招数据，原始为采招数据且有招标关键词，返回采招数据'
      elif result['docchannel']['doctype'] in ['土地矿产'] and origin_dic.get(original_docchannel, '') in ['拍卖出让', '产权交易']:
          if origin_dic.get(original_docchannel, '') in ['拍卖出让'] and (
                  re.search(self.title_type_dic['拍卖出让'], title) or re.search(self.type_dic['拍卖出让'], text)):
              result['docchannel']['doctype'] = '拍卖出让'
              msc += "最终规则修改：预测为土地矿产原始为拍卖且有拍卖关键词，返回拍卖"
          elif (re.search(self.title_type_dic['产权交易'], title) or re.search(self.type_dic['产权交易'], text)):
              result['docchannel']['doctype'] = '产权交易'
              msc += "最终规则修改：预测为土地矿产原始为产权交易且有产权交易关键词，返回产权交易"

      '''下面是新格式增加返回字段'''
      if result['docchannel']['docchannel'] != '':  # 预测到生命周期的复制到life_docchannel，否则用数据源结果
          result['docchannel']['life_docchannel'] = result['docchannel']['docchannel']
      else:
          result['docchannel']['life_docchannel'] = origin_dic.get(original_docchannel, '原始类别')
      return result, msc

# 保证金支付方式提取
class DepositPaymentWay():
    def __init__(self,):
        self.pt = '(保证金的?(交纳|缴纳|应按下列|入账|支付)方式)[:：]*([^，。]{,60})'
        self.pt2 = '保证金(必?须以|必?须?通过|以)(.{,8})方式'
        kws = ['银行转账', '公?对公方?式?转账', '对公转账', '柜台转账', '(线上|网上)自?行?(缴纳|交纳|缴退|收退)',
               '网上银行支付', '现金存入', '直接缴纳', '支票', '汇票', '本票', '电汇', '转账', '汇款', '随机码',
               '入账', '基本账户转出', '基本账户汇入', '诚信库中登记的账户转出',
               '银行保函', '电子保函', '担保函', '保证保险', '合法担保机构出具的担保', '金融机构、担保机构出具的保函']
        self.kws = sorted(kws, key=lambda x: len(x), reverse=True)

    def predict(self,content):
        pay_way = {'deposit_patment_way':''}
        result = []
        pay = re.search(self.pt, content)
        if pay:
            # print(pay.group(0))
            pay = pay.group(3)
            for it in re.finditer('|'.join(self.kws), pay):
                result.append(it.group(0))
            pay_way['deposit_patment_way'] = '；'.join(result)
            return pay_way
        pay = re.search(self.pt2, content)
        if pay:
            # print(pay.group(0))
            pay = pay.group(2)
            for it in re.finditer('|'.join(self.kws), pay):
                result.append(it.group(0))
            pay_way['deposit_patment_way'] = '；'.join(result)
            return pay_way
        else:
            return pay_way

# 项目标签
class ProjectLabel():

    def __init__(self, ):

        self.keyword_list = self.get_label_keywords()
        self.kongjing_keyword_list = self.get_kongjing_keywords()

    def get_label_keywords(self):
        import csv
        path = os.path.dirname(__file__)+'/project_label_keywords.csv'
        with open(path, 'r',encoding='utf-8') as f:
            reader = csv.reader(f)
            key_word_list = []
            for r in reader:
                if r[0] == '类型':
                    continue
                type = r[0]
                key_wrod = r[1]
                key_paichuci = str(r[2])
                key_paichuci = key_paichuci if key_paichuci and key_paichuci != 'nan' else ""
                type_paichuci = str(r[3])
                type_paichuci = type_paichuci if type_paichuci and type_paichuci != 'nan' else ""
                key_word_list.append((type, key_wrod, key_paichuci, type_paichuci))
        return key_word_list

    def get_kongjing_keywords(self):
        import csv
        path = os.path.dirname(__file__)+'/kongjing_label_keywords.csv'
        with open(path, 'r',encoding='utf-8') as f:
            reader = csv.reader(f)
            key_word_list = []
            for r in reader:
                if r[0] == '关键词':
                    continue
                key_wrod = r[0]
                key_wrod2 = str(r[1])
                key_wrod2 = key_wrod2 if key_wrod2 and key_wrod2 != 'nan' else ""
                search_type = r[2]
                info_type_list = str(r[3])
                info_type_list = info_type_list if info_type_list and info_type_list != 'nan' else ""

                key_word_list.append((key_wrod, key_wrod2, search_type, info_type_list))
        return key_word_list

    def predict(self, doctitle,product,project_name,prem):

        doctitle = doctitle if doctitle else ""
        product = product if product else ""
        product = ",".join(set(product.split(','))) # 产品词去重
        project_name = project_name if project_name else ""
        tenderee = ""
        agency = ""
        sub_project_names = [] # 标段名称
        try:
            for k,v in prem[0]['prem'].items():
                # sub_project_names.append(k)
                sub_project_names.append(v.get("name",""))
                for link in v['roleList']:
                    if link['role_name'] == 'tenderee' and tenderee == "":
                        tenderee = link['role_text']
                    if link['role_name'] == 'agency' and agency == "":
                        agency = link['role_text']
        except Exception as e:
            # print('解析prem 获取招标人、代理人出错')
            pass
        sub_project_names = ";".join(sub_project_names)
        # 核心字段：标题+产品词+项目名称+标段名称
        main_text = "，".join([doctitle, product, project_name, sub_project_names])
        # 剔除 招标单位、代理机构名称
        if tenderee:
            doctitle = doctitle.replace(tenderee, " ")
            main_text = main_text.replace(tenderee, " ")
        if agency:
            doctitle = doctitle.replace(agency, " ")
            main_text = main_text.replace(agency, " ")

        doctitle_dict = dict()
        main_text_dict = dict()
        for item in self.keyword_list:
            _type = item[0]
            key_wrod = item[1]
            # 关键词排除词
            key_paichuci = item[2]
            key_paichuci_s = "|".join(key_paichuci.strip('、').split('、'))
            # 类型排除词
            type_paichuci = item[3]
            if type_paichuci:
                paichuci_split = type_paichuci.strip('、').split('、')
                if re.search("|".join(paichuci_split), main_text):
                    continue

            if doctitle:
                if key_wrod in doctitle:
                    if not key_paichuci_s or (key_paichuci_s and not re.search(key_paichuci_s, doctitle)):
                        key_wrod_count1 = doctitle.count(key_wrod)
                        if _type not in doctitle_dict:
                            # doctitle_dict[_type] = {'关键词': [], '排除词': type_paichuci}
                            doctitle_dict[_type] = []
                        doctitle_dict[_type].append((key_wrod, key_wrod_count1))
            if main_text:
                if key_wrod in main_text:
                    if not key_paichuci_s or (key_paichuci_s and not re.search(key_paichuci_s, main_text)):
                        key_wrod_count2 = main_text.count(key_wrod)
                        if _type not in main_text_dict:
                            # main_text_dict[_type] = {'关键词': [], '排除词': type_paichuci}
                            main_text_dict[_type] = []
                        main_text_dict[_type].append((key_wrod, key_wrod_count2))
        # 排序 doctitle
        for k, v in doctitle_dict.items():
            doctitle_dict[k].sort(key=lambda x: x[1], reverse=True)
        # 按匹配次数保留前10个标签
        if len(doctitle_dict) > 10:
            doctitle_labels = [(k, sum(w[1] for w in doctitle_dict[k])) for k in doctitle_dict]
            doctitle_labels.sort(key=lambda x: x[1], reverse=True)
            for item in doctitle_labels[10:]:
                doctitle_dict.pop(item[0])

        # main_text
        pop_list = []
        for k, v in main_text_dict.items():
            if sum([j[1] for j in main_text_dict[k]]) == 1:
                # 关键词匹配次数等于1的标签
                pop_list.append(k)
            main_text_dict[k].sort(key=lambda x: x[1], reverse=True)
        # 核心字段标签，若存在同一个标签的关键词匹配次数大于1，则只保留关键词匹配次数大于1的标签，关键词匹配次数等于1的标签不要
        if len(pop_list) < len(main_text_dict):
            for k in pop_list:
                main_text_dict.pop(k)
        # 按匹配次数保留前10个标签
        if len(main_text_dict) > 10:
            main_text_labels = [(k, sum(w[1] for w in main_text_dict[k])) for k in main_text_dict]
            main_text_labels.sort(key=lambda x: x[1], reverse=True)
            for item in main_text_labels[10:]:
                main_text_dict.pop(item[0])

        return {"标题":doctitle_dict,"核心字段":main_text_dict}

    def predict_other(self,project_label,industry,doctitle,project_name,product,list_articles):
        # doctextcon 取正文内容
        doctextcon = list_articles[0].content.split('##attachment##')[0]
        info_type = industry.get('industry',{}).get("class_name","")
        doctitle = doctitle if doctitle else ""
        product = product if product else ""
        product = ",".join(set(product.split(',')))  # 产品词去重
        project_name = project_name if project_name else ""

        get_kongjing_label = False
        keywords_list = []
        for item in self.kongjing_keyword_list:
            key_wrod = item[0]
            key_wrod2 = item[1]
            search_type = item[2]
            info_type_list = item[3]
            info_type_list = info_type_list.strip('|').split("|") if info_type_list else []

            search_text = ""
            if search_type=='正文':
                search_text = "，".join([doctextcon,doctitle,project_name,product])
            elif search_type=='产品':
                search_text = "，".join([doctitle,project_name,product])
            if search_type=='行业':
                # ’行业’类型直接用info_type匹配关键词
                if info_type==key_wrod:
                    # 匹配关键词记录
                    keywords_list.append(key_wrod)
                    get_kongjing_label = True
                    # break
            else:
                if key_wrod in search_text:
                    if key_wrod2 and key_wrod2 not in search_text:
                        continue
                    if info_type_list and info_type not in info_type_list:
                        continue
                    # 匹配关键词记录
                    if key_wrod2:
                        keywords_list.append(key_wrod+'+'+key_wrod2)
                    else:
                        keywords_list.append(key_wrod)
                    get_kongjing_label = True
                    # break
        if get_kongjing_label:
            project_label["核心字段"]["空净通"] = [[word,1] for word in keywords_list][:10]

        return project_label

# 产权分类二级标签
class PropertyLabel():
    '''
    产权分类二级标签
    全部类别：
    股权, 债权, 知识产权, 矿权, 房产, 土地, 交通运输工具, 闲置物资、设备、材料, 其他

    '''
    def __init__(self, ):
        car = "比亚迪|奇瑞|奥迪|宝马|菲尼迪|雷克萨斯|三菱|铃木|马自达|奔驰|劳斯莱斯|北京现代|" \
              "宾利|兰博基尼|布加迪|保时捷|斯柯达|雪佛兰|别克|凯迪拉克|庞蒂亚克|克尔维特|福特|林肯|克莱斯勒|道奇|JEEP品牌"
        self.keywords_dict = {
            "房产": "房产|住宅|公寓|商铺|车位|写字楼|办公楼|别墅|综合楼|在建工程|厂房|车库|车房|房转让|房屋|商品房|商业用房|"
                  "宅基地|[\u4e00-\u9fa5]{,2}用房|店面|商业房|门[面市]房|仓库|铺位|地下室|\d号?(房|室|门市|门面|商?铺|单元|户)|不动产|"
                  "自建房|铺面|商务楼|商住楼|阁楼|(杂物|储物|储藏)(房|间|室)|套房|[\da-zA-Z](栋|棟|幢|层|座|号?楼|单元)\d{1,4}(号|房|室|商?铺|户)|"
                  "[\da-zA-Z](栋|棟|幢|层|座|号?楼|单元)\d{2,}|门面+转让|楼+变卖|房地产",
            "交通运输工具": "车辆|轿车|汽车(?!用品|库|位|衡)|公车|客车|货车|面包车|SUV|新能源车|二手车|车辆|商用车|机动车|观光车|巴车|"
                      "船舶|四驱" + "|" + car,
            "股权": "\d.?股|股权(?!交易中心)|\d%(比例)?.?股|\d万.?股|\d.?元/股|增资(?!源)|扩股|股(转让|出售)|百分之[一二三四五六七八九十]{1,3}股",
            "债权": "债权|债权转让|债权人|债务人|原债权人|新债权人|金融资产",
            "土地": "住宅用地|商业用地|工业用地|国有[\u4e00-\u9fa5]{,3}[土用]地|集体土地|划拨|流转|地块编号|"
                  "土地使用权证|土地经营权|土地证|土地[发承]包|[\u4e00-\u9fa5]{,2}用地|土地\d{1,3}(亩|公?顷)|\d{1,3}(亩|公?顷)(使用|经营)权|"
                  "承包土地|(地块|土地)承包|水面经营权|[鱼水]塘|鱼池|(水面|旱田)[\u4e00-\u9fa5]{,3}[发承]包|水面资源|(水面|水田)[\u4e00-\u9fa5]{,3}权|"
                  "四荒|林地|林场|林木所有权|采伐权|水利设施所有权|水利设施使用权|海域|滩涂|林业产权|旱田|水田|机动田|机动地|耕地|荒地|农田|"
                  "苗圃地|塘口",
            "矿权": "矿权|矿业权|采矿许可|探矿权|采矿权|开采权|矿产资源处置|矿[\u4e00-\u9fa5]{1,3}开[发采]",
            "知识产权": "知识产权(?!局)|商标|专利|著作权|版权|商业秘密|科研成果",
            "闲置物资、设备、材料": "(废旧|报废|废|闲置|二手|淘汰)(物资|资产|机械|设备|仪器|汽车|车|钢铁|钢材|钢|金属|塑料|材料|导管|漆|渣|有色|品|[\u4e00-\u9fa5]{,2}车|偶头)|"
                          "(金属|机械|设备|仪器|汽车|钢铁|钢材|钢|塑料|有色|)废料|废液|废旧|报废|边角料|残次品|(热轧|冷轧|酸洗|镀铝|热镀|镀锌|镀镁)|"
                          "机[器械]设备|医疗设备|生产设备|办公设备|仪器|仪表|设备出租|设备租赁|拖拉机|收割机|插秧机|挖机|车床|挖掘机|电机|"
                          "戒指|弃渣|电解质块|茶杯|装置|花瓶|女表|手表|男表|硫磺|物资|书画|茶叶|油茶|红茶|[茗名]茶|白酒|红酒|酒水|酒品|名酒|毛石|[石金木铁矿铜锌铝钢]料|"
                          "零部件",
            "经营权": "经营权",
            "租赁": "房+租|市场+续约|资产+出租|租赁|续租|招租|出租|租金|房租"

        }
        self.cqjy_keywords = self.get_cqjy_keywords()

        self.score_idx = ["股权", "债权", "知识产权", "矿权", "房产", "土地", "交通运输工具", "闲置物资、设备、材料"]

    def get_cqjy_keywords(self):
        import csv
        path = os.path.dirname(__file__)+'/property_label_products.csv'
        with open(path, 'r',encoding='utf-8') as f:
            reader = csv.reader(f)
            key_word_list = []
            for r in reader:
                if r[0] == 'product':
                    continue
                key_wrod = r[0]
                _type = r[1]
                key_word_list.append((_type, key_wrod))

            return key_word_list

    def get_type(self, text):
        keyword_list = []
        for key, value in self.keywords_dict.items():
            keyword = "|".join([i for i in value.split("|") if '+' not in i])
            keyword2 = [i for i in value.split("|") if '+' in i]
            if re.search(keyword, text):
                re1 = [i for i in re.finditer(keyword, text)][-1]
                keyword_list.append((key, re1.start()))
            else:
                # 组合词 查询
                for k in keyword2:
                    k1, k2 = k.split('+')
                    if re.search(k1, text) and re.search(k2, text):
                        keyword_list.append((key, re.search(k2, text).start()))
                        break
        return keyword_list

    def get_type2(self, text, cqjy_type_list):

        have_type = [i[0] for i in cqjy_type_list]
        for item in self.cqjy_keywords:
            _type = item[0]
            key_wrod = item[1]
            if _type not in have_type:
                if '+' in key_wrod:
                    k1, k2 = key_wrod.split('+')
                    if re.search(k1, text) and re.search(k2, text):
                        cqjy_type_list.append((_type, re.search(k2, text).start()))
                        have_type.append(_type)
                else:
                    if key_wrod in text:
                        cqjy_type_list.append((_type, text.index(key_wrod)))
                        have_type.append(_type)

        return cqjy_type_list

    def predict(self, doctitle,product,project_name,prem,channel_dic):
        docchannel = channel_dic['docchannel']['doctype']
        # print('docchannel',docchannel)
        if docchannel not in ['土地矿产', '拍卖出让', '产权交易']:
            return ""
        doctitle = doctitle if doctitle else ""
        product = product if product else ""
        product = ",".join(set(product.split(','))) # 产品词去重
        project_name = project_name if project_name else ""
        tenderee = ""
        agency = ""
        try:
            for k,v in prem[0]['prem'].items():
                for link in v['roleList']:
                    if link['role_name'] == 'tenderee' and tenderee == "":
                        tenderee = link['role_text']
                    if link['role_name'] == 'agency' and agency == "":
                        agency = link['role_text']
        except Exception as e:
            # print('解析prem 获取招标人、代理人出错')
            pass

        cqjy_type = []
        idx = 0
        for text in [doctitle, project_name, product]:
            if tenderee:
                text = text.replace(tenderee, "")
            if agency:
                text = text.replace(agency, "")
            cqjy_type = self.get_type(text)
            if not cqjy_type:
                cqjy_type = self.get_type2(text, cqjy_type)
            idx += 1
            if idx == 2:  # project_name
                if len(re.split("[，、]", text)) > 9:
                    cqjy_type = []
            if idx == 3:  # product
                if len(text.split(",")) > 15:
                    cqjy_type = []
            if cqjy_type:
                break

        cqjy_type2 = [i[0] for i in cqjy_type]
        if cqjy_type:
            # 类别优先级调整
            if "租赁" in cqjy_type2:
                cqjy_type2 = ['租赁']
            elif "经营权" in cqjy_type2:
                cqjy_type2 = ['经营权']
            elif "股权" in cqjy_type2 or "债权" in cqjy_type2 or "知识产权" in cqjy_type2:
                cqjy_type.sort(key=lambda x: self.score_idx.index(x[0]))
                cqjy_type = cqjy_type[0]
                cqjy_type2 = [cqjy_type[0]]
            elif len(cqjy_type2) == 2 and "房产" in cqjy_type2 and "土地" in cqjy_type2:
                cqjy_type2 = ['房产']
            else:
                # 权重排序，取第一位
                if idx in [1, 2]:  # doctitle, project_name
                    cqjy_type.sort(key=lambda x: x[1], reverse=True)
                    cqjy_type = cqjy_type[0]
                    cqjy_type2 = [cqjy_type[0]]
                else:
                    cqjy_type.sort(key=lambda x: self.score_idx.index(x[0]))
                    cqjy_type = cqjy_type[0]
                    cqjy_type2 = [cqjy_type[0]]

        cqjy_type2 = ",".join(cqjy_type2)
        if not cqjy_type2:
            cqjy_type2 = '其他'

        return cqjy_type2

# 总价单价提取
class TotalUnitMoney:
    def __init__(self):
        pass

    def predict(self, list_sentences, list_entitys):
        for i in range(len(list_entitys)):
            list_entity = list_entitys[i]

            # 总价单价
            for _entity in list_entity:
                if _entity.entity_type == 'money':
                    word_of_sentence = list_sentences[i][_entity.sentence_index].sentence_text
                    # 总价在中投标金额中
                    if _entity.label == 1:
                        result = extract_total_money(word_of_sentence,
                                                     _entity.entity_text,
                                                     [_entity.wordOffset_begin, _entity.wordOffset_end])
                        if result:
                            _entity.is_total_money = 1

                    # 单价在普通金额中
                    else:
                        result = extract_unit_money(word_of_sentence,
                                                    _entity.entity_text,
                                                    [_entity.wordOffset_begin, _entity.wordOffset_end])
                        if result:
                            _entity.is_unit_money = 1
                # print("total_unit_money", _entity.entity_text,
                #       _entity.is_total_money, _entity.is_unit_money)

# 行业分类
class IndustryPredictor():
    def __init__(self,):
        self.model_path = os.path.dirname(__file__)+ '/industry_model'
        self.id2lb = {0: '专业施工', 1: '专用仪器仪表', 2: '专用设备修理', 3: '互联网信息服务', 4: '互联网安全服务', 5: '互联网平台', 6: '互联网接入及相关服务', 7: '人力资源服务',
             8: '人造原油', 9: '仓储业', 10: '仪器仪表', 11: '仪器仪表修理', 12: '会计、审计及税务服务', 13: '会议、展览及相关服务', 14: '住宅、商业用房',
             15: '体育场地设施管理', 16: '体育组织', 17: '体育设备', 18: '保险服务', 19: '信息处理和存储支持服务', 20: '信息技术咨询服务',
             21: '信息系统集成和物联网技术服务', 22: '修缮工程', 23: '健康咨询', 24: '公路旅客运输', 25: '其他专业咨询与调查', 26: '其他专业技术服务',
             27: '其他交通运输设备', 28: '其他公共设施管理', 29: '其他土木工程建筑', 30: '其他工程服务', 31: '其他建筑建材', 32: '其他运输业', 33: '农业和林业机械',
             34: '农业服务', 35: '农产品', 36: '农副食品，动、植物油制品', 37: '出版业', 38: '办公消耗用品及类似物品', 39: '办公设备', 40: '化学原料及化学制品',
             41: '化学纤维', 42: '化学药品和中药专用设备', 43: '医疗设备', 44: '医药品', 45: '卫星传输服务', 46: '卫生', 47: '印刷服务', 48: '图书和档案',
             49: '图书档案设备', 50: '图书馆与档案馆', 51: '土地管理业', 52: '地质勘查', 53: '地震服务', 54: '场馆、站港用房', 55: '城市公共交通运输',
             56: '塑料制品、半成品及辅料', 57: '天然石料', 58: '娱乐设备', 59: '婚姻服务', 60: '安全保护服务', 61: '安全生产设备', 62: '家具用具',
             63: '家用电器修理', 64: '工业、生产用房', 65: '工业与专业设计及其他专业技术服务', 66: '工矿工程建筑', 67: '工程技术与设计服务', 68: '工程机械',
             69: '工程监理服务', 70: '工程评价服务', 71: '工程造价服务', 72: '市场调查', 73: '广告业', 74: '广播', 75: '广播、电视、电影设备',
             76: '广播电视传输服务', 77: '废弃资源综合利用业', 78: '建筑涂料', 79: '建筑物、构筑物附属结构', 80: '建筑物拆除和场地准备活动', 81: '建筑装饰和装修业',
             82: '录音制作', 83: '影视节目制作', 84: '房地产中介服务', 85: '房地产开发经营', 86: '房地产租赁经营', 87: '房屋租赁', 88: '招标代理',
             89: '探矿、采矿、选矿和造块设备', 90: '政法、检测专用设备', 91: '教育服务', 92: '教育设备', 93: '文物及非物质文化遗产保护', 94: '文物和陈列品',
             95: '文艺创作与表演', 96: '文艺设备', 97: '新闻业', 98: '旅行社及相关服务', 99: '日杂用品', 100: '有色金属冶炼及压延产品', 101: '有色金属矿',
             102: '木材、板材等', 103: '木材采集和加工设备', 104: '机械设备', 105: '机械设备经营租赁', 106: '林业产品', 107: '林业服务', 108: '架线和管道工程建筑',
             109: '核工业专用设备', 110: '橡胶制品', 111: '殡葬服务', 112: '殡葬设备及用品', 113: '气象服务', 114: '水上交通运输设备', 115: '水上运输业',
             116: '水利和水运工程建筑', 117: '水工机械', 118: '水文服务', 119: '水资源管理', 120: '污水处理及其再生利用', 121: '汽车、摩托车修理与维护',
             122: '法律服务', 123: '洗染服务', 124: '测绘地理信息服务', 125: '海洋仪器设备', 126: '海洋工程建筑', 127: '海洋服务', 128: '消防设备',
             129: '清洁服务', 130: '渔业产品', 131: '渔业服务', 132: '炼焦和金属冶炼轧制设备', 133: '烟草加工设备', 134: '热力生产和供应', 135: '焦炭及其副产品',
             136: '煤炭采选产品', 137: '燃气生产和供应业', 138: '物业管理', 139: '特种用途动、植物', 140: '环保咨询', 141: '环境与生态监测检测服务',
             142: '环境污染防治设备', 143: '环境治理业', 144: '玻璃及其制品', 145: '理发及美容服务', 146: '生态保护', 147: '电信',
             148: '电力、城市燃气、蒸汽和热水、水', 149: '电力供应', 150: '电力工业专用设备', 151: '电力工程施工', 152: '电力生产', 153: '电子和通信测量仪器',
             154: '电工、电子专用生产设备', 155: '电影放映', 156: '电气安装', 157: '电气设备', 158: '电气设备修理', 159: '畜牧业服务', 160: '监控设备',
             161: '石油制品', 162: '石油和化学工业专用设备', 163: '石油和天然气开采产品', 164: '石油天然气开采专用设备', 165: '研究和试验发展', 166: '社会工作',
             167: '社会经济咨询', 168: '科技推广和应用服务业', 169: '科研、医疗、教育用房', 170: '管道和设备安装', 171: '粮油作物和饲料加工设备', 172: '纸、纸制品及印刷品',
             173: '纺织原料、毛皮、被服装具', 174: '纺织设备', 175: '绿化管理', 176: '缝纫、服饰、制革和毛皮加工设备', 177: '航空器及其配套设备', 178: '航空客货运输',
             179: '航空航天工业专用设备', 180: '节能环保工程施工', 181: '装卸搬运', 182: '计算机和办公设备维修', 183: '计算机设备', 184: '计量标准器具及量具、衡器',
             185: '货币处理专用设备', 186: '货币金融服务', 187: '质检技术服务', 188: '资本市场服务', 189: '车辆', 190: '边界勘界和联检专用设备', 191: '运行维护服务',
             192: '通信设备', 193: '通用设备修理', 194: '道路货物运输', 195: '邮政专用设备', 196: '邮政业', 197: '采矿业和制造业服务',
             198: '铁路、船舶、航空航天等运输设备修理', 199: '铁路、道路、隧道和桥梁工程建筑', 200: '铁路运输设备', 201: '防洪除涝设施管理', 202: '陶瓷制品',
             203: '雷达、无线电和卫星导航设备', 204: '非金属矿', 205: '非金属矿物制品工业专用设备', 206: '非金属矿物材料', 207: '食品加工专用设备', 208: '食品及加工盐',
             209: '餐饮业', 210: '饮料、酒精及精制茶', 211: '饮料加工设备', 212: '饲养动物及其产品', 213: '黑色金属冶炼及压延产品', 214: '黑色金属矿'}
        self.industry_dic = {'专业施工': {'大类': '专业施工', '门类': '建筑业'},
                             '专用仪器仪表': {'大类': '专用设备', '门类': '零售批发'},
                             '专用设备修理': {'大类': '金属制品、机械和设备修理业', '门类': '金属制品、机械和设备修理业'},
                             '互联网信息服务': {'大类': '互联网和相关服务', '门类': '信息传输、软件和信息技术服务业'},
                             '互联网安全服务': {'大类': '互联网和相关服务', '门类': '信息传输、软件和信息技术服务业'},
                             '互联网平台': {'大类': '互联网和相关服务', '门类': '信息传输、软件和信息技术服务业'},
                             '互联网接入及相关服务': {'大类': '互联网和相关服务', '门类': '信息传输、软件和信息技术服务业'},
                             '人力资源服务': {'大类': '商务服务业', '门类': '租赁和商务服务业'},
                             '人造原油': {'大类': '炼焦产品、炼油产品', '门类': '零售批发'},
                             '仓储业': {'大类': '装卸搬运和运输代理业', '门类': '交通运输、仓储和邮政业'},
                             '仪器仪表': {'大类': '通用设备', '门类': '零售批发'},
                             '仪器仪表修理': {'大类': '金属制品、机械和设备修理业', '门类': '金属制品、机械和设备修理业'},
                             '会计、审计及税务服务': {'大类': '商务服务业', '门类': '租赁和商务服务业'},
                             '会议、展览及相关服务': {'大类': '商务服务业', '门类': '租赁和商务服务业'},
                             '住宅、商业用房': {'大类': '房屋建筑业', '门类': '建筑业'},
                             '体育场地设施管理': {'大类': '体育', '门类': '文化、体育和娱乐业'},
                             '体育组织': {'大类': '体育', '门类': '文化、体育和娱乐业'},
                             '体育设备': {'大类': '专用设备', '门类': '零售批发'},
                             '保险服务': {'大类': '保险业', '门类': '金融业'},
                             '信息处理和存储支持服务': {'大类': '软件和信息技术服务业', '门类': '信息传输、软件和信息技术服务业'},
                             '信息技术咨询服务': {'大类': '软件和信息技术服务业', '门类': '信息传输、软件和信息技术服务业'},
                             '信息系统集成和物联网技术服务': {'大类': '软件和信息技术服务业', '门类': '信息传输、软件和信息技术服务业'},
                             '修缮工程': {'大类': '修缮工程', '门类': '建筑业'},
                             '健康咨询': {'大类': '商务服务业', '门类': '租赁和商务服务业'},
                             '公路旅客运输': {'大类': '道路运输业', '门类': '交通运输、仓储和邮政业'},
                             '其他专业咨询与调查': {'大类': '商务服务业', '门类': '租赁和商务服务业'},
                             '其他专业技术服务': {'大类': '专业技术服务业', '门类': '科学研究和技术服务业'},
                             '其他交通运输设备': {'大类': '专用设备', '门类': '零售批发'},
                             '其他公共设施管理': {'大类': '公共设施管理业', '门类': '水利、环境和公共设施管理业'},
                             '其他土木工程建筑': {'大类': '土木工程建筑业', '门类': '建筑业'},
                             '其他工程服务': {'大类': '工程服务', '门类': '科学研究和技术服务业'},
                             '其他建筑建材': {'大类': '建筑建材', '门类': '零售批发'},
                             '其他运输业': {'大类': '其他运输业', '门类': '交通运输、仓储和邮政业'},
                             '农业和林业机械': {'大类': '专用设备', '门类': '零售批发'},
                             '农业服务': {'大类': '农林牧副渔服务', '门类': '农林牧副渔服务'},
                             '农产品': {'大类': '农林牧渔业产品', '门类': '零售批发'},
                             '农副食品，动、植物油制品': {'大类': '食品、饮料和烟草原料', '门类': '零售批发'},
                             '出版业': {'大类': '新闻和出版业', '门类': '文化、体育和娱乐业'},
                             '办公消耗用品及类似物品': {'大类': '办公消耗用品及类似物品', '门类': '零售批发'},
                             '办公设备': {'大类': '通用设备', '门类': '零售批发'},
                             '化学原料及化学制品': {'大类': '基础化学品及相关产品', '门类': '零售批发'},
                             '化学纤维': {'大类': '基础化学品及相关产品', '门类': '零售批发'},
                             '化学药品和中药专用设备': {'大类': '专用设备', '门类': '零售批发'},
                             '医疗设备': {'大类': '专用设备', '门类': '零售批发'},
                             '医药品': {'大类': '医药品', '门类': '零售批发'},
                             '卫星传输服务': {'大类': '电信、广播电视和卫星传输服务', '门类': '信息传输、软件和信息技术服务业'},
                             '卫生': {'大类': '卫生', '门类': '卫生和社会工作'},
                             '印刷服务': {'大类': '商务服务业', '门类': '租赁和商务服务业'},
                             '图书和档案': {'大类': '图书和档案', '门类': '零售批发'},
                             '图书档案设备': {'大类': '通用设备', '门类': '零售批发'},
                             '图书馆与档案馆': {'大类': '文化艺术业', '门类': '文化、体育和娱乐业'},
                             '土地管理业': {'大类': '土地管理业', '门类': '水利、环境和公共设施管理业'},
                             '地质勘查': {'大类': '专业技术服务业', '门类': '科学研究和技术服务业'},
                             '地震服务': {'大类': '专业技术服务业', '门类': '科学研究和技术服务业'},
                             '场馆、站港用房': {'大类': '房屋建筑业', '门类': '建筑业'},
                             '城市公共交通运输': {'大类': '道路运输业', '门类': '交通运输、仓储和邮政业'},
                             '塑料制品、半成品及辅料': {'大类': '橡胶、塑料、玻璃和陶瓷制品', '门类': '零售批发'},
                             '天然石料': {'大类': '建筑建材', '门类': '零售批发'},
                             '娱乐设备': {'大类': '专用设备', '门类': '零售批发'},
                             '婚姻服务': {'大类': '居民服务业', '门类': '居民服务、修理和其他服务业'},
                             '安全保护服务': {'大类': '商务服务业', '门类': '租赁和商务服务业'},
                             '安全生产设备': {'大类': '专用设备', '门类': '零售批发'},
                             '家具用具': {'大类': '家具用具', '门类': '零售批发'},
                             '家用电器修理': {'大类': '机动车、电子产品和日用产品修理业', '门类': '居民服务、修理和其他服务业'},
                             '工业、生产用房': {'大类': '房屋建筑业', '门类': '建筑业'},
                             '工业与专业设计及其他专业技术服务': {'大类': '专业技术服务业', '门类': '科学研究和技术服务业'},
                             '工矿工程建筑': {'大类': '土木工程建筑业', '门类': '建筑业'},
                             '工程技术与设计服务': {'大类': '专业技术服务业', '门类': '科学研究和技术服务业'},
                             '工程机械': {'大类': '专用设备', '门类': '零售批发'},
                             '工程监理服务': {'大类': '工程服务', '门类': '科学研究和技术服务业'},
                             '工程评价服务': {'大类': '专业技术服务业', '门类': '科学研究和技术服务业'},
                             '工程造价服务': {'大类': '工程服务', '门类': '科学研究和技术服务业'},
                             '市场调查': {'大类': '商务服务业', '门类': '租赁和商务服务业'},
                             '广告业': {'大类': '商务服务业', '门类': '租赁和商务服务业'},
                             '广播': {'大类': '广播、电视、电影和影视录音制作业', '门类': '文化、体育和娱乐业'},
                             '广播、电视、电影设备': {'大类': '通用设备', '门类': '零售批发'},
                             '广播电视传输服务': {'大类': '电信、广播电视和卫星传输服务', '门类': '信息传输、软件和信息技术服务业'},
                             '废弃资源综合利用业': {'大类': '废弃资源综合利用业', '门类': '废弃资源综合利用业'},
                             '建筑涂料': {'大类': '建筑建材', '门类': '零售批发'},
                             '建筑物、构筑物附属结构': {'大类': '建筑建材', '门类': '零售批发'},
                             '建筑物拆除和场地准备活动': {'大类': '建筑装饰和其他建筑业', '门类': '建筑业'},
                             '建筑装饰和装修业': {'大类': '建筑装饰和其他建筑业', '门类': '建筑业'},
                             '录音制作': {'大类': '广播、电视、电影和影视录音制作业', '门类': '文化、体育和娱乐业'},
                             '影视节目制作': {'大类': '广播、电视、电影和影视录音制作业', '门类': '文化、体育和娱乐业'},
                             '房地产中介服务': {'大类': '房地产业', '门类': '房地产业'},
                             '房地产开发经营': {'大类': '房地产业', '门类': '房地产业'},
                             '房地产租赁经营': {'大类': '房地产业', '门类': '房地产业'},
                             '房屋租赁': {'大类': '租赁业', '门类': '租赁和商务服务业'},
                             '招标代理': {'大类': '专业技术服务业', '门类': '科学研究和技术服务业'},
                             '探矿、采矿、选矿和造块设备': {'大类': '专用设备', '门类': '零售批发'},
                             '政法、检测专用设备': {'大类': '专用设备', '门类': '零售批发'},
                             '教育服务': {'大类': '教育服务', '门类': '教育'},
                             '教育设备': {'大类': '专用设备', '门类': '零售批发'},
                             '文体设备和用品出租': {'大类': '租赁业', '门类': '租赁和商务服务业'},
                             '文物及非物质文化遗产保护': {'大类': '文化艺术业', '门类': '文化、体育和娱乐业'},
                             '文物和陈列品': {'大类': '文物和陈列品', '门类': '零售批发'},
                             '文艺创作与表演': {'大类': '文化艺术业', '门类': '文化、体育和娱乐业'},
                             '文艺设备': {'大类': '专用设备', '门类': '零售批发'},
                             '新闻业': {'大类': '新闻和出版业', '门类': '文化、体育和娱乐业'},
                             '旅行社及相关服务': {'大类': '商务服务业', '门类': '租赁和商务服务业'},
                             '日杂用品': {'大类': '日杂用品', '门类': '零售批发'},
                             '有色金属冶炼及压延产品': {'大类': '建筑建材', '门类': '零售批发'},
                             '有色金属矿': {'大类': '矿与矿物', '门类': '零售批发'},
                             '木材、板材等': {'大类': '建筑建材', '门类': '零售批发'},
                             '木材采集和加工设备': {'大类': '专用设备', '门类': '零售批发'},
                             '机械设备': {'大类': '通用设备', '门类': '零售批发'},
                             '机械设备经营租赁': {'大类': '租赁业', '门类': '租赁和商务服务业'},
                             '林业产品': {'大类': '农林牧渔业产品', '门类': '零售批发'},
                             '林业服务': {'大类': '农林牧副渔服务', '门类': '农林牧副渔服务'},
                             '架线和管道工程建筑': {'大类': '土木工程建筑业', '门类': '建筑业'},
                             '核工业专用设备': {'大类': '专用设备', '门类': '零售批发'},
                             '橡胶制品': {'大类': '橡胶、塑料、玻璃和陶瓷制品', '门类': '零售批发'},
                             '殡葬服务': {'大类': '居民服务业', '门类': '居民服务、修理和其他服务业'},
                             '殡葬设备及用品': {'大类': '专用设备', '门类': '零售批发'},
                             '气象服务': {'大类': '专业技术服务业', '门类': '科学研究和技术服务业'},
                             '水上交通运输设备': {'大类': '专用设备', '门类': '零售批发'},
                             '水上运输业': {'大类': '水上运输业', '门类': '交通运输、仓储和邮政业'},
                             '水利和水运工程建筑': {'大类': '土木工程建筑业', '门类': '建筑业'},
                             '水工机械': {'大类': '专用设备', '门类': '零售批发'},
                             '水文服务': {'大类': '水利管理业', '门类': '水利、环境和公共设施管理业'},
                             '水资源管理': {'大类': '水利管理业', '门类': '水利、环境和公共设施管理业'},
                             '污水处理及其再生利用': {'大类': '水的生产和供应业', '门类': '电力、热力、燃气及水生产和供应业'},
                             '汽车、摩托车修理与维护': {'大类': '机动车、电子产品和日用产品修理业', '门类': '居民服务、修理和其他服务业'},
                             '法律服务': {'大类': '商务服务业', '门类': '租赁和商务服务业'},
                             '洗染服务': {'大类': '居民服务业', '门类': '居民服务、修理和其他服务业'},
                             '测绘地理信息服务': {'大类': '专业技术服务业', '门类': '科学研究和技术服务业'},
                             '海洋仪器设备': {'大类': '专用设备', '门类': '零售批发'},
                             '海洋工程建筑': {'大类': '土木工程建筑业', '门类': '建筑业'},
                             '海洋服务': {'大类': '专业技术服务业', '门类': '科学研究和技术服务业'},
                             '消防设备': {'大类': '专用设备', '门类': '零售批发'},
                             '清洁服务': {'大类': '其他服务业', '门类': '居民服务、修理和其他服务业'},
                             '渔业产品': {'大类': '农林牧渔业产品', '门类': '零售批发'},
                             '渔业服务': {'大类': '农林牧副渔服务', '门类': '农林牧副渔服务'},
                             '炼焦和金属冶炼轧制设备': {'大类': '专用设备', '门类': '零售批发'},
                             '烟草加工设备': {'大类': '专用设备', '门类': '零售批发'},
                             '热力生产和供应': {'大类': '电力、热力生产和供应业', '门类': '电力、热力、燃气及水生产和供应业'},
                             '焦炭及其副产品': {'大类': '炼焦产品、炼油产品', '门类': '零售批发'},
                             '煤炭采选产品': {'大类': '矿与矿物', '门类': '零售批发'},
                             '燃气生产和供应业': {'大类': '燃气生产和供应业', '门类': '电力、热力、燃气及水生产和供应业'},
                             '物业管理': {'大类': '房地产业', '门类': '房地产业'},
                             '特种用途动、植物': {'大类': '农林牧渔业产品', '门类': '零售批发'},
                             '环保咨询': {'大类': '商务服务业', '门类': '租赁和商务服务业'},
                             '环境与生态监测检测服务': {'大类': '专业技术服务业', '门类': '科学研究和技术服务业'},
                             '环境污染防治设备': {'大类': '专用设备', '门类': '零售批发'},
                             '环境治理业': {'大类': '生态保护和环境治理业', '门类': '水利、环境和公共设施管理业'},
                             '玻璃及其制品': {'大类': '橡胶、塑料、玻璃和陶瓷制品', '门类': '零售批发'},
                             '理发及美容服务': {'大类': '居民服务业', '门类': '居民服务、修理和其他服务业'},
                             '生态保护': {'大类': '生态保护和环境治理业', '门类': '水利、环境和公共设施管理业'},
                             '电信': {'大类': '电信、广播电视和卫星传输服务', '门类': '信息传输、软件和信息技术服务业'},
                             '电力、城市燃气、蒸汽和热水、水': {'大类': '电力、城市燃气、蒸汽和热水、水', '门类': '零售批发'},
                             '电力供应': {'大类': '电力、热力生产和供应业', '门类': '电力、热力、燃气及水生产和供应业'},
                             '电力工业专用设备': {'大类': '专用设备', '门类': '零售批发'},
                             '电力工程施工': {'大类': '土木工程建筑业', '门类': '建筑业'},
                             '电力生产': {'大类': '电力、热力生产和供应业', '门类': '电力、热力、燃气及水生产和供应业'},
                             '电子和通信测量仪器': {'大类': '通用设备', '门类': '零售批发'},
                             '电工、电子专用生产设备': {'大类': '专用设备', '门类': '零售批发'},
                             '电影放映': {'大类': '广播、电视、电影和影视录音制作业', '门类': '文化、体育和娱乐业'},
                             '电气安装': {'大类': '建筑安装业', '门类': '建筑业'},
                             '电气设备': {'大类': '通用设备', '门类': '零售批发'},
                             '电气设备修理': {'大类': '金属制品、机械和设备修理业', '门类': '金属制品、机械和设备修理业'},
                             '畜牧业服务': {'大类': '农林牧副渔服务', '门类': '农林牧副渔服务'},
                             '监控设备': {'大类': '通用设备', '门类': '零售批发'},
                             '石油制品': {'大类': '炼焦产品、炼油产品', '门类': '零售批发'},
                             '石油和化学工业专用设备': {'大类': '专用设备', '门类': '零售批发'},
                             '石油和天然气开采产品': {'大类': '矿与矿物', '门类': '零售批发'},
                             '石油天然气开采专用设备': {'大类': '专用设备', '门类': '零售批发'},
                             '研究和试验发展': {'大类': '研究和试验发展', '门类': '科学研究和技术服务业'},
                             '社会工作': {'大类': '社会工作', '门类': '卫生和社会工作'},
                             '社会经济咨询': {'大类': '商务服务业', '门类': '租赁和商务服务业'},
                             '科技推广和应用服务业': {'大类': '科技推广和应用服务业', '门类': '科学研究和技术服务业'},
                             '科研、医疗、教育用房': {'大类': '房屋建筑业', '门类': '建筑业'},
                             '管道和设备安装': {'大类': '建筑安装业', '门类': '建筑业'},
                             '粮油作物和饲料加工设备': {'大类': '专用设备', '门类': '零售批发'},
                             '纸、纸制品及印刷品': {'大类': '纸、纸制品及印刷品', '门类': '零售批发'},
                             '纺织原料、毛皮、被服装具': {'大类': '纺织原料、毛皮、被服装具', '门类': '零售批发'},
                             '纺织设备': {'大类': '专用设备', '门类': '零售批发'},
                             '绿化管理': {'大类': '公共设施管理业', '门类': '水利、环境和公共设施管理业'},
                             '缝纫、服饰、制革和毛皮加工设备': {'大类': '专用设备', '门类': '零售批发'},
                             '航空器及其配套设备': {'大类': '专用设备', '门类': '零售批发'},
                             '航空客货运输': {'大类': '航空运输业', '门类': '交通运输、仓储和邮政业'},
                             '航空航天工业专用设备': {'大类': '专用设备', '门类': '零售批发'},
                             '节能环保工程施工': {'大类': '土木工程建筑业', '门类': '建筑业'},
                             '装卸搬运': {'大类': '装卸搬运和运输代理业', '门类': '交通运输、仓储和邮政业'},
                             '计算机和办公设备维修': {'大类': '机动车、电子产品和日用产品修理业', '门类': '居民服务、修理和其他服务业'},
                             '计算机设备': {'大类': '通用设备', '门类': '零售批发'},
                             '计量标准器具及量具、衡器': {'大类': '通用设备', '门类': '零售批发'},
                             '货币处理专用设备': {'大类': '专用设备', '门类': '零售批发'},
                             '货币金融服务': {'大类': '货币金融服务', '门类': '金融业'},
                             '质检技术服务': {'大类': '专业技术服务业', '门类': '科学研究和技术服务业'},
                             '资本市场服务': {'大类': '资本市场服务', '门类': '金融业'},
                             '车辆': {'大类': '通用设备', '门类': '零售批发'},
                             '边界勘界和联检专用设备': {'大类': '专用设备', '门类': '零售批发'},
                             '运行维护服务': {'大类': '软件和信息技术服务业', '门类': '信息传输、软件和信息技术服务业'},
                             '通信设备': {'大类': '通用设备', '门类': '零售批发'},
                             '通用设备修理': {'大类': '金属制品、机械和设备修理业', '门类': '金属制品、机械和设备修理业'},
                             '道路货物运输': {'大类': '道路运输业', '门类': '交通运输、仓储和邮政业'},
                             '邮政专用设备': {'大类': '专用设备', '门类': '零售批发'},
                             '邮政业': {'大类': '邮政业', '门类': '交通运输、仓储和邮政业'},
                             '采矿业和制造业服务': {'大类': '采矿业和制造业服务', '门类': '农林牧副渔服务'},
                             '铁路、船舶、航空航天等运输设备修理': {'大类': '金属制品、机械和设备修理业', '门类': '金属制品、机械和设备修理业'},
                             '铁路、道路、隧道和桥梁工程建筑': {'大类': '土木工程建筑业', '门类': '建筑业'},
                             '铁路运输设备': {'大类': '专用设备', '门类': '零售批发'},
                             '防洪除涝设施管理': {'大类': '水利管理业', '门类': '水利、环境和公共设施管理业'},
                             '陶瓷制品': {'大类': '橡胶、塑料、玻璃和陶瓷制品', '门类': '零售批发'},
                             '雷达、无线电和卫星导航设备': {'大类': '通用设备', '门类': '零售批发'},
                             '非金属矿': {'大类': '矿与矿物', '门类': '零售批发'},
                             '非金属矿物制品工业专用设备': {'大类': '专用设备', '门类': '零售批发'},
                             '非金属矿物材料': {'大类': '建筑建材', '门类': '零售批发'},
                             '食品加工专用设备': {'大类': '专用设备', '门类': '零售批发'},
                             '食品及加工盐': {'大类': '食品、饮料和烟草原料', '门类': '零售批发'},
                             '餐饮业': {'大类': '餐饮业', '门类': '住宿和餐饮业'},
                             '饮料、酒精及精制茶': {'大类': '食品、饮料和烟草原料', '门类': '零售批发'},
                             '饮料加工设备': {'大类': '专用设备', '门类': '零售批发'},
                             '饲养动物及其产品': {'大类': '农林牧渔业产品', '门类': '零售批发'},
                             '黑色金属冶炼及压延产品': {'大类': '建筑建材', '门类': '零售批发'},
                             '黑色金属矿': {'大类': '矿与矿物', '门类': '零售批发'}}
        self.sess = tf.Session(graph=tf.Graph())
        self.get_model()

        with open(os.path.dirname(__file__)+'/industry_rule_kw_json/tw_industry_keyword_org/tw_industry_keyword_org.json', 'r',
                  encoding='utf-8') as fp1:
            self.json_data_industry = json.load(fp1)
        with open(os.path.dirname(__file__)+'/industry_rule_kw_json/tw_company_classification_keyword/tw_company_classification_keyword.json', 'r',
                  encoding='utf-8') as fp2:
            self.json_data_company = json.load(fp2)
        with open(os.path.dirname(__file__)+'/industry_rule_kw_json/tw_custom_keyword/tw_custom_keyword.json', 'r', encoding='utf-8') as fp3:
            self.json_data_custom = json.load(fp3)
        '''下面补充行业关键词'''
        d = {'id': 5592, 'pingmu': '工程', 'menlei': '建筑业', 'dalei': '建筑装饰和其他建筑业', 'xiaolei': '建筑物拆除和场地准备活动', 'key_word': '围蔽', 'key_word2': None, 'power': '6.00'}
        self.json_data_industry.append(d)

    def get_model(self):
        with self.sess.as_default() as sess:
            with self.sess.graph.as_default():
                meta_graph_def = tf.saved_model.loader.load(sess,
                                                            tags=['serve'],
                                                            export_dir=os.path.dirname(__file__)+'/industry_model')
                signature_key = tf.saved_model.signature_constants.DEFAULT_SERVING_SIGNATURE_DEF_KEY
                signature_def = meta_graph_def.signature_def

                self.title = sess.graph.get_tensor_by_name(signature_def[signature_key].inputs['title'].name)
                self.project = sess.graph.get_tensor_by_name(signature_def[signature_key].inputs['project'].name)
                self.product = sess.graph.get_tensor_by_name(signature_def[signature_key].inputs['product'].name)
                self.outputs = sess.graph.get_tensor_by_name(signature_def[signature_key].outputs['outputs'].name)

    def text2array(self, text, tenderee='', maxSententLen=20):
        tenderee = tenderee.replace('(', '（').replace(')', '）')
        text = text.replace('(', '（').replace(')', '）')
        text = re.sub(
            '(废标|终止|综?合?评审|评标|开标|资审|履约|验收|成交|中标人?|中选人?|单一来源|合同|候选人|结果|变更|更正|答疑|澄清|意向|需求|采购|招标|询比?价|磋商|谈判|比选|比价|竞价|议价)的?(公告|预告|公示)?|关于为?|选取|定点|直接|邀请函?|通知书?|备案|公开|公示|公告|记录|竞争性',
            ' ', text)
        text = text.replace(tenderee, ' ')
        text = ' ' if text=="" else text
        words_docs_list = selffool.cut(text)
        words_docs_list = [[it for it in l if re.search('^[\u4e00-\u9fa5]+$', it)][-maxSententLen:] for l in words_docs_list]
        array = embedding(words_docs_list, shape=(len(words_docs_list), maxSententLen, 128))
        return array

    def process(self, title, project, product, tenderee):
        return self.text2array(title, tenderee), self.text2array(project, tenderee), self.text2array(product)

    def predict_model(self, title, project, product, tenderee=''):
        title_array, project_array, product_array = self.process(title, project, product, tenderee)
        rs = self.sess.run(self.outputs,
                           feed_dict={
                               self.title:title_array,
                               self.project:project_array,
                               self.product:product_array
                            }
                           )
        pred = np.argmax(rs[0])
        return self.id2lb[pred], rs[0][pred]
        # # 返回top2 结果
        # pred_list = np.argsort(-rs[0])
        # return self.id2lb[pred_list[0]], self.id2lb[pred_list[1]], rs[0][pred_list[0]], rs[0][pred_list[1]]

    def predict_rule(self, doctitle, tenderee, win_tenderer, project_name, product):
        doctitle = doctitle if doctitle else ''
        tenderee = tenderee if tenderee else ''
        win_tenderer = win_tenderer if win_tenderer else ''
        project_name = project_name if project_name else ''
        product = product if product else ''

        text_ind = (doctitle + project_name + product).replace(tenderee, '')
        text_ind = text_ind.replace('墙面粉刷', '墙面 粉刷')
        text_com = win_tenderer

        length_ind_text = len(text_ind) + 1
        length_com_text = len(text_com) + 1
        # print(text)

        dic_res = {}  # 行业分类字典
        score_lst = []  # 得分列表
        word_lst = []  # 关键词列表

        # 主要内容关键词
        if text_ind:
            # logging.info("data_ind%s"%str(_json_data_industry[0]))
            for data_industry in self.json_data_industry:
                industry = data_industry['xiaolei']
                key_word = data_industry['key_word']
                key_word_2 = data_industry['key_word2']
                power = float(data_industry['power']) if data_industry['power'] else 0
                this_score = power * (text_ind.count(key_word) * len(key_word) / length_ind_text)

                if key_word_2:
                    # key_word_compose = key_word + "+" + key_word_2
                    if text_ind.count(key_word_2) == 0:
                        this_score = 0

                if this_score > 0:
                    # print(industry,key_word,this_score)
                    if industry in dic_res.keys():
                        dic_res[industry] += this_score
                    else:
                        dic_res[industry] = this_score

                    if key_word not in word_lst:
                        word_lst.append(key_word)

        # 供应商关键词
        if text_com:

            for data_company in self.json_data_company:
                industry = data_company['industry_type']
                key_word = data_company['company_word']
                power = float(data_company['industry_rate']) if data_company['industry_rate'] else 0
                this_score = power * (text_com.count(key_word) * len(key_word) / length_com_text)

                if this_score > 0:
                    # print(industry,key_word,this_score)
                    if industry in dic_res.keys():
                        dic_res[industry] += this_score
                    else:
                        dic_res[industry] = this_score

                    if key_word not in word_lst:
                        word_lst.append(key_word)

        # 自定义关键词
        if text_ind:

            custom_ind = [
                ['tenderee', '医院|疾病预防', ['设备', '系统', '器'], '医疗设备'],
                ['tenderee', '学校|大学|小学|中学|学院|幼儿园', ['设备', '器'], '教育设备'],
                ['tenderee', '学校|大学|小学|中学|学院|幼儿园|医院', ['工程'], '科研、医疗、教育用房'],
                ['tenderee', '供电局|电网|国网|电力|电厂|粤电', ['设备', '器', '物资'], '电力工业专用设备'],
                ['tenderee', '公安|法院|检察院', ['设备', '器'], '政法、检测专用设备'],
                ['tenderee', '^中铁|^中交|^中建|中国建筑', ['材料'], '其他建筑建材'],
                ['doctextcon', '信息技术服务|系统开发|信息化|信息系统', ['监理'], '信息技术咨询服务'],
                ['doctextcon', '工程', ['消防'], '专业施工'],
                ['doctextcon', '铁路|航空|船舶|航天|广铁', ['维修'], '铁路、船舶、航空航天等运输设备修理'],
                ['doctextcon', '设备|仪|器', ['租赁'], '机械设备经营租赁'],
                ['doctextcon', '交通|铁路|公路|道路|桥梁', ['工程'], '铁路、道路、隧道和桥梁工程建筑'],
                ['win_tenderer', '电力', ['设备', '器'], '电力工业专用设备'],
                ['win_tenderer', '信息|网络科技', ['系统'], '信息系统集成和物联网技术服务'],
                ['tenderee,doctextcon', '铁路|广铁|铁道', ['设备', '器', '物资', '材料', '铁路'], '铁路运输设备'],
            ]

            for data_custom in self.json_data_custom:
                industry_custom = data_custom['industry']
                key_word = data_custom['company_word']
                power = float(data_custom['industry_rate'])
                for k in range(len(custom_ind)):
                    subject = ''
                    if 'tenderee' in custom_ind[k][0]:
                        subject += tenderee
                    if 'win_tenderer' in custom_ind[k][0]:
                        subject += win_tenderer
                    if 'doctextcon' in custom_ind[k][0]:
                        subject += text_ind

                    ptn = custom_ind[k][1]
                    # print('ptn',ptn)
                    if re.search(ptn, subject) and industry_custom in custom_ind[k][2]:
                        industry = custom_ind[k][3]
                    else:
                        continue

                    this_score = power * (text_ind.count(key_word) * len(key_word) / len(subject))

                    if this_score > 0:
                        # print(industry,key_word,this_score)
                        if industry in dic_res.keys():
                            dic_res[industry] += this_score
                        else:
                            dic_res[industry] = this_score

                        if key_word not in word_lst:
                            word_lst.append(key_word)
        sort_res = sorted(dic_res.items(), key=lambda x: x[1], reverse=True)
        lst_res = [s[0] for s in sort_res]
        score_lst = [str(round(float(s[1]), 2)) for s in sort_res]
        if len(lst_res) > 0:
            return lst_res, score_lst, word_lst
        else:
            return [""], [], []

    def predict_merge(self, pinmu_type, industry_lst):
        '''
        通过一系列规则最终决定使用模型还是规则的结果
        :param pinmu_type: 模型预测类别
        :param industry_lst: 规则预测类别列表
        :return:
        '''
        industry_type = industry_lst[0]
        if industry_type == "":
            return pinmu_type
        if industry_type == '专用设备修理' and re.search('修理|维修|装修|修缮', pinmu_type):
            final_type = pinmu_type
        elif industry_type == '其他土木工程建筑' and re.search('工程|建筑|用房|施工|安装|质检|其他专业咨询与调查', pinmu_type):
            final_type = pinmu_type
        elif pinmu_type == '专用设备修理' and re.search('工程|修理', industry_type):
            final_type = industry_type
        elif pinmu_type == '信息系统集成和物联网技术服务' and re.search('卫星传输|信息处理和存储支持服务|信息技术咨询服务|运行维护服务|其他专业技术服务|医疗设备|医药品',
                                                          industry_type):
            final_type = industry_type
        elif industry_type == '仪器仪表' and re.search('仪器|器具|医疗设备', pinmu_type):
            final_type = pinmu_type
        elif industry_type == '医药品' and re.search('医疗设备', pinmu_type):
            final_type = pinmu_type
        elif industry_type == '医药品' and re.search('医疗设备', pinmu_type):
            final_type = pinmu_type
        elif re.search('设备', industry_type) and re.search('修理|维修', pinmu_type):
            final_type = pinmu_type
        elif industry_type == '社会工作' and re.search('工程', pinmu_type):
            final_type = pinmu_type
        elif industry_type == '信息系统集成和物联网技术服务' and re.search('信息处理|设备', pinmu_type):
            final_type = pinmu_type
        elif industry_type == '研究和试验发展' and re.search('其他专业咨询与调查|质检技术服务|信息系统集成|其他工程服务', pinmu_type):
            final_type = pinmu_type
        elif industry_type == '其他专业咨询与调查' and re.search('工程造价服务', pinmu_type):
            final_type = pinmu_type
        elif industry_type == '广告业' and re.search('印刷服务|影视节目制作|信息系统', pinmu_type):
            final_type = pinmu_type
        elif industry_type == '清洁服务' and re.search('工程|环境污染防治设备|修理', pinmu_type):
            final_type = pinmu_type
        elif industry_type == '其他公共设施管理' and re.search('信息系统', pinmu_type):
            final_type = pinmu_type
        elif industry_type == '其他专业技术服务' and re.search('工程技术与设计服务|质检技术服务|环境与生态监测检测服务', pinmu_type):
            final_type = pinmu_type
        elif industry_type == '机械设备经营租赁' and re.search('电信', pinmu_type):
            final_type = pinmu_type
        elif industry_type == '货币金融服务' and re.search('信息系统集成和物联网技术服务', pinmu_type):
            final_type = pinmu_type
        elif industry_type == '体育场地设施管理' and re.search('体育设备', pinmu_type):
            final_type = pinmu_type
        elif industry_type == '安全保护服务' and re.search('信息系统|监控设备|互联网安全服务', pinmu_type):
            final_type = pinmu_type
        elif industry_type == '互联网接入及相关服务' and re.search('通信设备', pinmu_type):
            final_type = pinmu_type
        elif industry_type == '卫生' and re.search('医疗设备|信息系统', pinmu_type):
            final_type = pinmu_type
        elif pinmu_type == '研究和试验发展' and re.search('其他工程服务', industry_type):
            final_type = industry_type
        elif pinmu_type == '办公设备' and re.search('教育设备', industry_type):
            final_type = industry_type
        elif re.search('车辆|机械设备经营租赁', pinmu_type) and re.search('公路旅客运输', industry_type):
            final_type = industry_type
        elif len(industry_lst) > 1 and pinmu_type == industry_lst[1] and re.search('会计|法律|物业|家具|印刷|互联网安全',
                                                                                   industry_type) == None \
                and re.search('其他|人力资源服务', pinmu_type) == None:
            final_type = pinmu_type
        elif industry_type != "":
            final_type = industry_type
        else:
            final_type = pinmu_type
        return final_type

    def predict(self, title, project, product, prem, product_attrs):
        def get_ree_win(prem):
            tenderee = ""
            win_tenderer = ""
            try:
                for v in prem[0]['prem'].values():
                    for link in v['roleList']:
                        if link['role_name'] == 'tenderee' and tenderee == "":
                            tenderee = link['role_text']
                        elif link['role_name'] == 'win_tenderer' and win_tenderer == "":
                            win_tenderer = link['role_text']
            except Exception as e:
                print('解析prem 获取招标人、中标人出错')
            return tenderee, win_tenderer
        if product_attrs[0]['product_attrs'].get('data', [])!=[]: # 20250116 如果产品属性提取到产品，替换产品
            products = [d['product'] for d in product_attrs[0]['product_attrs']['data']]
            product = ' '.join(products)
        tenderee, win_tenderer = get_ree_win(prem)
        result_model, prob = self.predict_model(title, project, product, tenderee)
        industry_lst, score_lst, word_lst = self.predict_rule(title, tenderee, win_tenderer, project, product)
        final_type = self.predict_merge(result_model, industry_lst)
        # print('模型：%s；规则：%s；最终：%s'%(result_model, industry_lst[0], final_type))
        # return {'industry': final_type}
        return {'industry': {
                            'class_name': final_type,
                            'subclass': self.industry_dic[final_type]['大类'],
                            'class': self.industry_dic[final_type]['门类']
                            }
                }

class DistrictPredictor():
    def __init__(self):
        # with open(os.path.dirname(__file__)+'/district_dic.pkl', 'rb') as f:
        #     dist_dic = pickle.load(f)
        #     short_name = '|'.join(sorted(set([v['简称'] for v in dist_dic.values()]), key=lambda x: len(x), reverse=True))
        #     full_name = '|'.join(sorted(set([v['全称'] for v in dist_dic.values()]), key=lambda x: len(x), reverse=True))
        #     short2id = {}
        #     full2id = {}
        #     for k, v in dist_dic.items():
        #         if v['简称'] not in short2id:
        #             short2id[v['简称']] = [k]
        #         else:
        #             short2id[v['简称']].append(k)
        #         if v['全称'] not in full2id:
        #             full2id[v['全称']] = [k]
        #         else:
        #             full2id[v['全称']].append(k)
        #     self.dist_dic = dist_dic
        #     self.short_name = short_name
        #     self.full_name = full_name
        #     self.short2id = short2id
        #     self.full2id = full2id
        # # self.f = open(os.path.dirname(__file__)+'/../test/data/district_predict.txt', 'w', encoding='utf-8')
        with open(os.path.dirname(__file__)+'/district_tuple.pkl', 'rb') as f:
            district_tuple = pickle.load(f)
            self.p_pro, self.p_city, self.p_dis, self.idx_dic, self.full_dic, self.short_dic = district_tuple
            # self.pettern = "((?P<prov>%s)(?P<city>%s)?(?P<dist>%s)?)|((?P<city1>%s)(?P<dist1>%s)?)|(?P<dist2>%s)" % (
            #     self.p_pro, self.p_city, self.p_dis, self.p_city, self.p_dis, self.p_dis)
            self.pettern = "(?P<prov>%s)##(?P<city>%s)##(?P<dist>%s)" % (
                self.p_pro, self.p_city, self.p_dis)

        with open(os.path.dirname(__file__) + "/area_variance_dic.pkl", 'rb') as f: # 20241113 地区变更新旧名称对照字典
            self.area_variance_dic = pickle.load(f)
    @staticmethod
    def find_whole_areas(text, pettern, area_variance_dic, full_dic, weight=1):
        '''
        通过正则匹配字符串返回地址
        :param pettern: 地址正则 广东省|广西省|...
        :param text: 待匹配文本
        :return:
        '''
        province_l, city_l, district_l = [], [], []

        text = str(text).replace('(', '（').replace(')', '）')
        text = re.sub('\d{2,4}年度?|[\d/-]{1,5}[月日]|\d+|[a-zA-Z0-9]+', ' ', text)
        text = re.sub(
            '复合肥|海南岛|兴业银行|双河口|阳光|杭州湾|新城区|中粮屯河|老城(区|改造|更新|升级|翻新)|沙县小吃|北京时间|福田汽车|中山(大学|公园|纪念堂)|孙中山|海天水泥|阳光采购|示范县|珠江城|西九龙站|广州路北|安阳山村|电信|联通|北京现代', # 570445994 广州路北侧 预测为 广州 路北
            ' ', text)  # 544151395 赤壁市老城区燃气管道老化更新改造
        text = re.sub('珠海城市', '珠海', text)  # 修复 426624023 珠海城市 预测为海城市
        text = re.sub('怒江州', '怒江傈僳族自治州', text)  # 修复 423589589  所属地域：怒江州 识别为广西 - 崇左 - 江州
        text = re.sub('茂名滨海新区', '茂名市', text)
        text = re.sub('中山([东南西][部区环]|黄圃|南头|东凤|小榄|石岐|翠亨|南朗)', '中山市', text)
        text = re.sub('横州市', '横县', text)  # 例：547363890 修复广西南宁横州 不在地区表问题
        text = re.sub('广东中山', '广东中山市', text)
        text = re.sub('朝阳柳城经济开发区', '朝阳市', text)
        ser = re.search('海南(昌江|白沙|乐东|陵水|保亭|琼中)(黎族)?', text)
        if ser and '黎族' not in ser.group(0):
            text = text.replace(ser.group(0), ser.group(0) + '黎族')
        for k, v in area_variance_dic.items():  # 20241113 根据地区变更信息替换文本
            text = text.replace(k, v)
        text = re.sub('\s+', ' ', text)

        if re.search('[\u4e00-\u9fa5]', text) == None:
            return province_l, city_l, district_l

        for pettern in pettern.split('##'):
            for it in re.finditer(pettern, text):
                if it.group(0) == '站前':  # 20240314 修复类似 中铁二局新建沪苏湖铁路工程站前VI标项目 错识别为 省份：辽宁， 城市：营口，区县：站前
                    continue
                for k, v in it.groupdict().items():
                    if v != None:
                        if it.end() == it.end(k) and re.search('[省市区县州旗盟]$', v) == None and re.search(
                                '^([东南西北中一二三四五六七八九十大小]?(村|镇|街|路|道|社区|巷|坊)|酒店|宾馆|经济开发区|开发区|新区|公园|广场|医院|[大中小]学)',
                                # 城市不匹配为区的地址 修复 滨州北海经济开发区 北海新区 等提取为北海
                                text[it.end(k):]) != None:
                            continue
                        if k in ['prov']:
                            if v in full_dic['province']:
                                score = 2
                            else:
                                score = 1
                                if re.search('^(\w{,2}[分支](公司|局|行|校|院|干?线)|校区|\w{,3}段|地铁|(火车|高铁)?站|地区|区域)'
                                        , text[it.end(k):]) or re.search('^(（%s）|\-%s)' % (v, v),
                                                                         text[max(0, it.start(k) - 1):]):
                                    score += 1
                            score += it.end(k) / len(text) / 10
                            province_l.append((v, score * weight))
                        elif k in ['city', 'city1']:
                            if v in full_dic['city']:
                                score = 2
                            else:
                                score = 1
                                if re.search('^(\w{,2}[分支](公司|局|行|校|院|干?线)|校区|\w{,3}段|地铁|(火车|高铁)?站|地区|区域)'
                                        , text[it.end(k):]) or re.search('^(（%s）|\-%s)' % (v, v),
                                                                         text[max(0, it.start(k) - 1):]):
                                    score += 1
                            score += it.end(k) / len(text) / 10  # 优化 572840045 上海铁路公安局合肥公安处 这种表达
                            city_l.append((v, score * weight))
                        elif k in ['dist', 'dist1', 'dist2']:
                            if v in ['东区', '西区', '城区', '郊区', '矿区', '东至']:
                                continue
                            if v in full_dic['district'] and len(v) > 2:
                                score = 2
                            else:
                                score = 0.5
                                if re.search('^(\w{,2}[分支](公司|局|行|校|院|干?线)|校区|\w{,3}段|地铁|(火车|高铁)?站|地区|区域)'
                                        , text[it.end(k):]) or (
                                        re.match('\s*%s' % v, text) and it.start(k) < 2) or re.search(
                                    '^(（%s）|\-%s)' % (v, v), text[max(0, it.start(k) - 1):]):
                                    score += 0.5
                            # score += it.end(k) / len(text) / 10
                            if v == '昌江' and '景德镇' not in it.group(0):
                                district_l.append(('昌江黎族', score * weight))
                            else:
                                district_l.append((v, score * weight))
        return province_l, city_l, district_l
    @staticmethod
    def merge_score(province_l, city_l, district_l, full_dic, short_dic, idx_dic, filter_short_dist=True):
        '''
        合并分数，下级地区分数加到上级
        :param province_l: 提取到的省份列表 [(name, score)]
        :param city_l: 提取到的城市列表 [(name, score)]
        :param district_l: 提取到的区县列表 [(name, score)]
        :param filter_short_dist: 是否过滤不在省份下的区县简称权重
        :return:
        '''
        pro_ids = dict()
        city_ids = dict()
        dis_ids = dict()
        for pro in province_l:
            name, score = pro
            idx = full_dic['province'][name] if name in full_dic['province'] else short_dic['province'][name]
            if idx not in pro_ids:
                pro_ids[idx] = 0
            pro_ids[idx] += score

        tmp_pro = {}
        for city in city_l:
            name, score = city
            if name in full_dic['city']:
                for idx in full_dic['city'][name]:
                    if idx not in city_ids:
                        city_ids[idx] = 0
                    city_ids[idx] += score
                    pro_idx = idx_dic[idx]['省']
                    if pro_idx in tmp_pro:
                        tmp_pro[pro_idx] += score
                    else:
                        tmp_pro[pro_idx] = score
            elif name in short_dic['city']:
                for idx in short_dic['city'][name]:
                    if idx not in city_ids:
                        city_ids[idx] = 0
                    city_ids[idx] += score
                    pro_idx = idx_dic[idx]['省']
                    if pro_idx in tmp_pro:
                        tmp_pro[pro_idx] += score
                    else:
                        tmp_pro[pro_idx] = score
        if set(tmp_pro) & set(pro_ids) != set():
            for k, v in tmp_pro.items():
                if k in pro_ids:
                    pro_ids[k] += v
                else:
                    pro_ids[k] = v
        else:
            pro_ids.update(tmp_pro)
        tmp_pro = {}
        tmp_city = {}
        for dis in district_l:
            name, score = dis
            if name in full_dic['district']:
                for idx in full_dic['district'][name]:
                    if idx not in dis_ids:
                        dis_ids[idx] = 0
                    dis_ids[idx] += score
                    pro_idx = idx_dic[idx]['省']
                    if pro_idx in tmp_pro:
                        tmp_pro[pro_idx] += score
                    else:
                        tmp_pro[pro_idx] = score
                    city_idx = idx_dic[idx]['市']
                    if city_idx in tmp_city:
                        tmp_city[city_idx] += score
                    else:
                        tmp_city[city_idx] = score
            elif name in short_dic['district']:
                for idx in short_dic['district'][name]:
                    if idx not in dis_ids:
                        dis_ids[idx] = 0
                    dis_ids[idx] += score
                    pro_idx = idx_dic[idx]['省']
                    if filter_short_dist and score < 1:  # pro_idx not in pro_ids
                        continue
                    if pro_idx in tmp_pro:
                        tmp_pro[pro_idx] += score
                    else:
                        tmp_pro[pro_idx] = score
                    city_idx = idx_dic[idx]['市']
                    if city_idx in tmp_city:
                        tmp_city[city_idx] += score
                    else:
                        tmp_city[city_idx] = score
        if set(tmp_pro) & set(pro_ids) != set():
            for k, v in tmp_pro.items():
                if k in pro_ids:
                    pro_ids[k] += v
        else:
            pro_ids.update(tmp_pro)
        if set(tmp_city) & set(city_ids) != set():
            for k, v in tmp_city.items():
                if k in city_ids:
                    city_ids[k] += v
        else:
            city_ids.update(tmp_city)
        return pro_ids, city_ids, dis_ids
    @staticmethod
    def get_final_addr(pro_ids, city_ids, dis_ids, idx_dic):
        '''
        先把所有匹配的全称、简称转为id,如果省份不为空，城市不为空且有城市属于省份的取该城市
        :param province_l: 匹配到的所有省份
        :param city_l: 匹配到的所有城市
        :param district_l: 匹配到的所有区县
        :return:
        '''
        big_area = ""
        pred_pro = ""
        pred_city = ""
        pred_dis = ""

        final_pro = ""
        final_city = ""
        prob = 0
        max_score = 0
        if len(pro_ids) >= 1:
            pro_l = sorted([(k, v) for k, v in pro_ids.items()], key=lambda x: x[1], reverse=True)
            scores = [it[1] for it in pro_l]
            prob = max(scores) / sum(scores)
            max_score = max(scores)
            final_pro, score = pro_l[0]
            if score >= 0.01:
                pred_pro = idx_dic[final_pro]['返回名称']
                big_area = idx_dic[final_pro]['大区']
        if pred_pro != "" and len(city_ids) >= 1:
            city_l = sorted([(k, v) for k, v in city_ids.items()], key=lambda x: x[1], reverse=True)
            for it in city_l:
                if idx_dic[it[0]]['省'] == final_pro:
                    final_city = it[0]
                    pred_city = idx_dic[final_city]['返回名称']
                    break
        if final_city != "" and len(set(dis_ids)) >= 1:
            dis_l = sorted([(k, v) for k, v in dis_ids.items()], key=lambda x: x[1], reverse=True)
            for it in dis_l:
                if idx_dic[it[0]]['市'] == final_city:
                    pred_dis = idx_dic[it[0]]['返回名称']
        elif pred_pro != "" and pred_city == "" and len(set(dis_ids)) >= 1:  # 20241111 省份不为空，市为空，如果区县在省份下，补充对应的市县
            dis_l = sorted([(k, v) for k, v in dis_ids.items()], key=lambda x: x[1], reverse=True)
            for it in dis_l:
                if idx_dic[it[0]]['省'] == final_pro:
                    pred_city = idx_dic[idx_dic[it[0]]['市']]['返回名称']
                    pred_dis = idx_dic[it[0]]['返回名称']
        return big_area, pred_pro, pred_city, pred_dis, prob, max_score
    @staticmethod
    def get_ree_addr(prem):
        tenderee = ""
        tenderee_address = ""
        try:
            for v in prem.values():
                for link in v['roleList']:
                    if link['role_name'] == 'tenderee' and tenderee == "":
                        tenderee = link['role_text']
                        tenderee_address = link['address']
        except Exception as e:
            print('解析prem 获取招标人、及地址出错')
        return tenderee, tenderee_address
    @staticmethod
    def get_role_address(text):
        '''正则匹配获取招标人地址
           3：地址直接在招标人后面 招标人：xxx,地址：xxx
           4：招标、代理一起，两个地址一起 招标人：xxx， 代理人：xxx, 地址：xxx， 地址：xxx.
        '''
        p3 = '(招标|采购|甲)(人|方|单位)(信息：|（甲方）)?(名称)?：[\w（）]{4,15}，(联系)?地址：(?P<addr>(\w{1,13}(自治[区州县旗]|地区|[省市区县旗盟])[^\w]*)+|\w{2,15}[，。])'
        p4 = '(招标|采购|甲)(人|方|单位)(信息：|（甲方）)?(名称)?：[\w（）]{4,15}，(招标|采购)?代理(人|机构)(名称)?：[\w（）]{4,15}，(联系)?地址：(?P<addr>(\w{1,13}(自治[区州县旗]|地区|[省市区县旗盟])[^\w]*)+|\w{2,15}[，。])'
        p5 = '(采购|招标)(人|单位)(联系)?地址：(?P<addr>(\w{1,13}(自治[区州县旗]|地区|[省市区县旗盟])[^\w]*)+|\w{2,15}[，。])'
        if re.search(p3, text):
            return re.search(p3, text).group('addr')
        elif re.search(p4, text):
            return re.search(p4, text).group('addr')
        elif re.search(p5, text):
            return re.search(p5, text).group('addr')
        else:
            return ''
    @staticmethod
    def get_all_addr(list_entity):
        tenderee_l = []
        addr_l = []
        for ent in list_entity:
            if ent.entity_type == 'location' and len(ent.entity_text) > 2:
                addr_l.append(ent.entity_text)
            elif ent.entity_type in ['org', 'company']:
                if ent.label in [0, 1]:  # 加招标或代理
                    tenderee_l.append(ent.entity_text)
        return ' '.join(set(addr_l)), ' '.join(set(tenderee_l))

    def predict_area(self, title, content, web_source_name, prem={}, addr_dic={}, list_entity=[]):
        area_dic = {'area': '全国', 'province': '全国', 'city': '未知', 'district': '未知', "is_in_text": False}
        addr_project = addr_dic.get('addr_project', '')
        addr_delivery = addr_dic.get('addr_delivery', '')
        addr_bidopen = addr_dic.get('addr_bidopen', '')
        addr_bidsend = addr_dic.get('addr_bidsend', '')
        addr_contact = addr_dic.get('addr_contact', '')
        in_content = False
        not_sure = True # 是否不确定地区
        province_l, city_l, district_l = self.find_whole_areas('%s %s'%(title, addr_project), self.pettern, self.area_variance_dic, self.full_dic)
        pro_ids, city_ids, dis_ids = self.merge_score(province_l, city_l, district_l, self.full_dic, self.short_dic, self.idx_dic)
        big_area_1, pred_pro_1, pred_city_1, pred_dis_1, prob, max_score = self.get_final_addr(pro_ids, city_ids, dis_ids, self.idx_dic)
        big_area, pred_pro, pred_city, pred_dis = big_area_1, pred_pro_1, pred_city_1, pred_dis_1
        # print('关键词1：', province_l, city_l, district_l)
        # print('分数：', pro_ids, city_ids, dis_ids, prob, max_score)
        if pred_city_1 == "" or prob < 0.7 or max_score<2:
            ree, addr = self.get_ree_addr(prem)
            if ree in title:
                ree = '##'
            rule_ree_addr = self.get_role_address(content)
            if rule_ree_addr:
                addr = rule_ree_addr

            # addr = content
            # ree = ''
            province_l2, city_l2, district_l2 = self.find_whole_areas('%s %s %s %s' % (ree, addr, addr_contact, addr_delivery), self.pettern, self.area_variance_dic, self.full_dic, weight=0.8)
            province_l.extend(province_l2)
            city_l.extend(city_l2)
            district_l.extend(district_l2)
            pro_ids, city_ids, dis_ids = self.merge_score(province_l, city_l, district_l, self.full_dic, self.short_dic, self.idx_dic)
            big_area_2, pred_pro_2, pred_city_2, pred_dis_2, prob, max_score = self.get_final_addr(pro_ids, city_ids, dis_ids, self.idx_dic)
            big_area, pred_pro, pred_city, pred_dis = big_area_2, pred_pro_2, pred_city_2, pred_dis_2
            # print('关键词2：', province_l, city_l, district_l)
            # print('分数：', pro_ids, city_ids, dis_ids, prob, max_score)
            if re.search('省|市|自治', addr_project) and pred_pro_1 != '' and pred_pro_1 != pred_pro_2: # 如果有项目地址使用项目地址
                not_sure = False
                big_area, pred_pro, pred_city, pred_dis = big_area_1, pred_pro_1, pred_city_1, pred_dis_1
            if not_sure and (pred_city_2 == "" or prob < 0.7 or max_score<2):
                province_l3, city_l3, district_l3 = self.find_whole_areas('%s %s'%(addr_bidopen, addr_bidsend), self.pettern, self.area_variance_dic, self.full_dic, weight=0.6)
                province_l.extend(province_l3)
                city_l.extend(city_l3)
                district_l.extend(district_l3)
                pro_ids, city_ids, dis_ids = self.merge_score(province_l, city_l, district_l, self.full_dic, self.short_dic, self.idx_dic)
                big_area_3, pred_pro_3, pred_city_3, pred_dis_3, prob, max_score = self.get_final_addr(pro_ids, city_ids, dis_ids, self.idx_dic)
                big_area, pred_pro, pred_city, pred_dis = big_area_3, pred_pro_3, pred_city_3, pred_dis_3
                # print('关键词3：', province_l, city_l, district_l)
                # print('分数：', pro_ids, city_ids, dis_ids, prob, max_score)
                if not_sure and (pred_city_3 == "" or prob < 0.6 or max_score < 2):
                    all_addr, tenderees = self.get_all_addr(list_entity)
                    province_l4, city_l4, district_l4 = self.find_whole_areas('%s %s %s' % (web_source_name, tenderees, all_addr), self.pettern, self.area_variance_dic, self.full_dic, weight=0.3)
                    province_l.extend(province_l4)
                    city_l.extend(city_l4)
                    district_l.extend(district_l4)
                    pro_ids, city_ids, dis_ids = self.merge_score(province_l, city_l, district_l, self.full_dic, self.short_dic, self.idx_dic)
                    big_area_4, pred_pro_4, pred_city_4, pred_dis_4, prob, max_score = self.get_final_addr(pro_ids, city_ids,dis_ids, self.idx_dic)
                    big_area, pred_pro, pred_city, pred_dis = big_area_4, pred_pro_4, pred_city_4, pred_dis_4
                    if pred_pro_3 != pred_pro_4 and (prob < 0.6 or max_score < 2):
                        in_content = True
                    # print('关键词4：', province_l, city_l, district_l)
                    # print('分数：', pro_ids, city_ids, dis_ids, prob, max_score)

        if pred_city in ['北京', '天津', '上海', '重庆']:
            pred_city = pred_dis
            pred_dis = ""

        if big_area != "":
            area_dic['area'] = big_area
        if pred_pro != "":
            area_dic['province'] = pred_pro
        if pred_city != "":
            area_dic['city'] = pred_city
        if pred_dis != "":
            area_dic['district'] = pred_dis
        area_dic['is_in_text'] = in_content
        # area_dic['prob'] = prob
        # area_dic['max_score'] = max_score
        return {'district': area_dic}

    def get_area(self, text, web_name, in_content=False):
        p_pro, p_city, p_dis, idx_dic, full_dic, short_dic = self.p_pro, self.p_city, self.p_dis, self.idx_dic, self.full_dic, self.short_dic

        def get_final_addr(pro_ids, city_ids, dis_ids):
            '''
            先把所有匹配的全称、简称转为id,如果省份不为空，城市不为空且有城市属于省份的取该城市
            :param province_l: 匹配到的所有省份
            :param city_l: 匹配到的所有城市
            :param district_l: 匹配到的所有区县
            :return:
            '''
            big_area = ""
            pred_pro = ""
            pred_city = ""
            pred_dis = ""

            final_pro = ""
            final_city = ""
            pro_prob = 0
            city_prob = 0
            if len(pro_ids) >= 1:
                pro_l = sorted([(k, v) for k, v in pro_ids.items()], key=lambda x: x[1], reverse=True)
                scores = [it[1] for it in pro_l]
                pro_prob = max(scores)/sum(scores)
                final_pro, score = pro_l[0]
                if score >= 0.01:
                    pred_pro = idx_dic[final_pro]['返回名称']
                    big_area = idx_dic[final_pro]['大区']
                # else:
                #     print("得分过低，过滤掉", idx_dic[final_pro]['返回名称'], score)

            if pred_pro != "" and len(city_ids) >= 1:
                city_l = sorted([(k, v) for k, v in city_ids.items()], key=lambda x: x[1], reverse=True)
                scores = [it[1] for it in city_l]
                city_prob = max(scores) / sum(scores)
                for it in city_l:
                    if idx_dic[it[0]]['省'] == final_pro:
                        final_city = it[0]
                        pred_city = idx_dic[final_city]['返回名称']
                        break
            if final_city != "" and len(set(dis_ids)) >= 1:
                dis_l = sorted([(k, v) for k, v in dis_ids.items()], key=lambda x: x[1], reverse=True)
                for it in dis_l:
                    if idx_dic[it[0]]['市'] == final_city:
                        pred_dis = idx_dic[it[0]]['返回名称']
            elif pred_pro != "" and pred_city == "" and len(set(dis_ids)) >= 1: # 20241111 省份不为空，市为空，如果区县在省份下，补充对应的市县
                dis_l = sorted([(k, v) for k, v in dis_ids.items()], key=lambda x: x[1], reverse=True)
                for it in dis_l:
                    if idx_dic[it[0]]['省'] == final_pro:
                        pred_city = idx_dic[idx_dic[it[0]]['市']]['返回名称']
                        pred_dis = idx_dic[it[0]]['返回名称']
                        # print('20241111 省份不为空，市为空，如果区县在省份下，补充对应的市县: ', pred_city, pred_dis)

            if pred_city in ['北京', '天津', '上海', '重庆']:
                pred_city = pred_dis
                pred_dis = ""
            return big_area, pred_pro, pred_city, pred_dis

        def find_areas(pettern, text):
            '''
            通过正则匹配字符串返回地址
            :param pettern: 地址正则 广东省|广西省|...
            :param text: 待匹配文本
            :return:
            '''
            addr = []
            for it in re.finditer(pettern, text):
                if re.search('[省市区县旗盟]$', it.group(0)) == None and re.search(
                        '^([东南西北中一二三四五六七八九十大小]?(村|镇|街|路|道|社区)|酒店|宾馆)', text[it.end():]):
                    continue
                if it.group(0) == '站前': # 20240314 修复类似 中铁二局新建沪苏湖铁路工程站前VI标项目 错识别为 省份：辽宁， 城市：营口，区县：站前
                    continue
                if re.search('^(经济开发区|开发区|新区)', text[it.end():]) and re.search('广州市', pettern): # 城市不匹配为区的地址 修复 滨州北海经济开发区 北海新区 等提取为北海
                    continue
                addr.append((it.group(0), it.start(), it.end()))
                if re.search('^([分支](公司|局|行|校|院|干?线)|\w{,3}段|地铁|(火车|高铁)?站|\w{,3}项目)', text[it.end():]):
                    addr.append((it.group(0), it.start(), it.end()))
            return addr


        def chage_area2score(group_list, max_len):
            '''
            把匹配的的地址转为分数
            :param group_list: [('name', b, e)]
            :return:
            '''
            area_list = []
            if group_list != []:
                for it in group_list:
                    name, b, e = it
                    area_list.append((name, (e - b + e) / max_len / 2))
            return area_list

        def find_whole_areas(text):
            '''
            通过正则匹配字符串返回地址
            :param pettern: 地址正则 广东省|广西省|...
            :param text: 待匹配文本
            :return:
            '''
            pettern = "((?P<prov>%s)(?P<city>%s)?(?P<dist>%s)?)|((?P<city1>%s)(?P<dist1>%s)?)|(?P<dist2>%s)" % (
            p_pro, p_city, p_dis, p_city, p_dis, p_dis)
            province_l, city_l, district_l = [], [], []
            for it in re.finditer(pettern, text):
                if re.search('[省市区县旗盟]', it.group(0)) == None and re.search(
                        '^([东南西北中一二三四五六七八九十大小]?(村|镇|街|路|道|社区)|酒店|宾馆)', text[it.end():]):
                    continue
                if it.group(0) == '站前':  # 20240314 修复类似 中铁二局新建沪苏湖铁路工程站前VI标项目 错识别为 省份：辽宁， 城市：营口，区县：站前
                    continue
                for k, v in it.groupdict().items():
                    if v != None:
                        if k in ['prov']:
                            province_l.append((it.group(k), it.start(k), it.end(k)))
                        elif k in ['city', 'city1']:
                            if re.search('^(经济开发区|开发区|新区)', text[it.end(k):]):  # 城市不匹配为区的地址 修复 滨州北海经济开发区 北海新区 等提取为北海
                                continue
                            city_l.append((it.group(k), it.start(k), it.end(k)))
                            if re.search('^([分支](公司|局|行|校|院|干?线)|\w{,3}段|地铁|(火车|高铁)?站|\w{,3}项目)', text[it.end(k):]):
                                city_l.append((it.group(k), it.start(k), it.end(k)))
                        elif k in ['dist', 'dist1', 'dist2']:
                            if it.group(k)=='昌江' and '景德镇' not in it.group(0):
                                district_l.append(('昌江黎族', it.start(k), it.end(k)))
                            else:
                                district_l.append((it.group(k), it.start(k), it.end(k)))
            return province_l, city_l, district_l

        def get_pro_city_dis_score(text, text_weight=1):
            text = re.sub('复合肥|海南岛|兴业银行|双河口|阳光|杭州湾|新城区|中粮屯河|老城(区|改造|更新|升级|翻新)|沙县小吃|北京时间', ' ', text) # 544151395 赤壁市老城区燃气管道老化更新改造
            text = re.sub('珠海城市', '珠海', text)  # 修复 426624023 珠海城市 预测为海城市
            text = re.sub('怒江州', '怒江傈僳族自治州', text)  # 修复 423589589  所属地域：怒江州 识别为广西 - 崇左 - 江州
            text = re.sub('茂名滨海新区', '茂名市', text)
            text = re.sub('中山([东南西][部区环]|黄圃|南头|东凤|小榄|石岐|翠亨|南朗)', '中山市', text)
            text = re.sub('横州市', '横县', text) # 例：547363890 修复广西南宁横州 不在地区表问题
            ser = re.search('海南(昌江|白沙|乐东|陵水|保亭|琼中)(黎族)?', text)
            if ser and '黎族' not in ser.group(0):
                text = text.replace(ser.group(0), ser.group(0)+'黎族')
            for k, v in self.area_variance_dic.items(): # 20241113 根据地区变更信息替换文本
                text = text.replace(k, v)
            # province_l = find_areas(p_pro, text)
            # city_l = find_areas(p_city, text)
            # district_l = find_areas(p_dis, text)

            province_l, city_l, district_l = find_whole_areas(text) # 20240703 优化地址提取，解决类似 海南昌江 得到 海南 南昌 结果

            # if len(province_l) == len(city_l) == 0:
            #     district_l = [it for it in district_l if
            #                   re.search('[市县旗区]$', it[0])]  # 20240428去掉只有区县地址且不是全称的匹配，避免错误 例 凌云工业股份有限公司 提取地区为广西白色凌云

            province_l = chage_area2score(province_l, max_len=len(text))
            city_l = chage_area2score(city_l, max_len=len(text))
            district_l = chage_area2score(district_l, max_len=len(text))

            pro_ids = dict()
            city_ids = dict()
            dis_ids = dict()
            for pro in province_l:
                name, score = pro
                assert (name in full_dic['province'] or name in short_dic['province'])
                if name in full_dic['province']:
                    idx = full_dic['province'][name]
                    if idx not in pro_ids:
                        pro_ids[idx] = 0
                    pro_ids[idx] += (score + 1)
                else:
                    idx = short_dic['province'][name]
                    if idx not in pro_ids:
                        pro_ids[idx] = 0
                    pro_ids[idx] += (score + 0)

            for city in city_l:
                name, score = city
                if name in full_dic['city']:
                    w = 0.1 if len(full_dic['city'][name]) > 1 else 1
                    for idx in full_dic['city'][name]:
                        if idx not in city_ids:
                            city_ids[idx] = 0
                        # weight = idx_dic[idx]['权重']
                        city_ids[idx] += (score + 2) * w

                        pro_idx = idx_dic[idx]['省']
                        if pro_idx in pro_ids:
                            pro_ids[pro_idx] += (score + 2) * w
                        else:
                            pro_ids[pro_idx] = (score + 2) * w * 0.5
                elif name in short_dic['city']:
                    w = 0.1 if len(short_dic['city'][name]) > 1 else 1
                    for idx in short_dic['city'][name]:
                        if idx not in city_ids:
                            city_ids[idx] = 0
                        weight = idx_dic[idx]['权重']
                        city_ids[idx] += (score + 1) * w * weight

                        pro_idx = idx_dic[idx]['省']
                        if pro_idx in pro_ids:
                            pro_ids[pro_idx] += (score + 1) * w * weight
                        else:
                            pro_ids[pro_idx] = (score + 1) * w * weight * 0.5

            for dis in district_l:
                name, score = dis
                if name in full_dic['district']:
                    w = 0.1 if len(full_dic['district'][name]) > 1 else 1
                    for idx in full_dic['district'][name]:
                        if idx not in dis_ids:
                            dis_ids[idx] = 0
                        # weight = idx_dic[idx]['权重']
                        dis_ids[idx] += (score + 1) * w

                        pro_idx = idx_dic[idx]['省']
                        if pro_idx in pro_ids:
                            pro_ids[pro_idx] += (score + 1) * w
                        else:
                            pro_ids[pro_idx] = (score + 1) * w * 0.5
                        city_idx = idx_dic[idx]['市']
                        if city_idx in city_ids:
                            city_ids[city_idx] += (score + 1) * w
                        else:
                            city_ids[city_idx] = (score + 1) * w * 0.5
                elif name in short_dic['district']:
                    w = 0.1 if len(short_dic['district'][name]) > 1 else 1
                    for idx in short_dic['district'][name]:
                        if idx not in dis_ids:
                            dis_ids[idx] = 0
                        weight = idx_dic[idx]['权重']
                        dis_ids[idx] += (score + 0) * w
                        if idx_dic[idx]['市'] not in city_ids and idx_dic[idx]['省'] not in pro_ids: # 20241111 区县简称不在获取到的省、市范围内的过滤掉
                            continue
                        pro_idx = idx_dic[idx]['省']
                        if pro_idx in pro_ids:
                            pro_ids[pro_idx] += (score + 0) * w * weight
                        # else: # 20241015 注销 区县简称且不在提取的省市下面，不加分，避免提取错误 例：536550843
                        #     pro_ids[pro_idx] = (score + 0) * w * weight * 0.5
                        city_idx = idx_dic[idx]['市']
                        if city_idx in city_ids:
                            city_ids[city_idx] += (score + 0) * w * weight
                        # else: # 20241015 注销 区县简称且不在提取的省市下面，不加分，避免提取错误 例：536550843
                        #     city_ids[city_idx] = (score + 0) * w * weight * 0.1
                        elif pro_idx in pro_ids:
                            city_ids[city_idx] = (score + 0) * w * weight * 0.1

            for k, v in pro_ids.items():
                pro_ids[k] = v * text_weight
            for k, v in city_ids.items():
                city_ids[k] = v * text_weight
            for k, v in dis_ids.items():
                dis_ids[k] = v * text_weight
            return pro_ids, city_ids, dis_ids

        area_dic = {'area': '全国', 'province': '全国', 'city': '未知', 'district': '未知', "is_in_text": False}

        pro_ids, city_ids, dis_ids = get_pro_city_dis_score(text)
        pro_ids1, city_ids1, dis_ids1 = get_pro_city_dis_score(web_name, text_weight=0.01) # 20240422 修改为站源名称只取前三字，避免类似 459056219 中金岭南阳光采购平台 错提取阳光
        for k in pro_ids1:
            if k in pro_ids:
                pro_ids[k] += pro_ids1[k]
            else:
                pro_ids[k] = pro_ids1[k]
        for k in city_ids1:
            if k in city_ids:
                city_ids[k] += city_ids1[k]
            else:
                city_ids[k] = city_ids1[k]
        for k in dis_ids1:
            if k in dis_ids:
                dis_ids[k] += dis_ids1[k]
            else:
                dis_ids[k] = dis_ids1[k]

        big_area, pred_pro, pred_city, pred_dis = get_final_addr(pro_ids, city_ids, dis_ids)
        if big_area != "":
            area_dic['area'] = big_area
        if pred_pro != "":
            area_dic['province'] = pred_pro
        if pred_city !=  "":
            area_dic['city'] = pred_city
        if pred_dis != "":
            area_dic['district'] = pred_dis
        if in_content:
            area_dic['is_in_text'] = True

        return {'district': area_dic}

    def predict(self, project_name, prem, title, list_articles, web_source_name = "", list_entitys=""):
        '''
        先匹配 project_name+tenderee+tenderee_address， 如果缺少省或市 再匹配 title+content
        :param project_name:
        :param prem:
        :param title:
        :param list_articles:
        :param web_source_name:
        :return:
        '''

        def get_ree_addr(prem):
            tenderee = ""
            tenderee_address = ""
            try:
                for v in prem[0]['prem'].values():
                    for link in v['roleList']:
                        if link['role_name'] == 'tenderee' and tenderee == "":
                            tenderee = link['role_text']
                            tenderee_address = link['address']
            except Exception as e:
                print('解析prem 获取招标人、及地址出错')
            return tenderee, tenderee_address

        def get_role_address(text):
            '''正则匹配获取招标人地址
               3：地址直接在招标人后面 招标人：xxx,地址：xxx
               4：招标、代理一起，两个地址一起 招标人：xxx， 代理人：xxx, 地址：xxx， 地址：xxx.
            '''
            p3 = '(招标|采购|甲)(人|方|单位)(信息：|（甲方）)?(名称)?：[\w（）]{4,15}，(联系)?地址：(?P<addr>(\w{1,13}(自治[区州县旗]|地区|[省市区县旗盟])[^\w]*)+|\w{2,15}[，。])'
            p4 = '(招标|采购|甲)(人|方|单位)(信息：|（甲方）)?(名称)?：[\w（）]{4,15}，(招标|采购)?代理(人|机构)(名称)?：[\w（）]{4,15}，(联系)?地址：(?P<addr>(\w{1,13}(自治[区州县旗]|地区|[省市区县旗盟])[^\w]*)+|\w{2,15}[，。])'
            p5 = '(采购|招标)(人|单位)(联系)?地址：(?P<addr>(\w{1,13}(自治[区州县旗]|地区|[省市区县旗盟])[^\w]*)+|\w{2,15}[，。])'
            if re.search(p3, text):
                return re.search(p3, text).group('addr')
            elif re.search(p4, text):
                return re.search(p4, text).group('addr')
            elif re.search(p5, text):
                return re.search(p5, text).group('addr')
            else:
                return ''

        def get_project_addr(text):
            p1 = '(项目|施工|实施|建设|工程|服务|交货|送货|收货|展示|看样|拍卖)(地址|地点|位置|所在地区?)(位于)?：(?P<addr>(\w{1,13}(自治[区州县旗]|地区|[省市区县旗盟])[^\w]*)+([\w（）]{,20}[，。])?|\w{2,15}[，。])'
            p2 = '项目位于(?P<addr>\w{2}市\w{2,4}区)'
            if re.search(p1, text):
                return re.search(p1, text).group('addr')
            elif re.search(p2, text):
                return re.search(p2, text).group('addr')
            else:
                return ''

        def get_bid_addr(text):
            p2 = '(磋商|谈判|开标|投标|评标|报名|递交|评审|发售|所属)(地址|地点|所在地区?|地域)：(?P<addr>(\w{1,13}(自治[区州县旗]|地区|[省市区县旗盟])[^\w]*)+|\w{2,15}[，。])'
            if re.search(p2, text):
                return re.search(p2, text).group('addr')
            else:
                return ''

        def get_all_addr(list_entitys):
            tenderee_l = []
            addr_l = []
            for ent in list_entitys[0]:
                if ent.entity_type == 'location' and len(ent.entity_text) > 2:
                    addr_l.append(ent.entity_text)
                elif ent.entity_type in ['org', 'company']:
                    if ent.label in [0, 1]:  # 加招标或代理
                        tenderee_l.append(ent.entity_text)
            return ' '.join(addr_l), ' '.join(tenderee_l)

        def get_title_addr(text):
            p1 = '(?P<addr>(\w{1,13}(自治[区州县旗]|地区|[省市区县旗盟])[^\w]*)+|\w{2,15}[，。])'
            if re.search(p1, text):
                return re.search(p1, text).group('addr')
            else:
                return ''

        if '##attachment##' in list_articles[0].content:
            content, attachment = list_articles[0].content.split('##attachment##')
            if len(content) < 200:
                content += attachment
        else:
            content = list_articles[0].content

        tenderee, tenderee_address = get_ree_addr(prem)
        msc = ""
        pro_addr = get_project_addr(content)
        if pro_addr != "" and re.search('(采购人|招标人)?指定地点', pro_addr)==None: # 排除错误项目地址 例：554024168 1.5服务地点：采购人指定地点。
            msc += '使用规则提取的项目地址；'
            tenderee_address = pro_addr
        else:
            role_addr = get_role_address(content)
            if role_addr != "" and re.search('(采购人|招标人)?指定地点', role_addr)==None:
                msc += '使用规则提取的联系人地址；'
                tenderee_address = role_addr

        if tenderee_address == "":
            title_addr = get_title_addr(title)
            if title_addr != "":
                msc += '使用规则提取的标题地址；'
                tenderee_address = title_addr
            else:
                bid_addr = get_bid_addr(content)
                if bid_addr != "":
                    msc += '使用规则提取的开标地址；'
                    tenderee_address = bid_addr

        project_name = str(project_name)
        tenderee = str(tenderee)

        # print('招标人地址',role_addr, tenderee_address)

        project_name = project_name + title if project_name not in title else title
        # project_name = project_name.replace(tenderee, '')
        if len(project_name)>3:
            entity_list = getNers([project_name],useselffool=False) # 2024/4/26 修改为去重项目名称中所有公司名称
            for tup in entity_list[0]:
                if tup[2] in ['org', 'company']:
                    project_name = project_name.replace(tup[3], '')

        text1 = "{0} {1} {2}".format(tenderee, tenderee_address, project_name)

        web_source_name = str(web_source_name)  # 修复某些不是字符串类型造成报错
        text1 = re.sub('复合肥|铁路|公路|新会计', ' ', text1)  # 预防提取错 合肥 路南 新会 等地区

        if pro_addr and re.search('\w{2,}([市县旗盟]|自治[区州县旗])', pro_addr):
            if re.search('[市县旗盟]', pro_addr)==None: # 修复 486623506 项目地址不完整
                pro_addr = text1 + ' '+ pro_addr
            msc += '## 使用项目地址输入：%s ##；' % pro_addr
            rs = self.get_area(pro_addr, '')
            msc += '预测结果：省份：%s， 城市：%s，区县：%s；' % (
                rs['district']['province'], rs['district']['city'], rs['district']['district'])
            if rs['district']['province'] != '全国' and rs['district']['city'] != '未知':
                # print('地区匹配：', msc)
                return rs

        # print('text1:', text1)
        msc += '## 第一次预测输入：%s ##；' % text1
        rs = self.get_area(text1, '')  # 2024/4/22 调整第一次输入不带站源名称，避免出错
        msc += '预测结果：省份：%s， 城市：%s，区县：%s；' % (
            rs['district']['province'], rs['district']['city'], rs['district']['district'])
        # self.f.write('%s %s \n' % (list_articles[0].id, msc))
        # print('地区匹配：', msc)
        if rs['district']['province'] == '全国' or rs['district']['city'] == '未知':
            # msc = ""
            all_addr, tenderees = get_all_addr(list_entitys)
            text2 = tenderees + " " + all_addr + ' ' + title
            msc += '使用实体列表所有招标人+所有地址；'
            # text2 += title + content if len(content)<2000 else title + content[:1000] + content[-1000:]
            text2 = re.sub('复合肥|铁路|公路|新会计', ' ', text2)
            # print('text2:', text2)
            msc += '## 第二次预测输入：%s %s##' % (text2,web_source_name)
            rs2 = self.get_area(text2, web_source_name, in_content=True)
            # rs2['district']['is_in_text'] = True
            if rs['district']['province'] == '全国' and rs2['district']['province'] != '全国':
                rs = rs2
            elif rs['district']['province'] == rs2['district']['province'] and rs2['district']['city'] != '未知':
                rs = rs2
            msc += '预测结果：省份：%s， 城市：%s，区县：%s' % (
                rs['district']['province'], rs['district']['city'], rs['district']['district'])
        # self.f.write('%s %s \n'%(list_articles[0].id, msc))
        # print('地区匹配：', msc)
        return rs

class TableTag2List():
    '''把soup table 转化为表格补全后的文本列表[[td, td, td], [td, td, td]]'''
    def table2list(self, table, text_process=None, return_html_table=False,return_kv=False):
        '''
        表格补全及把表格内容列表返回
        :param table:
        :param text_process: 预处理方法，segment(),不为None 时把td内容做预处理，结果返回加标签，适配表头识别 [[[text, 0], [text, 0]] ], 否则只返回文本[[text, text], [text, text]]
        :param return_html_table:
        :param return_kv:
        :return:
        '''
        self._output = []
        row_ind = 0
        col_ind = 0
        html_table = []
        for row in table.find_all('tr'):
            # record the smallest row_span, so that we know how many rows
            # we should skip
            smallest_row_span = 1

            if len(row.find_all(['td', 'th'], recursive=False)) > 20:
                log('未补全前表格列数大于20的不做表格处理')
                if return_html_table:
                    return [], []
                return []

            for cell in row.children:
                if cell.name in ('td', 'th'):
                    # check multiple rows
                    # pdb.set_trace()
                    row_span = int(re.sub('[^0-9]', '', cell.get('rowspan'))) if cell.get('rowspan') and cell.get('rowspan').isdigit() else 1

                    # try updating smallest_row_span
                    smallest_row_span = min(smallest_row_span, row_span)

                    # check multiple columns
                    col_span = int(re.sub('[^0-9]', '', cell.get('colspan'))) if cell.get('colspan') and cell.get('colspan').isdigit() else 1
                    if col_span > 20: # 修复 335590254 山东港口阳光智采e平台 数据源表格第一行colspan为200超过50列造成无法提取问题
                        col_span = 20

                    # find the right index
                    while True:
                        if self._check_cell_validity(row_ind, col_ind):
                            break
                        col_ind += 1

                    # insert into self._output
                    try:
                        if text_process != None:
                            # text = [re.sub('\xa0', '', text_process(cell, final=False)), 0]
                            # td_text = re.sub('\xa0', '', text_process(cell, final=False))
                            td_text = re.sub('\s|\xa0', '', str(cell.get_text()))  # 修复 370835008 td 内公司被p标签拆分为两半情况
                            if 'title' in cell.attrs and cell.get_text().strip().endswith('...') and cell.get_text().strip()[:-3] in cell.attrs['title']:
                                td_text = cell.attrs['title']  # 修复 类似 215597851 省略号隐藏内容
                            elif len(td_text)>30:
                                if return_kv:
                                    td_text = cell.get_text().strip()
                                else:
                                    td_text = re.sub('\xa0', '', text_process(cell, final=False))
                            if td_text == "":
                                td_text = ' '
                            text = [td_text,0]
                        else:
                            if return_kv:
                                td_text = cell.get_text().strip()
                            else:
                                td_text = str(cell.get_text()).strip().replace("\x06", "").replace("\x05", "").replace("\x07", "").replace('\\', '').replace("(", "（").replace(')', '）').replace('?', '').replace('&nbsp', '')
                            text = td_text

                            # text = str(cell.get_text()).strip().replace("\x06", "").replace("\x05", "").replace("\x07", "").replace('\\', '').replace("(", "（").replace(')', '）').replace('?', '')
                            # # text = re.sub('\s', '', text)[:200] # 只需取前200字即可
                            # text = ' ' if text == "" else text

                        self._insert(row_ind, col_ind, row_span, col_span, text)
                        if return_html_table:
                            html_table = self._insert_new(row_ind, col_ind, row_span, col_span, str(cell), html_table)
                    except UnicodeEncodeError:
                        raise Exception( 'Failed to decode text; you might want to specify kwargs transformer=unicode' )

                    # update col_ind
                    col_ind += col_span
                    if col_ind > 50 and text_process == None: # 表格要素提取及候选人提取的 表格列数大于50的去掉
                        if return_html_table:
                            return [], []
                        return []

            # update row_ind
            row_ind += smallest_row_span
            col_ind = 0
        if return_html_table:
            temp_list = []
            for row in self._output:
                if len(row) > 0:
                    temp_list.append(row)
            self._output =  temp_list
            temp_list = []
            for row in html_table:
                if len(row) > 0:
                    temp_list.append(row)
            html_table = temp_list
            return self._output, html_table
        else:
            return self._output

    def _check_validity(self, i, j, height, width):
        """
        check if a rectangle (i, j, height, width) can be put into self.output
        """
        return all(self._check_cell_validity(ii, jj) for ii in range(i, i+height) for jj in range(j, j+width))

    def _check_cell_validity(self, i, j):
        """
        check if a cell (i, j) can be put into self._output
        """
        if i >= len(self._output):
            return True
        if j >= len(self._output[i]):
            return True
        if self._output[i][j] == "":
            return True
        return False

    def _insert(self, i, j, height, width, val):
        # pdb.set_trace()
        for ii in range(i, i+height):
            for jj in range(j, j+width):
                self._insert_cell(ii, jj, val)

    def _insert_cell(self, i, j, val):
        while i >= len(self._output):
            self._output.append([])
        while j >= len(self._output[i]):
            self._output[i].append("")

        if self._output[i][j] == "":
            self._output[i][j] = val

    def _insert_new(self, i, j, height, width, val, cell_list):
        # pdb.set_trace()
        for ii in range(i, i+height):
            for jj in range(j, j+width):
                cell_list = self._insert_cell_new(ii, jj, val, cell_list)
        return cell_list

    def _insert_cell_new(self, i, j, val, cell_list):
        while i >= len(cell_list):
            cell_list.append([])
        while j >= len(cell_list[i]):
            cell_list[i].append("")

        if cell_list[i][j] == "":
            cell_list[i][j] = val
        return cell_list


def is_head_line(list_item):
    '''
    调用表头识别模型判断是否为表头行
    :param list_item: 行内容 例： ['技术参数、要求', '变更项']
    :return:
    '''
    x = []
    for item in list_item:
        x.append(getPredictor("form").encode(item))
    predict_y = getPredictor("form").predict(np.array(x), type="item")
    count = 0
    for item, values in zip(list_item, list(predict_y)):
        if values[1] > 0.6:
            count += 1
    if count/len(list_item)>0.6:
        return True
    return False

class TablePremExtractor(object):
    def __init__(self):
        '''各要素表头规则'''
        self.head_rule_dic = {
            'project_code': "(项目|招标|采购|计划|公告|包[段组件]|标[段包的]|标段（包）|分[包标])(编号|编码|代码)",
            'package_code': "(包[段组件]|标[段包]|分[包标])(序?号|$)|包号|^标段$|^品目$",
            "project_name": "(包[段组件]|标[段包的项]|标段（包）|分[包标]|采购|项目|工程|货物|商品|产品|设备|通用|主要标的|^包)(名称?|内容)",
            "win_sort": "排名|排序|名次|推荐顺序",
            'win_or_not': '是否(建议|推荐)?(中标|成交|中选)|是否入围|是否入库|入围结论|未(中标|成交)原因|中标情况|^中标结果$',
            "tenderer": "(中标|中选|中价|成交|供货|承包|承建|承租|竞得|受让)(候选)?(人|单位|供应商|公司|企业|厂家|商家?|客户|供?方|银行)(名称|$)|^(拟定|单一来源|邀请|拟?推荐(入选|入围)?)?供应商(名称)?$",
            "tenderee": "(项目|采购|招标|遴选|寻源|竞价|议价|比选|委托|询比?价|比价|评选|谈判|邀标|邀请|洽谈|约谈|选取|抽取|抽选)(人|公司|单位|组织|用户|业主|主体|方|部门)(名称|$)",
            "budget": "最高(投标)?限价|总价限价|控制(价格?|金额|总价)|(总价|采购)限价|上限价|拦标价|(采购|招标|项目)?预算|(预算|招标|采购|计划)金额|挂牌价",
            "bid_amount": "投标[报总]?价|报价(总?金额|总价|总额)|总报价|^\w{,5}报价(（[\w、/]{1,15}）)?$|(中标|成交|合同)）?总?(金?额|[报均总]价|价[格款]?)|承包价|含税价|经评审的价格|中标存款金?额|中标资金|中标存款|存放金额|分配额度",
            "serviceTime": '合同期限|工期/交货期/服务期|工期\(交货期\)|合格工期|服务期限|工期' \
                 '|工期要求|项目周期|工期\(交货期\)|计划工期\(服务期限\)|服务时限|履行期限|服务周期|供货期限' \
                 '|合格工期|计划工期\(服务期\)|服务期|服务，期|交货\(完工\)时间|交付\(服务、完工\)时间' \
                 '|交货时间|保洁期限|维保期|管理年限|工期承诺|(服务|合同|施工|实施|工程|设计)的?(年限|期限|周期|期：)' \
                 '|计划工期|工期要求|服务期限?' \
                 '|投标工期|设计工期|合格服务周期|总工期|服务时间(范围)?|流转期限|维护期限|服务时限|交货期' \
                 '|完成时间|中标工期|项目周期|期限要求|周期|供货期|合同的?履行日期|计划周期' \
                 '|履约期限|合同的?约定完成时限|合同的?完成日期|承诺完成日期' \
                 '|合同起始日起|合同的?履约期|履约截止日期|承包期限|合同的?完成日期|特许经营期限' \
                 '|服务期间|服务履行期|委托(管理)?期限|经营期限|数量' \
                 '|(工期|服务期限?|交货期限?|服务履行期|合同期限?|履[行约]期限?)说明|存款期限?|(存款|存放|定存)(期|年)限' \
                 '|服务(有效期|年限)|本?合同有效期|协议有效期|项目期限'
        }

        with open(os.path.dirname(__file__)+'/header_set.pkl', 'rb') as f:
            self.headerset = pickle.load(f)

        self.tb = TableTag2List()


    def find_header(self, td_list, all_winner=False, first_line=False):
        fix_td_list = [re.sub('[:：]$|^[一二三四五六七八九十0-9]{1,3}、|(（[\w、×*/]{1,20}）)$|（不?含税）|/万?元|拟|\s', '', it) for it in td_list]  # 去除表头无关信息，方便匹配判断是否为表头
        header_dic = dict()
        flag = False
        contain_header = False
        not_sure_winner = False  # 是否 不确定中标的中标人表达方式
        for text in set(fix_td_list) - self.headerset:
            if len(text)<10 and re.search(self.head_rule_dic['bid_amount'], text):
                self.headerset.add(text)
        if len(set(fix_td_list))>0 and (first_line or len(set(fix_td_list) & self.headerset)>=2) and (len(set(fix_td_list) & self.headerset)/len(set(fix_td_list))>=0.6 or is_head_line(fix_td_list)):
            other_tenderer = ""
            other_tenderer2 = ""
            flag = True
            for i in range(len(td_list)) :
                text = td_list[i]
                text = re.sub('\s|[（(]排名不分先后[)）]', '', text)
                text = re.sub('排名价', '', text) # 20241225 修复 252208201 排名价（元）错误为排名
                text = re.sub('^人选', '入选', text)
                if text == '备选中标人':
                    text = '第二候选人'
                if len(re.sub('(（[\w、×*/]{1,20}）)$', '', text)) > 15: # 长度大于15 不进行表头匹配
                    continue
                if re.search('未(中标|成交|中选|入围)原因', text):  # 不提取此种表格
                    return flag, contain_header, dict(), not_sure_winner
                num = 0
                for k, v in self.head_rule_dic.items():
                    if re.search('评分|得分|分数|分值', text):
                        continue
                    if re.search(v, text):
                        if k in ['tenderer'] and re.search('是否', text):
                            continue
                        if k == 'budget' and re.search('量', text): # 预算工作量 预算采购量 等不作为预算
                            continue
                        elif k == 'bid_amount' and re.search('分配方案|基准利率|BP值', text): # 517987084 中标资金分配方案
                            continue
                        elif k in header_dic:
                            if k in ['budget', 'bid_amount'] and re.search('总(价|金?额)', text):  # 总价替换单价
                                header_dic[k] = (i, text)
                                num += 1
                            elif k == 'project_code' and text != header_dic[k][1] and 'package_code' not in header_dic\
                                    and re.search(self.head_rule_dic['package_code'], re.sub('\s', '', '，'.join(td_list)))==None: # 如果出现两次项目编号且没有包号，把第二次出现的作为包号 例：472537470
                                header_dic['package_code'] = (i, text)
                            continue
                        header_dic[k] = (i, text)
                        num += 1
                    elif re.search('^((中标|成交|中选|入围|入选)(候选)?)(人|单位|机构|中介(服务)?机构|供应商|客户|方|公司|厂商|商家?|社会资本方?|银行)(名称)?$', text) and re.search('未', text)==None:
                        other_tenderer = (i, text)
                    elif re.search('^((投标|应答|响应|候选)(人|单位|机构|中介(服务)?机构|供应商|客户|方|公司|厂商|商家?|社会资本方?|银行)|(存款|投标)?银行|供应商)(名称)?$|^机构名称$|^单位(名称)?$', text) and re.search('未', text)==None:
                        other_tenderer2 = (i, text)
                if num>1:
                    if re.search(self.head_rule_dic['project_code'], text) and re.search(self.head_rule_dic['package_code'], text): # 修复 528486798 分标编号-包号
                        continue
                    # print('表头错误，一个td匹配到两个表头：', header_dic)
                    return flag, contain_header, dict(), not_sure_winner
                if text == '单位': # 20241128 补充金额单位
                    header_dic['amount_unit'] = (i, text)
            if re.search('；金额(（万?元）)?；', '；'.join(td_list)):  # 召回某些表格只写 金额 作为表头，不能识别为招标或中标金额
                if 'tenderer' in header_dic and 'bid_amount' not in header_dic:
                    for i in range(len(td_list)):
                        text = td_list[i]
                        if  re.search('^金额(（万?元）)?$',text):
                            header_dic['bid_amount'] = (i, text)
                            break
                elif 'tenderee' in header_dic and 'budget' not in header_dic:
                    for i in range(len(td_list)):
                        text = td_list[i]
                        if re.search('^金额(（万?元）)?$', text):
                            header_dic['budget'] = (i, text)
                            break
            if all_winner == 1 and 'tenderer' not in header_dic: # 标题有存款、入库、入围等公告补充其他表达做中标人
                if other_tenderer!="":
                    header_dic['tenderer'] = other_tenderer
                elif other_tenderer2!="":
                    header_dic['tenderer'] = other_tenderer2
                    if 'win_sort' not in header_dic:
                        not_sure_winner = True
            elif 'tenderer' not in header_dic and 'win_or_not' in header_dic:
                if other_tenderer!="":
                    header_dic['tenderer'] = other_tenderer
                elif other_tenderer2!="":
                    header_dic['tenderer'] = other_tenderer2
            if all_winner == 1 and 'win_sort' in header_dic: # 标题有存管类公告不分排名
                header_dic.pop('win_sort')
            if ('project_code' in header_dic or 'package_code' in header_dic or 'project_name' in header_dic) and (
                     'tenderer' in header_dic or'budget' in header_dic): # 包含标段及招标金额或中标人的进行提取
                return flag, contain_header, header_dic, not_sure_winner
            elif ('tenderer' in header_dic) and ('bid_amount' in header_dic): # 包含中标人及中标金额的进行提取
                if 'win_sort' in header_dic: # 有排名的 用候选人提取类
                    return flag, contain_header, dict(), not_sure_winner
                elif re.search('^(候选)?供应商(名称)?', header_dic['tenderer'][1]) and 'win_or_not' not in header_dic and re.search('(中标|成交|合同)）?总?(金?额|[报均总]价|价[格款]?)', header_dic['bid_amount'][1])==None:  # 只有供应商名称 没排名和包号的去掉，预防错误包提取 334205629
                    # print('只有供应商名称 没排名和包号的去掉')
                    return flag, contain_header, dict(), not_sure_winner
                return flag,contain_header, header_dic, not_sure_winner
            elif 'tenderer' in header_dic and (re.search('(中标|中选|中价|成交|竞得)(人|单位|供应商|公司|企业|厂家|商家?|客户|供?方|银行)',header_dic['tenderer'][1]) or all_winner): # 有中标人，且有明确中标关键词的进行提取
                return flag, contain_header, header_dic, not_sure_winner
            # elif 'tenderer' in header_dic and 'serviceTime' in header_dic:
            #     return flag, contain_header, header_dic, not_sure_winner
        elif len(set(fix_td_list) & self.headerset) >= 2 or (len(set(fix_td_list)) == 2 and len(set(td_list) & self.headerset) >= 1): # 如果包含两个表头以上或 只有两列且包含一个表头
            contain_header = True
        return flag, contain_header, dict(), not_sure_winner

    def extract_from_df(self, df, headers, web_source_name, all_winner=False):
        prem_dic = {}
        previous_package = ""  # 上一行包号
        multi_same_package = False # 非连续的重复包号
        package_fix2raw = dict()  # 处理后包号：处理前包号 字典
        link_set = set()
        tenderer_list = [] # 保存所有中标人
        serviceTime_list = []
        not_package = True if 'project_name' in headers and re.search('(货物|商品|产品|通用|主要标的)(名称?|内容)', headers['project_name'][1]) and \
                          'package_code' not in headers and 'budget' not in headers and "bid_amount" not in headers else False

        if set(['project_code', 'package_code', 'tenderee', 'tenderer']) & set(headers) == set() and ('project_name' not in headers # 补充没有项目名称或有项目名称且是货物的才过滤掉
            or re.search('(货物|商品|产品|设备|通用|主要标的)(名称?|内容)', headers['project_name'][1])): # 20240131修复只有货物名称及最高限价的错误作为多包 396636683；  补充避免423647863采购意向被过滤
            # print('没有包号及角色的不要')
            return {}
        have_bid_amount = False # 是否包含中标金额
        if "bid_amount" in headers and re.search('[1-9]+', '#'.join([it.strip() for it in df[headers['bid_amount'][0]]])):
            have_bid_amount = True
        for i in df.index:
            same_package = False  # 连续重复包号，一般是 rowspan 造成；一包 多个采购
            project_code = df.loc[i, headers['project_code'][0]].strip() if "project_code" in headers else ""
            package_code_raw = df.loc[i, headers['package_code'][0]].strip() if "package_code" in headers else ""
            project_name = df.loc[i, headers['project_name'][0]].strip() if "project_name" in headers else ""
            tenderee = df.loc[i, headers['tenderee'][0]].strip() if "tenderee" in headers else ""
            tenderer = df.loc[i, headers['tenderer'][0]].strip() if "tenderer" in headers else ""
            budget_ = df.loc[i, headers['budget'][0]].strip() if "budget" in headers else ""
            bid_amount_ = df.loc[i, headers['bid_amount'][0]].strip() if "bid_amount" in headers else ""
            win_sort = df.loc[i, headers['win_sort'][0]].strip() if "win_sort" in headers else ""
            win_or_not = df.loc[i, headers['win_or_not'][0]].strip() if "win_or_not" in headers else ""
            serviceTime = df.loc[i, headers['serviceTime'][0]].strip() if "serviceTime" in headers else ""
            amount_unit = df.loc[i, headers['amount_unit'][0]].strip() if "amount_unit" in headers else ""

            if set([project_code, package_code_raw, project_name,tenderee,tenderer,budget_,bid_amount_]) & self.headerset != set(): # 只要有一项为表头 停止匹配
                # print('只要有一项为表头 停止匹配', set([project_code, package_code_raw, project_name,tenderee,tenderer,budget_,bid_amount_,win_sort]) & self.headerset)
                break
            if len(set([project_code, package_code_raw, project_name,tenderee,tenderer,budget_,bid_amount_,win_sort])- set(['', ' '])) < 2 and tenderer=='':  # 内容为空或全部一样 停止匹配
                # print('内容为空或全部一样 停止匹配')
                break
            if re.search('详见', project_name):  # 去除某些表达： 详见招标文件
                project_name = ""
            if package_code_raw == "" and re.search('第?[0-9一二三四五六七八九十a-zA-Z]{1,4}(标[段号的包项]|([分子]?包|包[组件号]))$|^(标[段号的包项]|([分子]?包|包[组件号]))号?：?[0-9一二三四五六七八九十a-zA-Z]{1,4}$', project_name):
                package_code_raw = project_name
                project_name = ""

            package_code = package_code_raw
            if re.search('合计|总计', package_code+project_code+project_name):
                continue
            if package_code + project_code == previous_package:  # 处理 208162730 一个包采购多种东西情况
                same_package = True
                if previous_package!="": # 有包号或项目编号且跟上一行相同时，去除项目名称
                    project_name = ''
            previous_package = package_code + project_code
            if win_sort != "" and re.search('排名|排序|名次|推荐顺序', headers['win_sort'][1]): # 此类型表由 CandidateExtractor类提取  防止类似 328485591 作为多包
                break
            if win_or_not != "" and (re.search('(建议|推荐)(中标|成交|中选)|是|^(中标|成交|中选)', win_or_not)==None or re.search('\w', win_or_not)==None): # 2024/04/2 修复 252208201 为空的不中标
                continue
            elif 'win_or_not' in headers and win_or_not == '': # 2024/12/25 修复 334753545 中标情况为空的不中标
                continue
            if "win_sort" in headers and win_sort == "": # '表头有是否中标，内容却空白的，过滤掉'
                continue
            if win_sort == "" and "tenderer" in headers and re.search('候选|入围|入选', headers['tenderer'][1]) and re.search('推荐的?((中标|成交|中选)候选人|(候选|入围|入选)供应商)', headers['tenderer'][1])==None and all_winner == False:
                tenderer = ""

            if tenderer in ['采购失败', '废标']: # 避免类似 353867205 这篇只提取到一个
                continue
            # tenderee = tenderee if self.is_role(tenderee) else ""
            # tenderer = tenderer if self.is_role(tenderer) else ""

            package = uniform_package_name(package_code) if package_code else '自增1' # 没有包号的自动编号的修改为提取到多少个包，某些行未必中标
            if project_name != "" and package.startswith('自增'):
                pk_l = find_package(project_name)
                if len(pk_l)==1:
                    package = uniform_package_name(pk_l[0].group(0))
            elif re.search('[一二三四五六七八九十]+标段：|标段[一二三四五六七八九十]+：', tenderer) and package.startswith('自增'):
                pk_l = find_package(tenderer)
                if len(pk_l) == 1:
                    package = uniform_package_name(pk_l[0].group(0))

            tenderee = get_role(tenderee, self.nlp_enterprise) if tenderee!="" else tenderee
            tenderer = get_role(tenderer, self.nlp_enterprise) if tenderer!='' else tenderer
            tenderee = cut_repeat_name(tenderee)
            tenderer = cut_repeat_name(tenderer)

            if len(set([project_code, package_code, project_name, tenderee, tenderer, budget_, bid_amount_])) < 2:
                break
            if not_package:
                if (project_code, package_code, tenderee, tenderer, budget_, bid_amount_) in link_set:
                    continue
                link_set.add((project_code, package_code, tenderee, tenderer, budget_, bid_amount_))
            else:
                if (project_code, package_code, project_name, tenderee, tenderer, budget_, bid_amount_) in link_set:
                    continue
                link_set.add((project_code, package_code, project_name, tenderee, tenderer, budget_, bid_amount_))

            if project_code != "":
                uni_project_code= uniform_package_name(project_code)
                if uni_project_code != "" and uni_project_code!=package:
                    if package.startswith('自增'): # 没有包号有项目编号的，直接用项目编号
                        package = uni_project_code
                    else:
                        # print('重组包号：', '%s_%s'%(uni_project_code, package))
                        package = '%s_%s'%(uni_project_code, package) # 同时包号项目编号及包号的，组合起来做包号
            if package_code_raw!='':
                if multi_same_package == False and package not in package_fix2raw: # 如果处理后的标段号 已经在列表里面，采用原始标段号文本
                    package_fix2raw[package] = package_code_raw
                elif same_package == False:
                    multi_same_package = True
                if multi_same_package:
                    package = package_code_raw
            if package not in prem_dic or not same_package:
                prem_dic[package] = {
                    'code': '',
                    'name': '',
                    'roleList': [],
                    'tendereeMoney': 0,
                    'tendereeMoneyUnit': ""
                }

            prem_dic[package]['code'] = project_code
            prem_dic[package]['name'] = project_name

            if budget_ != "":
                if len(re.sub('[金额万元（）():：零壹贰叁肆伍陆柒捌玖拾佰仟萬億圆十百千万亿元角分￥整\s\d,.]|人民币|不?含税|(六个月|一年|\w{2,3})期加点\d+BP', '', budget_)) > 5:  # 金额字段出现超过5个非金额字符，中断匹配
                    prem_dic.pop(package)
                    break
                budget_header = headers['budget'][1] if 'budget' in headers else ''
                if amount_unit!='' and re.search('^[万亿]?元|%|折[\w/]{,6}$', amount_unit) and re.search('元', budget_+budget_header)==None : # 20241128 补充某些表格价格单位分开两列， 例：557953660
                    budget_ += amount_unit
                budget, money_unit = money_process(budget_, budget_header) if re.search('[%％‰折]|浮率|期加点\d+BP', budget_)==None else (0, '')
                if re.search('元[/每]', amount_unit) or re.search('单价', budget_header):
                    unit_tendereeMoney = budget
                    budget = 0
                else:
                    unit_tendereeMoney = 0

                if (re.search('费率|下浮率|[%％‰折]|优惠率',
                              budget_header + budget_) and budget < 100) or budget > 50000000000:  # 如果是费率或大于500亿的金额改为0
                    budget = 0
                if budget > 0:
                    if same_package and prem_dic[package]['tendereeMoney'] != budget: # 处理 类似 136839070 一包多物品多预算
                        prem_dic[package]['tendereeMoney'] += budget
                    else:
                        prem_dic[package]['tendereeMoney'] = budget
                    prem_dic[package]['tendereeMoneyUnit'] = money_unit
                if unit_tendereeMoney > 0:
                    if 'unit_tendereeMoney' not in prem_dic[package]:
                        prem_dic[package]['unit_tendereeMoney'] = 0
                    if same_package and prem_dic[package]['unit_tendereeMoney'] != unit_tendereeMoney:  # 处理 类似 136839070 一包多物品多预算
                        prem_dic[package]['unit_tendereeMoney'] += unit_tendereeMoney
                    else:
                        prem_dic[package]['unit_tendereeMoney'] = unit_tendereeMoney
            if tenderee and not same_package:
                prem_dic[package]['roleList'].append({
                        "address": "",
                        "linklist": [],
                        "role_money": {
                            "discount_ratio": "",
                            "downward_floating_ratio": "",
                            "floating_ratio": "",
                            "money": 0,
                            "money_unit": ""
                        },
                        "role_name": "tenderee",
                        "role_text": tenderee,
                        "serviceTime": ""
                })
            if tenderer:
                if len(re.sub('[金额万元（）():：零壹贰叁肆伍陆柒捌玖拾佰仟萬億圆十百千万亿元角分￥整\s\d,.]|人民币|不?含税|(六个月|一年|\w{2,3})期加点\d+BP', '',
                              bid_amount_)) > 5:  # 金额字段出现超过5个非金额字符，中断匹配
                    prem_dic.pop(package)
                    break
                bid_amount_header = headers['bid_amount'][1] if bid_amount_ != "" else ''
                if amount_unit != '' and re.search('^[万亿]?元|%|折[\w/]{,6}$', amount_unit) and bid_amount_!='' and re.search('元',
                                                                                                       bid_amount_ + bid_amount_header) == None:
                    bid_amount_ += amount_unit
                bid_amount, money_unit = money_process(bid_amount_, headers['bid_amount'][1]) if bid_amount_ != "" and re.search('[%％‰折]|浮率|期加点\d+BP', bid_amount_)==None and 'bid_amount' in headers else (0, '')
                if re.search('元[/每]', amount_unit) or re.search('单价', bid_amount_header):
                    unit_price = bid_amount
                    bid_amount = 0
                else:
                    unit_price = 0
                if web_source_name == '河钢供应链管理平台' and 'bid_amount' in headers and re.search('[%％‰折]|浮率', bid_amount_) == None and bid_amount == 0: # 有中标金额字段却金额为0的过滤掉，防止类似 河钢供应链管理平台 站源错误，金额不为0的才算中标
                    if len(prem_dic[package]['roleList']) == 0 and prem_dic[package]['tendereeMoney'] == 0:  # 只有项目编号和名称的包 丢弃
                        prem_dic.pop(package)
                    continue
                elif 'bid_amount' in headers and re.search('[%％‰折]|浮率', bid_amount_) == None and have_bid_amount and bid_amount_ in ['/','','0','0.0']: # 如果不是所有行中标金额都为0，则把为0的做非中标
                    if len(prem_dic[package]['roleList']) == 0 and prem_dic[package]['tendereeMoney'] == 0:  # 只有项目编号和名称的包 丢弃
                        prem_dic.pop(package)
                    continue

                if (re.search('费率|下浮率|[%％‰折]|优惠率',
                              bid_amount_header + bid_amount_) and bid_amount < 100) or bid_amount > 50000000000:  # 如果是费率或大于500亿的金额改为0
                    bid_amount = 0
                if serviceTime:
                    serviceTime_text = headers['serviceTime'][1] + serviceTime if headers['serviceTime'][1][-1] in [':','：'] else headers['serviceTime'][1] + ':' + serviceTime
                    # print('serviceTime_text',serviceTime_text)
                    serviceTime = extract_servicetime(serviceTime_text)
                    serviceTime.sort(key=lambda x:x.get('begin_index',0))
                    serviceTime = extract_serviceTime(serviceTime[0]['body'],"") if serviceTime else ""
                    # print(serviceTime)
                if not same_package or len(prem_dic[package]['roleList'])==0:
                    role_dic = {
                            "address": "",
                            "linklist": [],
                            "role_money": {
                                "discount_ratio": "",
                                "downward_floating_ratio": "",
                                "floating_ratio": "",
                                "money": bid_amount,
                                "money_unit": money_unit
                            },
                            "role_name": "win_tenderer",
                            "role_text": tenderer,
                            "serviceTime": serviceTime
                    }
                    if unit_price > 0:
                        role_dic['role_money']['unit_price'] = unit_price
                    prem_dic[package]['roleList'].append(role_dic)
                elif prem_dic[package]['roleList'] and prem_dic[package]['roleList'][-1].get('role_name', '')=='win_tenderer':
                    if 'multi_winner' not in prem_dic[package]['roleList'][-1]:
                        prem_dic[package]['roleList'][-1]['multi_winner'] = prem_dic[package]['roleList'][-1]['role_text']
                        prem_dic[package]['roleList'][-1]['multi_winner'] += ','+ tenderer
                    elif tenderer not in prem_dic[package]['roleList'][-1]['multi_winner']:
                        prem_dic[package]['roleList'][-1]['multi_winner'] += ','+ tenderer
                    if bid_amount != 0 or unit_price > 0: # 有中标金额的才放进去
                        if 'other_winner_dic' not in prem_dic[package]['roleList'][-1]:
                            prem_dic[package]['roleList'][-1]['other_winner_dic'] = []
                        prem_dic[package]['roleList'][-1]['other_winner_dic'].append({'role_text': tenderer, "money": bid_amount, "money_unit": money_unit, "serviceTime": serviceTime})
                tenderer_list.append(tenderer)
                serviceTime_list.append(serviceTime)
            if len(prem_dic[package]['roleList']) == 0 and prem_dic[package]['tendereeMoney'] == 0:  # 只有项目编号和名称的 丢弃 并不再继续往下匹配
                prem_dic.pop(package)
                # break # 注释掉避免 400084571 某些包废标 中断匹配
            if multi_same_package: # 预处理后包号重复的，使用原始包号
                for k, v in package_fix2raw.items():
                    if k in prem_dic:
                        prem_dic[v] = prem_dic.pop(k)
        if len(tenderer_list)>2 and len(set(tenderer_list))==1 and "package_code" not in headers: # 没提取到包号且中标人一样应该是错误多包，需去掉多包 例 244355092  281854766
            total_money = 0
            for v in prem_dic.values():
                for d in v['roleList']:
                    if d['role_name'] == "win_tenderer":
                        total_money += d['role_money']['money']
                        if 'other_winner_dic' in d:
                            for other in d['other_winner_dic']:
                                total_money += other.get('money', 0)
            return {'自增1': {
                'code': '',
                'name': '',
                'roleList': [{
                        "address": "",
                        "linklist": [],
                        "role_money": {
                            "discount_ratio": "",
                            "downward_floating_ratio": "",
                            "floating_ratio": "",
                            "money": total_money,
                            "money_unit": ''
                        },
                        "role_name": "win_tenderer",
                        "role_text": tenderer_list[0],
                        "serviceTime": serviceTime_list[0]
                }],
                'tendereeMoney': 0,
                'tendereeMoneyUnit': ""
            }}
        return prem_dic

    def update_prem(self, rs_dic, tmp_dic):
        '''
        合并更新 prem
        :param rs_dic: 返回结果
        :param tmp_dic: 待合并结果
        :return:
        '''
        if '自增1' in tmp_dic and '自增1' not in rs_dic and len(tmp_dic)==len(rs_dic):
            pass
        else:
            for pack in tmp_dic:
                if pack in rs_dic:
                    for k in tmp_dic[pack]:
                        if rs_dic[pack][k] in ['', 0]:
                            rs_dic[pack][k] = tmp_dic[pack][k]
                        elif rs_dic[pack][k] == []:
                            rs_dic[pack][k]  = tmp_dic[pack][k]
                        elif k == 'roleList' and len(rs_dic[pack][k])>0 and rs_dic[pack][k][0].get('role_money', {}).get('money', 0) == 0:
                            rs_dic[pack][k] = tmp_dic[pack][k]
                else:
                    rs_dic[pack] = tmp_dic[pack]

    def get_prem(self, soup, web_source_name='', all_winner=False):
        tables = soup.find_all('table')
        tables.reverse()

        rs_dic = {}
        for table in tables:

            text = table.text.strip()
            pre_text = ""
            previous = None
            if table.findPreviousSibling() != None:
                previous = table.findPreviousSibling()
                pre_text = previous.text.strip()
                if pre_text == "" and table.findPreviousSibling().findPreviousSibling() != None:  # 修复表格前一标签没内容，再前一个才有内容情况
                    previous = table.findPreviousSibling().findPreviousSibling()
                    pre_text = previous.text.strip()
            if re.search('项目业主|业\s*主', text) and re.search('业\s*绩', text+pre_text): # 包含业绩的表格过滤掉，不进行处理
                tb_ex = table.extract()
                if previous:
                    sib = previous.extract()
                continue

            trs = self.tb.table2list(table)
            # table.extract()
            i = 0
            headers = ""
            table_prem = {}
            while i < len(trs) - 1:
                flag_, contain_header_, headers_, not_sure_winner = self.find_header(trs[i], all_winner, first_line=i==0)

                if flag_ and 'tenderer' in headers_ and not_sure_winner and re.search('中标|成交|中选|入围|入选', pre_text)==None:
                    # print('过滤：',headers_)
                    flag_ = False
                    headers_ = {}

                if flag_ and headers_ != dict():
                    table_items = []
                    headers = headers_
                    for j in range(i + 1, len(trs)):
                        if len(trs[j]) == len(trs[i]):
                            flag_2, contain_header_2, headers_2, not_sure_winner = self.find_header(trs[j], all_winner)
                            if flag_2 or contain_header_2:
                                if j == i+1 and flag_2:
                                    if len(headers_)<=len(headers_2):
                                        headers = headers_2
                                    continue
                                elif trs[i] == trs[j]: # 修复表格重复表头多次出现情况 例：514890585
                                    continue
                                break
                            elif ''.join(trs[j]).strip() == '': # 修复整行为空的 例：514890585
                                continue
                            else:
                                table_items.append(trs[j])
                        else:
                            # print('表头，内容 列数不一致', len(trs[i]), len(trs[j]))
                            break
                    if len(table_items) > 0:
                        df = pd.DataFrame(table_items)
                        prem_ = self.extract_from_df(df, headers, web_source_name, all_winner)
                        # rs_dic.update(prem_)
                        # table_prem.update(prem_)
                        self.update_prem(table_prem, prem_)
                    i = j - 1
                i += 1
            if table_prem and 'project_code' not in headers and 'package_code' not in headers and '自增1' in table_prem and table.find_previous_sibling(): # 表格内没有标段的，从上一个兄弟标签找标段
                sib = table.find_previous_sibling()
                sib_text = sib.get_text()
                ser_sib = re.search('第?[0-9一二三四五六七八九十a-zA-Z]{1,4}(标[段号的包项]|([分子]?包|包[组件号]))|(标[段号的包项]|([分子]?包|包[组件号]))号?：?[0-9一二三四五六七八九十a-zA-Z]{1,4}|包名：[0-9一二三四五六七八九十]{1,4}', sib_text)
                if sib.name in ['p','div','dl','ol','ul','h1','h2','h3','h4','h5','h6'] and len(sib_text)<100 and ser_sib:
                    package_sib = ser_sib.group(0)
                    package_sib = uniform_package_name(package_sib)
                    table_prem[package_sib] = table_prem.pop('自增1')
            if table_prem:
                # rs_dic.update(table_prem)
                self.update_prem(rs_dic, table_prem)
            table.extract()
        return rs_dic

    def predict(self, html, nlp_enterprise, web_source_name="", all_winner=False):
        html = re.sub("<html>|</html>|<body>|</body>","",html)
        html = re.sub("##attachment##","",html)
        soup = BeautifulSoup(html, 'lxml')
        richText = soup.find(name='div', attrs={'class': 'richTextFetch'})
        self.nlp_enterprise = nlp_enterprise
        in_attachment = False
        if richText:
            richText = richText.extract()  # 过滤掉附件
        del_tabel_achievement(soup) # 20240819 过滤掉业绩表格
        prem = self.get_prem(soup, web_source_name, all_winner)
        if prem == {} and richText:
            del_tabel_achievement(richText) # 20240819 过滤掉业绩表格
            prem = self.get_prem(richText, web_source_name, all_winner)
            in_attachment = True
        if len(prem) == 1:  # 只有一个包且包号为1 或 长度大于2 的大概率为自动增加编号包，改为Project
            k = list(prem)[0]
            if k.startswith('自增'):
                prem['Project'] = prem.pop(k)
        return prem, in_attachment

class CandidateExtractor(object):
    def __init__(self):
        '''各要素表头规则'''
        self.head_rule_dic = {
            'package_code': "(包[段组件]|标[段包]|分[包标])(序?号|$)|包号|^标段$",
            'project_code': "(项目|招标|采购|计划|公告|包[段组件]|标[段包的]|标段（包）|分[包标])(编号|编码)",
            "project_name": "(包[段组件]|标[段包的项]|标段（包）|分[包标]|采购|项目|工程|货物|商品|产品|设备|通用|主要标的|^包)(名称?|内容)|^标的$",
            "win_sort": "排名|排序|名次|推荐顺序",
            'win_or_not': '是否(建议|推荐)?(中标|成交)|是否入围|是否入库|入围结论|^选择设备$', # 补充站源特别表达：例：577351909 选择设备 1 为中标 0 非中标
            "candidate": "((候选|入围|入选|投标|应答|响应)(供应商库)?的?(人|人?单位|机构|供应商|供货商|服务商|投标人|(中标)?公司|(中标)?企业|银行)|(通过)?名单|中标候选人)(名称|名单|全称|\d)?$|^供应商(名称|信息)?$|投标个人/单位|^公司名称$|供应商单位名称$", #补充 368295593 投标个人/单位 提取
            "bid_amount": "投标[报总]?价|报价(总?金额|总价|总额)|总报价|^\w{,5}报价(（[\w、/]{1,15}）)?$|(中标|成交|合同)）?([金总]额|[报均总]价|价[格款]?)|承包价|含税价|经评审的价格",
            "win_tenderer": "第一名|第一(中标|成交)?候选人",
            "second_tenderer": "第二名|第二(中标|成交)?候选人",
            "third_tenderer": "第三名|第三(中标|成交)?候选人",
        }
        '''非表格候选人正则'''
        # self.p = '((候选|入围|入选|投标)(供应商库)?的?(人|人?单位|机构|供应商|供货商|服务商|投标人|(中标)?公司|(中标)?企业|应答人)|(通过)?名单)(名称|名单|全称|\d)?：$'
        self.p = '((候选|入围|入选|投标|报价|成交|中标|中选|供[货应]|应答|响应)(人|方|人?单位|机构|厂?商|商家|服务商|公司|企业)|(通过|入围)名单)(名称|名单|全称|\d)?[是为：]?$'
        self.tb = TableTag2List()
        with open(os.path.dirname(__file__)+'/header_set.pkl', 'rb') as f:
            self.headerset = pickle.load(f)

    def find_header(self, td_list):
        fix_td_list = [re.sub('[:：]$|^[一二三四五六七八九十0-9]{1,3}、|(（[\w、×*/]{1,20}）)$|（不?含税）|/万?元|拟|\s', '', it) for it in td_list] # 去除表头无关信息，方便匹配判断是否为表头
        header_dic = dict()
        flag = False
        contain_header = False
        if len(set(fix_td_list) & self.headerset)>=2 and (len(set(fix_td_list) & self.headerset)/len(set(fix_td_list))>=0.6 or is_head_line(fix_td_list)):
            flag = True
            for i in range(len(td_list)) :
                text = td_list[i]
                text = re.sub('\s|[（(]排名不分先后[)）]', '', text)
                if len(text) > 15: # 长度大于15 不进行表头匹配
                    continue
                if re.search('未(中标|成交)原因', text):  # 不提取此种表格
                    return flag, contain_header, dict()
                num = 0
                for k, v in self.head_rule_dic.items():
                    if k == 'candidate' and re.search('第[一二三]名|第[一二三](中标|成交)?候选人', text):
                        continue
                    if re.search('评分|得分|分数|分值', text):
                        continue
                    if re.search(v, text):
                        if k in ['candidate', 'win_tenderer', 'second_tenderer', 'third_tenderer']  and re.search('是否', text):
                            continue
                        elif k == 'win_or_not' and re.search('是否(中标|成交)候选人', text): # 修复 584112560 把第二作第一错误
                            continue
                        header_dic[k] = (i, text)
                        # if k != 'candidate': # candidate 可与前三候选重复
                        num += 1
                if 'win_tenderer'in header_dic and 'second_tenderer' in header_dic and 'candidate' in header_dic:
                    header_dic.pop('candidate')
                if num>1:
                    # print('表头错误，一个td匹配到两个表头：', header_dic)
                    return flag, contain_header, dict()
                if text == '单位': # 20241128 补充金额单位
                    header_dic['amount_unit'] = (i, text)
            if ('candidate' in header_dic and 'win_sort' in header_dic) or ('win_tenderer' in header_dic and 'second_tenderer' in header_dic): # 有排名才返回表头进行提取
                return flag, contain_header, header_dic
        elif len(set(fix_td_list) & self.headerset) >= 2  or (len(set(fix_td_list)) == 2 and len(set(fix_td_list) & self.headerset) >= 1):  # 如果包含两个表头以上或 只有两列且包含一个表头
            contain_header = True
        return flag, contain_header, dict()

    def is_role(self, text):
        if len(text) > 25 or len(text) < 4:
            return False
        elif len(re.findall('有限责?任?公司', text)) > 1:
            return False
        elif re.search('[\w（）]{4,}(有限责?任?公司|学校|学院|大学|中学|小学|医院|管理处|办公室|委员会|村委会|纪念馆|监狱|管教所|修养所|社区|农场|林场|羊场|猪场|石场|村|幼儿园|厂|中心|超市|门市|商场|工作室|文印室|城|部|店|站|馆|行|社|处)$', text):
            return True
        else:
            ners = selffool.ner(text)
            if len(ners[0]) == 1 and ('company' in ners[0][0] or 'org' in ners[0][0]):
                return True
        return False

    def get_role(self, text, nlp_enterprise):
        '''
        获取字符串text角色实体
        :param text: 待获取实体字符串
        :param nlp_enterprise: 公告中的角色实体列表
        :return:
        '''
        text = re.sub('主报名人：|联合报名人：|联合体：|联合体(成员|单位)[12345一二三四五]?：|(联合体)?成员单位[12345一二三四五]?：|特殊普通合伙：|[(（][主成][）)]|（联合体(牵头|成员)单位）'
                      , '，', text)
        text = re.sub('\s', '', text) # 修复 370835008 表格中实体中间有\n
        text = re.sub('[一二三四五六七八九十]+标段[：:]|标段[一二三四五六七八九十]+[：:]|第[一二三四五六七八九十]+名[：:]', '',
                      text)  # 2024/4/22 修复 372839375 三标段：宁夏一山科技有限公司
        text = re.sub('1[3-9]\d{9}|\d{3}-\d{8}|\d{4}-\d{7}', '', text)  # 2024/4/23 去除电话
        if text in nlp_enterprise:
            return text
        if len(text) > 50 or len(text)<4:
            return ''
        ners = getNers([text], useselffool=True)
        roles = []
        if ners:
            for ner in ners[0]:
                if ner[2] in ['org', 'company', 'location']:
                    roles.append(ner[3])
        if roles and len(''.join(roles)) > len(text)*0.8:
            return roles[0]
        else:
            return ''

    def extract_from_df(self, df, headers):
        prem_dic = {}
        link_set = set()
        candidate_set = set()
        role_dic = dict()  # 保存一二三候选人并排的情况
        findtop3 = False
        findmoney = False
        line_num = 0
        line_package = None
        package_flag = 0
        if "package_code" in headers:
            package_flag = 1
            if len(df)!=len(set(df[headers["package_code"][0]])): # 如果有包号但重复，进行下列判断是否和跟其他字段组合包号
                if "project_code" in headers and df[headers["project_code"][0]][0] != df[headers["package_code"][0]][0]:
                    package_flag = 2
                elif "project_name" in headers and find_package(df[headers["package_code"][0]][0]):
                    package_flag = 3
        for i in df.index:
            package_code_raw = df.loc[i, headers['package_code'][0]].strip() if "package_code" in headers else ""
            project_code = df.loc[i, headers['project_code'][0]].strip() if "project_code" in headers else ""
            project_name = df.loc[i, headers['project_name'][0]].strip() if "project_name" in headers else ""
            candidate_ = df.loc[i, headers['candidate'][0]].strip() if "candidate" in headers else ""
            win_or_not = df.loc[i, headers['win_or_not'][0]].strip() if "win_or_not" in headers else ""
            # budget_ = df.loc[i, headers['budget'][0]] if "budget" in headers else ""
            bid_amount_ = df.loc[i, headers['bid_amount'][0]].strip() if "bid_amount" in headers else ""
            win_sort = df.loc[i, headers['win_sort'][0]].strip() if "win_sort" in headers else ""
            win_tenderer = df.loc[i, headers['win_tenderer'][0]].strip() if "win_tenderer" in headers else ""
            second_tenderer = df.loc[i, headers['second_tenderer'][0]].strip() if "second_tenderer" in headers else ""
            third_tenderer = df.loc[i, headers['third_tenderer'][0]].strip() if "third_tenderer" in headers else ""
            amount_unit = df.loc[i, headers['amount_unit'][0]].strip() if "amount_unit" in headers else ""

            if set([package_code_raw, candidate_, win_or_not, bid_amount_, win_tenderer, second_tenderer, third_tenderer]) & self.headerset != set(): # 包含表头， 停止匹配 # 排除 ,win_sort 避免367940050漏提取
                # print('包含表头， 停止匹配')
                break
            if len(set([package_code_raw, candidate_,win_sort, win_or_not, bid_amount_, win_tenderer, second_tenderer, third_tenderer]) - set(['', ' '])) < 2:  # 全部为空或内容一样 停止匹配
                # print('全部为空或内容一样 停止匹配')
                if len(set(df.loc[i,:]))==1 and re.search('^第?([一二三四五六七八九十]{1,3}|[a-zA-Z0-9-]{,9})?[分子]?(标[段包项]?|包[组件标]?|合同[包段])([一二三四五六七八九十]{1,3}|[a-zA-Z0-9-]{,9})?$', win_sort):
                    line_package = win_sort
                    continue
                else:
                    break

            if candidate_ != "" and win_sort == "" and headers['candidate'][0] > 0: # 修复某些表头不说 排名，直接用候选人代替
                col_indx = headers['candidate'][0] -1
                pre_col = df.loc[i, col_indx]
                if col_indx > 0 and pre_col == candidate_:
                    pre_col = df.loc[i, col_indx - 1]
                if re.search('第[一二三]名|第[一二三](中标)?候选人', pre_col):
                    win_sort = pre_col

            package_code = package_code_raw
            if package_code == '' and line_package:
                package_code = line_package

            # candidate = candidate_ if self.is_role(candidate_) else ""
            # tenderer = tenderer if self.is_role(tenderer) else ""
            candidate = self.get_role(candidate_, self.nlp_enterprise)

            # if len(set([project_code, package_code, project_name, tenderee, tenderer, budget_, bid_amount_])) < 2:
            #     break
            if(candidate_,win_tenderer, second_tenderer,third_tenderer, bid_amount_,package_code,project_code,win_sort) in link_set:
                continue
            link_set.add((candidate_, win_tenderer, second_tenderer, third_tenderer, bid_amount_,package_code,project_code,win_sort))
            package = package_code
            if package == "" and project_code != "":  # 修复 395747178 多项目 只提取到一个
                package = project_code
            package = uniform_package_name(package) if package !="" else "Project"
            if package_flag == 2 and project_code != "":
                project_code_pk = uniform_package_name(project_code)
                package = "%s_%s"%(project_code_pk, package)
            elif package_flag == 3 and project_name != "":
                for iter in find_package(project_name):
                    project_name_pk = uniform_package_name(iter.group(0))
                    package = "%s_%s"%(project_name_pk, package)
                    break

            if candidate:
                if win_or_not and re.search('否|未入围', win_or_not):
                    candidate_set.add(candidate)
                # elif re.search('^((建议|推荐)(中标|成交)|是)$', win_or_not) and win_sort in ['', '参与投标单位及排名'] and win_tenderer=='':
                #     win_sort = '第一名'
                #     candidate_set.add(candidate)
                else:
                    candidate_set.add(candidate)

            if win_tenderer and second_tenderer:  #  and third_tenderer  128778062 这篇只有 第一二候选人
                if re.search("(候选人|投标人|单位|公司)名?称?$", df.loc[i, 0]) or re.search("(候选人|投标人|单位|公司)名?称?", df.loc[i, 1]):
                    findtop3 = True
                    for type, text in zip(['win_tenderer', 'second_tenderer', 'third_tenderer'],
                                           [win_tenderer, second_tenderer, third_tenderer]):
                        text = self.get_role(text, self.nlp_enterprise)
                        if text:
                        # if self.is_role(text):
                            if type not in role_dic:
                                role_dic[type] = dict()
                            role_dic[type]['role_text'] = text
                            candidate_set.add(text)

                elif re.search('投标报价|报价$', df.loc[i, 0]) or re.search('投标报价|报价$', df.loc[i, 1]):
                    findmoney = True
                    header = df.loc[i, 0] if re.search('投标报价|报价$', df.loc[i, 0]) else df.loc[i, 1]
                    for type, text in zip(['win_tenderer', 'second_tenderer', 'third_tenderer'],
                                           [win_tenderer, second_tenderer, third_tenderer]):
                        if len(re.sub('[金额万元（）():：零壹贰叁肆伍陆柒捌玖拾佰仟萬億圆十百千万亿元角分￥整\s\d,.]|人民币|不?含税', '',
                                      text)) > 5:  # 金额字段出现超过5个非金额字符，中断匹配
                            break
                        if amount_unit != '' and re.search('^[万亿]?元|%|折[\w/]{,6}$', amount_unit) and re.search('元', text+header)==None: # 补充另外在一列的金额单位
                            text += amount_unit
                        money, money_unit = money_process(text, header)
                        if re.search('元[/每]', amount_unit) or re.search('单价', header):
                            unit_price = money
                            money = 0
                        else:
                            unit_price = 0

                        if (re.search('费率|下浮率|[%％‰折]|优惠率', header+text) and money < 100) or money > 50000000000: # 如果是费率或大于500亿的金额改为0
                            money = 0
                        if money > 0:
                            if type not in role_dic:
                                role_dic[type] = dict()
                            role_dic[type]['money'] = money
                            role_dic[type]['money_unit'] = money_unit
                        if unit_price > 0:
                            if type not in role_dic:
                                role_dic[type] = dict()
                            role_dic[type]['unit_price'] = unit_price
                            role_dic[type]['money_unit'] = money_unit
                else:
                    line_num += 1
                    if findtop3 and findmoney:
                        break
                    if line_num > 3:
                        break
            elif candidate and win_sort:
                role_type = ""
                if re.search('第[一1]|^[一1]$', win_sort):
                    role_type = "win_tenderer"
                    if win_or_not in ['否', '未中标', '0']: # 修复特别站源表达 577351909 选择设备：0 不是中标
                        role_type = ''
                elif re.search('第[二2]|^[二2]$', win_sort):
                    role_type = "second_tenderer"
                    if win_or_not in ['是', '1']:
                        role_type = "win_tenderer"
                elif re.search('第[三3]|^[三3]$', win_sort):
                    role_type = "third_tenderer"
                if role_type != "":
                    if package not in prem_dic:
                        prem_dic[package] = {
                            'code': '',
                            'name': '',
                            'roleList': [],
                            'tendereeMoney': 0,
                            'tendereeMoneyUnit': ""
                        }
                        prem_dic[package]['code'] = project_code
                        prem_dic[package]['name'] = project_name
                    if len(re.sub('[金额万元（）():：零壹贰叁肆伍陆柒捌玖拾佰仟萬億圆十百千万亿元角分￥整\s\d,.]|人民币|不?含税', '', bid_amount_))> 5:  # 金额字段出现超过5个非金额字符，中断匹配
                        break
                    header = headers['bid_amount'][1] if "bid_amount" in headers else ''
                    if amount_unit != '' and re.search('^[万亿]?元|%|折[\w/]{,6}$', amount_unit) and re.search('元',
                                                                                                           bid_amount_ + header) == None:  # 补充另外在一列的金额单位
                        bid_amount_ += amount_unit
                    bid_amount, money_unit  = money_process(bid_amount_, headers['bid_amount'][1])  if "bid_amount" in headers else (0, "")
                    if re.search('元[/每]', amount_unit) or re.search('单价', header):
                        unit_price = bid_amount
                        bid_amount = 0
                    else:
                        unit_price = 0

                    if (re.search('费率|下浮率|[%％‰折]|优惠率',
                                  header + bid_amount_) and bid_amount < 100) or bid_amount > 50000000000:  # 如果是费率或大于500亿的金额改为0
                        bid_amount = 0
                    tmp_role_dic = {
                            "address": "",
                            "linklist": [],
                            "role_money": {
                                "discount_ratio": "",
                                "downward_floating_ratio": "",
                                "floating_ratio": "",
                                "money": bid_amount,
                                "money_unit": money_unit
                            },
                            "role_name": role_type,
                            "role_text": candidate,
                            "serviceTime": ""
                    }
                    if unit_price > 0:
                        tmp_role_dic['role_money']['unit_price'] = unit_price
                    prem_dic[package]['roleList'].append(tmp_role_dic)
                    if len(prem_dic[package]['roleList']) == 0:  # 只有项目编号和名称的 丢弃
                        prem_dic.pop(package)
        if role_dic and prem_dic == dict():
            if package not in prem_dic:
                prem_dic[package] = {
                    'code': '',
                    'name': '',
                    'roleList': [],
                    'tendereeMoney': 0,
                    'tendereeMoneyUnit': ""
                }
            for role_type, v in role_dic.items():
                role_text = v.get('role_text', '')
                if role_text == "":
                    continue
                money = v.get('money', 0)
                money_unit = v.get('money_unit', '')
                prem_dic[package]['roleList'].append({
                    "address": "",
                    "linklist": [],
                    "role_money": {
                        "discount_ratio": "",
                        "downward_floating_ratio": "",
                        "floating_ratio": "",
                     "money": money,
                        "money_unit": money_unit
                    },
                    "role_name": role_type,
                    "role_text": role_text,
                    "serviceTime": ""
                    })
            if len(prem_dic[package]['roleList']) == 0:  # 只有项目编号和名称的 丢弃
                prem_dic.pop(package)
        return prem_dic, candidate_set

    def get_prem(self, soup):
        tables = soup.find_all('table')
        tables.reverse()
        rs_dic = {}
        candidate_set = set()
        for table in tables:
            trs = self.tb.table2list(table)
            i = 0
            headers = ""
            while i < len(trs) - 1:
                flag_, contain_header_, headers_ = self.find_header(trs[i])
                if flag_ and headers_ != dict():
                    table_items = []
                    headers = headers_
                    for j in range(i + 1, len(trs)):
                        if len(trs[j]) == len(trs[i]):
                            flag_, contain_header_, headers_ = self.find_header(trs[j])
                            if flag_ or contain_header_:
                                break
                            else:
                                table_items.append(trs[j])
                        else:
                            # print('表头，内容 列数不一致', len(trs[i]), len(trs[j]))
                            break
                    if len(table_items) >= 1:
                        df = pd.DataFrame(table_items)
                        prem_, candidate_set_ = self.extract_from_df(df, headers)
                        # print('prem_: ', prem_)
                        rs_dic.update(prem_)
                        candidate_set.update(candidate_set_)
                    i = j - 1
                i += 1
            if rs_dic and 'package_code' not in headers and 'Project' in rs_dic and table.find_previous_sibling(): # 一个表格只有两行且没有标段的，从上一个兄弟标签找标段
                sib = table.find_previous_sibling()
                sib_text = sib.get_text()
                ser_sib = re.search('第?[0-9一二三四五六七八九十a-zA-Z]{1,4}(标[段号的包项]|([分子]?包|包[组件号]))|(标[段号的包项]|([分子]?包|包[组件号]))号?：?[0-9一二三四五六七八九十a-zA-Z]{1,4}|包名：[0-9一二三四五六七八九十]{1,4}', sib_text)
                if sib.name in ['p', 'div'] and len(sib_text)<100 and ser_sib:
                    package_sib = ser_sib.group(0)
                    package_sib = uniform_package_name(package_sib)
                    rs_dic[package_sib] = rs_dic.pop('Project')
            table.extract()
        return rs_dic, candidate_set

    def get_candidates_from_text(self, list_sentences, list_entitys):
        candidates = set()
        tenderee_or_agency = set()
        sentences = sorted(list_sentences[0], key=lambda x: x.sentence_index)
        for ent in list_entitys[0]:
            if ent.entity_type in ['org', 'company']:
                sen_index = ent.sentence_index

                text = sentences[sen_index].sentence_text
                b = ent.wordOffset_begin
                e = ent.wordOffset_end
                if ent.label in [2,3,4]: # 直接加实体预测的候选人, 否则规则检查是否为候选人
                    candidates.add(ent.entity_text)
                elif isinstance(b, int) and isinstance(e, int) and ent.label in [5]:
                    foreword = text[max(0, b - 10):b]
                    if re.search(self.p, foreword):
                        candidates.add(ent.entity_text)
                if ent.label in [0, 1] and ent.values[ent.label]>0.5:
                    tenderee_or_agency.add(ent.entity_text)
        candidates -= tenderee_or_agency # 2024/05/10 463166661 把 四川省第二中医医院作为候选人 过滤掉为招标或代理角色 的候选人
        return candidates

    def predict(self, html, list_sentences, list_entitys, nlp_enterprise):
        self.nlp_enterprise = nlp_enterprise
        html = html.replace('比选申请单位', '中标候选人')  # 82347769
        html = re.sub("<html>|</html>|<body>|</body>","",html)
        html = re.sub("##attachment##","",html)
        soup = BeautifulSoup(html, 'lxml')
        richText = soup.find(name='div', attrs={'class': 'richTextFetch'})
        in_attachment = False
        if richText:
            richText = richText.extract()  # 过滤掉附件
        del_tabel_achievement(soup) # 20240819 过滤掉业绩表格 例：500817166
        prem, candidate_set = self.get_prem(soup)
        if prem == {} and richText:
            del_tabel_achievement(richText) # 20240819 过滤掉业绩表格
            prem, candidate_set = self.get_prem(richText)
            in_attachment = True
        candidate_set2 = self.get_candidates_from_text(list_sentences, list_entitys)
        candidate_set.update(candidate_set2)
        return prem, {'candidate': '，'.join(candidate_set)}, in_attachment

def role_special_predictor(web_source_name, content, nlp_enterprise):
    if web_source_name == '中国电子科技集团有限公司电子采购平台':
        ser = re.search('，(\w{5,30})，发布时间：\d+', content)
        if ser and ser.group(1) in nlp_enterprise:
            return ser.group(1)
    elif web_source_name == '高校仪器设备竞价网':
        ser = re.search('--(\w{5,30})，申购单主题', content)
        if ser and ser.group(1) in nlp_enterprise:
            return ser.group(1)
    elif web_source_name == '台泥阳光采购平台':
        ser = re.search('，(\w{5,30})招标公告，', content)
        if ser and ser.group(1) in nlp_enterprise:
            return ser.group(1)

class WebsourceTenderee():
    def __init__(self):
        with open(os.path.dirname(__file__)+'/websource_tenderee.pkl', 'r', encoding='utf-8') as f:
            self.webno2ree = json.load(f)

    def get_websource_tenderee(self, web_source_no, web_source_name, prem):
        '''
        通过数据源唯一招标人召回调整prem中的招标人，
        :param web_source_no:
        :param prem:
        :return:
        '''
        p = '(医院|学院|学校|中学|小学|大学|幼儿园|保健院|党校|银行|研究院|血站|红十字会|防治院|研究所)'
        web_ree = self.webno2ree.get(web_source_no, '')
        if web_source_no.startswith('18591-') and web_ree == "":
            web_ree = '中国人民解放军总医院'
        elif web_source_no.startswith('Y00484-') and web_ree == "":
            web_ree = '航空总医院'
        if web_ree == "" and re.search('\w{2,8}(大学|医院)$', web_source_name): # 20240524 大学、医院类站源没唯一招标人默认为站源名称
            web_ree = web_source_name
        if web_ree != '':
            if 'Project' in prem[0]['prem']:
                find_tenderee = False
                for d in prem[0]['prem']['Project']['roleList']:
                    if d['role_name'] == 'tenderee':
                        find_tenderee = True
                        if d['role_text'] == "":
                            d['role_text'] = web_ree
                        elif re.search('大学$', web_ree) and re.search('学院$', d['role_text']) and web_ree not in d['role_text']:
                            d['role_text'] = web_ree
                        elif d.get('role_prob', 0) < 0.8 and get_business_data(d['role_text'])[0] == False: # 20240201 概率低于0.8且没有工商数据的替换为站源招标人
                            d['role_text'] = web_ree
                        # elif re.search(p, web_ree) and (re.search(p, d['role_text'])==None and len(d['role_text'])<6): # 数据源唯一招标人以医院等结尾，角色中无相关关键词的，替换为数据源招标人
                        #     d['role_text'] = web_ree
                        # elif re.search('有限(责任)?公司', web_ree) and (re.search('有限(责任)?公司', d['role_text'])==None and len(d['role_text'])<6):
                        #     d['role_text'] = web_ree
                        break
                if not find_tenderee: # 没招标人的添加
                    prem[0]['prem']['Project']['roleList'].append({'role_name': 'tenderee',
                                                                   'role_text': '%s' % web_ree,
                                                                   'role_money': {'money': 0, 'money_unit': '',
                                                                                  'floating_ratio': '',
                                                                                  'downward_floating_ratio': '',
                                                                                  'discount_ratio': ''},
                                                                   'linklist': [],
                                                                   'serviceTime': '',
                                                                   'address': ''})

            else:
                prem[0]['prem']['Project'] = {'code': '',
                                              'tendereeMoney': 0,
                                              'roleList': [
                                                  {'role_name': 'tenderee',
                                                   'role_text': '%s' % web_ree,
                                                   'role_money': {'money': 0, 'money_unit': '', 'floating_ratio': '',
                                                                  'downward_floating_ratio': '', 'discount_ratio': ''},
                                                   'linklist': [],
                                                   'serviceTime': '',
                                                   'address': ''}
                                              ]}
            tenderee_l = [d2['role_text'] for v in prem[0]['prem'].values() for d2 in v['roleList'] if
                          d2['role_name'] == 'tenderee']
            winner_l = [d2['role_text'] for v in prem[0]['prem'].values() for d2 in v['roleList'] if
                        d2['role_name'] == 'win_tenderer']
            if set(tenderee_l) & set(winner_l) and web_ree in tenderee_l:  # 删除与站源招标人冲突的中标人
                for k in prem[0]['prem']:
                    prem[0]['prem'][k]['roleList'] = [d for d in prem[0]['prem'][k]['roleList'] if
                                               not (d['role_name'] == 'win_tenderer' and d['role_text'] in tenderee_l)]
        return prem

def get_header_line(list_item):
    '''
    判断列表内文本哪些是表头，哪些不是
    :param list_item: [ '批复结果', '许可/同意', '批复文号',]
    :return:
    '''
    rs = []
    x = []
    for item in list_item:
        x.append(getPredictor("form").encode(item))
    predict_y = getPredictor("form").predict(np.array(x), type="item")
    for item, values in zip(list_item, list(predict_y)):
        item = str(item).replace(' ', '')
        lb = 1 if values[1] > 0.5 else 0
        if item in ['许可/同意', '办结（通过）', '办结（准予许可）','批准', '合格', '民间投资', '备案']:
            lb = 0
        elif item in ['环境影响评价机构', '建设单位或地方政府作出的相关环保承诺', '环境影响评价技术服务机构', '报告全本'] or re.search('^比例\d{1,2}%$', item):
            lb = 1
        elif lb == 0 and item in header_set:
            lb = 1
        rs.append(lb)
    return rs

class ApprovalPredictor():
    def __init__(self):
        '''
        项目（法人）单位
        '''
        self.other_part = {
            "project_name": "((项目|工程|采购|招标|计划|建设|规划)名称?|生产建设项目|申请项目)：(?P<main>[^：。]{5,50})[，。]([\w（）]{2,15}：|$)?", # 项目名称
            "project_code": "(立案号|项目(统一)?代码|(项目|工程|采购|招标|计划|任务|备案|索引)([编代][号码]|号))：?(?P<main>(\w{2,8})?[（）〔〕【】\[\]a-zA-Z0-9-]{5,30}号?)([\w（）]{2,15}：|$)?", # 项目编号
            "doc_num": "((环评|\w{,3})(审[批查核]|批[复准]|立项|[定知文]书|[公发批]文|用地|决定|备案|核准|许可|确认|受理|申请报告|文[件书]|意见书|办件)[文编证]?号|综合受理号|文书?号|合格书号|申报号|(办件|事项)[编代][号码]|收件号)）?为?：?(?P<main>[（）〔〕【】\[\]0-9]{,8}([\w（）〔〕【】]{2,15})?[（）〔〕【】\[\]a-zA-Z0-9-.]{3,30}号?)[，。]?([\w（）]{2,15}：|$)?", # 文号
            "pro_type": "((申[报请]|审核备|项目|立项)(类型|种类)|项目所属行业|行业(分类|归属)|产业领域|项目行业)：(?P<main>[^：。]{2,30})[，。]([\w（）]{2,15}：|$)?", # 项目类型
            "year_limit": "((建设|工程|服务|项目)(起止|\w{,2})?(年限|期限|时长|工期))：(约|超过|大概|建设工期|共计|合计)?(?P<main>[\d一二三四五六七八九十]+个月|\d{1,3}(日?历?天|小时)|20\d{2}[年/-](\d{1,2}[月/-]?)?(\d{1,2}日?)?([至—-]+20\d{2}[年/-](\d{1,2}[月/-]?)?(\d{1,2}日?)?)?)[（，。]([\w（）]{2,15}：|$)?", # 建设年限
            "construction_scale": "([\d一二三四五六七八九十]{1,2}、|（[\d一二三四五六七八九十]{1,2}）)?(工程|项目|\w{,4})?((建设内容[及和](建设)?规模|建设规模[及和](主要)?(建设)?内容|(建设|招标|采购)）?内容|(建设|工程|项目)(主要)?(规模|内容|概况|面积)([及和](主要)?(规模|内容|概况|面积))?(如下|为)?)|^规模(情况)?)：(?P<main>[^：。]{2,500})[，。]?([\w（）]{2,30}：|$)?", # 建设规模 #56924861 主要环境影响及预防或者减轻不良环境影响的对策和措施：
            "approval_items": "((审[批查核]|批[复准]|申请|监管|受理)(事项|内容|名称)|事项名称|事项审批)：(?P<main>[^：。]{2,150})[，。]([\w（）]{2,15}：|$)?", # 审批事项
            "properties": "((建设|工程|项目)性质)：(?P<main>[^：。]{2,50})[，。]([\w（）]{2,15}：|$)?", # 建设性质
            "approval_result": "((审[批查核]|批[复准]|核[发准]|许可|抽查|备案)(结果|决定|结论|状态|回复|意见)|(办[理件]|，)(状态|意见|结果)|项目(当前|目前)?状态)：(?P<main>[^：。]{2,20})[，。]([\w（）]{2,15}：|$)?", # 审批结果
            "phone": "(联系)?电话：(?P<main>1[3-9][0-9][-—－―]?\d{4}[-—－―]?\d{4}|" # 联系电话
                     '\+86.?1[3-9]\d{9}|'
                     '0[1-9]\d{1,2}[-—－―][2-9]\d{6}\d?[-—－―]\d{1,4}|'
                     '0[1-9]\d{1,2}[-—－―]{0,2}[2-9]\d{6}\d?(?=1[3-9]\d{9})|'
                     '0[1-9]\d{1,2}[-—－―]{0,2}[2-9]\d{6}\d?(?=0[1-9]\d{1,2}[-—－―]?[2-9]\d{6}\d?)|'
                     '0[1-9]\d{1,2}[-—－―]{0,2}[2-9]\d{6}\d?(?=[2-9]\d{6,7})|'
                     '0[1-9]\d{1,2}[-—－―]{0,2}[2-9]\d{6}\d?|'
                     '[\（|\(]0[1-9]\d{1,2}[\）|\)]-?[2-9]\d{6}\d?-?\d{,4}|'
                     '400\d{7}转\d{1,4}|'
                     '[2-9]\d{6,7})[，。]([\w（）]{2,15}：|$)?'
        }

        self.role_type = {
            "declare_company": "(申[请报]|填报|呈报)(人|部门|机关|单位|企业|公司|机构|组织)",  # 申报单位
            "construct_company": "(业主|建设|用地|委托|发包|产权|项目|法人|采购|招标|询价)）?(部门|机关|单位|企业|公司|方|业主|人)|主送机关|法人单位|甲方",  # 建设单位
            "approver": "(审[批查核议图]|许可|批[复准](用地)?|发证|管理|办理|受理|核[发准]|备案|承办)）?(部门|机关|单位|企业|公司|机构)|实施主体",  # 审批部门
            "evaluation_agency": "(环境|环保)?(影响)?(环评|评价|评估)(机构|单位|公司)" , # 环评机构
            "compilation_unit": "编制单位", # 编制单位 20240701加
            "publisher": "(发布|发文|公示|公告)(人|部门|机关|单位|企业|公司|机构|组织)" # 发布机构 20240703加
        }
        self.person_type = {
            "legal_person": "项目法人|法定代表人|企业法人"  # 项目法人
        }
        self.date_type = {
            "time_declare": "(申[请报]|填报|呈报)(时间|日期)", # 申报时间
            "time_commencement": "(开工|动工|(项目|建设|工程|施工)开始)(时间|日期)", # 开工时间
            "time_completion": "(竣工|完工|验收|(项目|建设|工程|施工)(完成|结束))(备案)?(时间|日期)", # 竣工时间
            "time_approval": "(审[批查核查议]|许可|批[复准](用地)?|发证|管理|办理|受理|核[发准]|备案|决定)(时间|日期)", # 审批时间 20240701加
            "time_release": "(发布|发文|公告|生成|成文)(时间|日期)" # 发布时间
        }

        self.addr_type = {
            "project_addr": "((建设|工程|项目|施工|地块|用地)\w{,2}(地址|地点|位置|所在地)|[宗土]地坐落)" # 建设地址
        }

        self.money_type = {
            "total_tendereeMoney": "(项目|概算|投资)金额|项目投资|总投资|总预算|总概算|投资(规模|总额|估算|概算)|批复概算|投资额|项目概算", # 总投资
        }

        self.head_rule_dic = {**self.role_type, **self.person_type, **self.date_type, **self.addr_type, **self.money_type}
        self.head_rule_dic.update({k: v.split('：')[0] for k,v in self.other_part.items()})
        self.tb = TableTag2List()

    def recursive_text(self, tag):
        '''
        递归获取 soup 节点文本
        :param tag:
        :return:
        '''
        texts = []
        for child in tag.children:
            if child.name:
                if child.name in ['p'] and len(child.find_all('br'))>2:
                    texts.extend(self.recursive_text(child))
                if child.name in ["td", "th", "p", "li", "h1", "h2", "h3", "h4", "h5",
                                  "h6"] and child.get_text().strip():
                    texts.append(re.sub('\s', '', child.get_text().strip().replace(':', '：').replace('(', '（').replace(')', '）')))

                else:
                    texts.extend(self.recursive_text(child))
            else:
                if child.strip():
                    texts.append(re.sub('\s', '', child.strip().replace(':', '：').replace('(', '（').replace(')', '）')))
        return texts

    def get_table_info(self, df, nlp_enterprise):
        def get_header_index(datas):
            '''
            根据表格表头判断结果0/1 得到哪些行和列是表头
            :param datas: 表格内容表头判断结果数据[[1,1,1,1],[0,0,0,0]]
            :return: 表头所在的行和列序号
            '''
            header_row = []
            header_col = []
            df_h = pd.DataFrame(datas)  # 表头判断数据 , columns=columns
            for i in df_h.index:
                line = df_h.loc[i].values
                if sum(line) == len(line):
                    header_row.append((i, sum(line) / len(line)))
                elif sum(line) / len(line) > 0.8:
                    header_row.append((i, sum(line) / len(line)))
                elif len(line) > 3 and len(re.findall('11', ''.join([str(it) for it in line]))) > len(
                        re.findall('10', ''.join([str(it) for it in line]))):
                    header_row.append((i, sum(line) / len(line)))
            for i in df_h.columns:
                col = df_h[i].values
                if sum(col) == len(col):
                    header_col.append((i, sum(col) / len(col)))
                elif sum(col) / len(col) > 0.8:
                    header_col.append((i, sum(col) / len(col)))
                elif len(col) > 3 and len(re.findall('11', ''.join([str(it) for it in line]))) > len(
                        re.findall('10', ''.join([str(it) for it in line]))):
                    header_col.append((i, sum(col) / len(col)))
            return header_row, header_col

        def get_header(l, head_rule_dic):
            header_dic = {}
            for i in range(len(l)):
                text = l[i].replace(' ', '') # 修复54969575 项目 名称 被空格分割
                num = 0
                tmp_dic = {}
                for k, v in head_rule_dic.items():
                    if re.search(v, text):
                        tmp_dic[k] = i
                        num += 1
                for k, v in tmp_dic.items():
                    if k not in header_dic:
                        header_dic[k] = v
            return header_dic

        result_l = []
        datas = []
        for i in df.index:
            line = get_header_line(df.loc[i].values)
            datas.append(line)
        header_row, header_col = get_header_index(datas)
        if len(header_col) == 1 and header_col[0][0] > 1: # 列表头不可能在第1列后面开始
            header_col = []
        if len(header_row) >= 1 and len(header_col) == 0:  # 有行表头无列表头
            i = 0
            while i < len(header_row):
                idx, ratio = header_row[i]
                if idx + 1 >= len(df):
                    break
                header_dic = get_header(df.loc[idx].values, self.head_rule_dic)
                i += 1
                range_from = idx + 1
                range_to = len(df)
                if i < len(header_row):
                    next_header = i
                    for j in range(i, len(header_row)):
                        idx2, ratio2 = header_row[j]
                        if idx2 - idx == 1:
                            header_dic2 = get_header(df.loc[idx2].values, self.head_rule_dic)
                            if set(df.loc[idx].values) & set(df.loc[idx2].values) != set():
                                header_dic.update(header_dic2)
                            else:
                                header_dic = header_dic2
                            range_from = idx2 + 1
                            range_to = len(df)
                            next_header = j + 1
                            idx = idx2
                        else:
                            range_from = idx + 1
                            range_to = idx2
                            next_header = j
                            break
                    i = next_header
                if len(header_dic) >= 2 and 'project_name' in header_dic:
                    for index in range(range_from, range_to):
                        if len(set(df.loc[index, :])) <= 2: # 修复 56873031 补全内容跟表头错误连接
                            continue
                        tmp_dic = {}
                        for k, v in header_dic.items():
                            if k.startswith('time_'):
                                content = timeFormat(df.loc[index, v], default_first_day=False) if k in [
                                    'time_completion'] else timeFormat(df.loc[index, v])
                            elif k in self.role_type:
                                content = get_role(df.loc[index, v], nlp_enterprise)
                            elif k == 'moneysource':
                                content = turnMoneySource(df.loc[index, v])
                            else:
                                content = df.loc[index, v]
                            if content != '':
                                tmp_dic[k] = content
                        if len(tmp_dic) > 1 and 'project_name' in tmp_dic and tmp_dic not in result_l:
                            result_l.append(tmp_dic)
        elif len(header_row) == 0 and len(header_col) >= 1:
            return result_l # 不提取列向表格，容易出错 例 53489774 作多标段
            i = 0
            while i < len(header_col):
                idx, ratio = header_col[i]
                if idx + 1 >= len(df.columns):
                    break
                header_dic = get_header(df[idx].values, self.head_rule_dic)
                i += 1
                range_from = idx + 1
                range_to = len(df.columns)
                if i < len(header_col):
                    next_header = i
                    for j in range(i, len(header_col)):
                        idx2, ratio2 = header_col[j]
                        if idx2 - idx == 1:
                            header_dic2 = get_header(df[idx2].values, self.head_rule_dic)
                            if set(df[idx].values) & set(df[idx2].values) != set():
                                header_dic.update(header_dic2)
                            else:
                                header_dic = header_dic2
                            range_from = idx2 + 1
                            range_to = len(df.columns)
                            next_header = j + 1
                            idx = idx2
                        else:
                            range_from = idx + 1
                            range_to = idx2
                            next_header = j
                            break
                    i = next_header
                if len(header_dic) >= 2 and 'project_name' in header_dic:
                    for index in range(range_from, range_to):
                        if len(set(df.loc[:, index])) <= 2:
                            continue
                        tmp_dic = {}
                        for k, v in header_dic.items():
                            if k.startswith('time_'):
                                content = timeFormat(df.loc[v, index], default_first_day=False) if k in [
                                    'time_completion'] else timeFormat(df.loc[v, index])
                            elif k in self.role_type:
                                content = get_role(df.loc[v, index], nlp_enterprise)
                            elif k == 'moneysource':
                                content = turnMoneySource(df.loc[v, index])
                            else:
                                content = df.loc[v, index]
                            if content != '':
                                tmp_dic[k] = content
                        if len(tmp_dic) > 2 and 'project_name' in tmp_dic and tmp_dic not in result_l:
                            result_l.append(tmp_dic)
        elif len(header_row) == 1 and len(header_col) == 1:
            pass
        return result_l

    def predict_table(self, html, nlp_enterprise=[]):
        html = re.sub("<html>|</html>|<body>|</body>", "", html)
        html = re.sub("##attachment##", "", html)
        soup = BeautifulSoup(html, 'lxml')
        richText = soup.find(name='div', attrs={'class': 'richTextFetch'})
        self.nlp_enterprise = nlp_enterprise
        if richText:
            richText = richText.extract()  # 过滤掉附件
        tables = soup.find_all('table')
        if len(tables) == 0 and richText:
            tables = richText.find_all('table')
        tables.reverse()
        data_list = []
        for table in tables:
            trs = self.tb.table2list(table)
            if len(trs) > 1 and len(set(trs[0])) > 0 and len(set([len(tr) for tr in trs])) == 1: # 表格两行以上且每行列数一样才处理
                df = pd.DataFrame(trs)
                rs_l = self.get_table_info(df, nlp_enterprise)
                for d in rs_l: # 53338603 项目名称+建设内容才是唯一
                    if d not in data_list:
                        data_list.append(d)
                if rs_l:
                    table.extract()
        return data_list

    def predict(self, list_sentences, list_entitys, html, nlp_enterprise=[], span=12):
        tabel_rs = self.predict_table(html, nlp_enterprise)  # 表格多项目提取
        soup = BeautifulSoup(html, 'lxml')
        texts_list = self.recursive_text(soup)
        rs_dic = {k: "" for k in
                  self.other_part.keys() | self.role_type.keys() | self.date_type.keys() | self.addr_type.keys() | self.money_type.keys() | self.person_type.keys()}
        rs_dic['moneysource'] = ""
        sentences = [it.sentence_text for it in sorted(list_sentences[0], key=lambda x: x.sentence_index)]
        entities = [[] for _ in range(len(sentences))]
        rs_l = []
        found_key = 0
        code_name_set = set() # 项目编号、名称集合
        org_set = set() # 保存可能为审批部门的角色
        not_sure_role = '' # 不确定角色， 例：单位名称：长沙驰能新能源开发有限公司眉县分公司
        for entity in list_entitys[0]:
            entities[entity.sentence_index].append(entity)

        for i in range(len(sentences)):
            multi_project = {k: "" for k in
                             self.other_part.keys() | self.role_type.keys() | self.date_type.keys() | self.addr_type.keys() | self.money_type.keys() | self.person_type.keys()}
            multi_project['moneysource'] = ''
            text = sentences[i]
            for entity in entities[i]:
                b, e = entity.wordOffset_begin, entity.wordOffset_end
                if entity.entity_type in ['org', 'company']:
                    flag = 1
                    role_l = []
                    for k, v in self.role_type.items():
                        ser = re.search(v, sentences[entity.sentence_index][max(0, b - span):b])
                        if ser:
                            role_l.append((k, ser.end()))
                    if role_l:
                        role_l = sorted(role_l, key=lambda x: x[1]) # 解决 400064746000 表格某个为空导致两个表头相近提取错误 申报单位名称：备案机关：海门经济技术开发区管理委员会，备案证号：海开审备〔2024〕346号
                        k, _ = role_l[-1]
                        if rs_dic[k] == '':
                            rs_dic[k] = entity.entity_text
                        multi_project[k] = entity.entity_text
                        found_key = 1
                        flag = 0
                        if not_sure_role == entity.entity_text:
                            not_sure_role = ''
                    elif re.search('(，|^)单位名称：', sentences[entity.sentence_index][max(0, b - span):b]):
                        not_sure_role = entity.entity_text
                    if flag and entity.entity_type == "org" and re.search('(局|委员会|委|厅)$', entity.entity_text):
                        org_set.add(entity.entity_text)
                elif entity.entity_type in ['person']:
                    for k, v in self.person_type.items():
                        if re.search(v, sentences[entity.sentence_index][max(0, b - span):b]):
                            if rs_dic[k] == '':
                                rs_dic[k] = entity.entity_text
                            multi_project[k] = entity.entity_text
                            found_key = 1
                            break
                elif entity.entity_type in ['time']:
                    time_l = []
                    for k, v in self.date_type.items():
                        ser = re.search(v, sentences[entity.sentence_index][max(0, b - span):b])
                        if ser:
                            time_l.append((k, ser.end()))
                    if time_l:
                        time_l = sorted(time_l, key=lambda x: x[1])
                        k, end = time_l[-1]
                        time = timeFormat(entity.entity_text, default_first_day=False) if k in [
                            'time_completion'] else timeFormat(entity.entity_text)
                        if time == "":
                            continue
                        if rs_dic[k] == '':
                            rs_dic[k] = time
                        multi_project[k] = time
                        found_key = 1
                elif entity.entity_type in ['location']:
                    for k, v in self.addr_type.items():
                        if re.search(v, sentences[entity.sentence_index][max(0, b - span):b]):
                            if rs_dic[k] == '':
                                rs_dic[k] = entity.entity_text
                            multi_project[k] = entity.entity_text
                            found_key = 1
                elif entity.entity_type in ['money']:
                    for k, v in self.money_type.items():
                        if re.search(v, sentences[entity.sentence_index][max(0, b - span):b]):
                            if rs_dic[k] == '':
                                rs_dic[k] = entity.entity_text
                            multi_project[k] = entity.entity_text
                            found_key = 1
                elif entity.entity_type in ['moneysource']:
                    rs_dic['moneysource'] = turnMoneySource(entity.entity_text)
                    multi_project['moneysource'] = turnMoneySource(entity.entity_text)
                elif entity.entity_type in ['code']:
                    k = 'project_code'
                    v = self.other_part[k].split('：', maxsplit=1)[0]
                    if re.search(v, sentences[entity.sentence_index][max(0, b - span):b]):
                        if rs_dic[k] == '':
                            rs_dic[k] = entity.entity_text
                        multi_project[k] = entity.entity_text
                        found_key = 1
                elif entity.entity_type in ['name']:
                    k = 'project_name'
                    v = self.other_part[k].split('：', maxsplit=1)[0]
                    if re.search(v, sentences[entity.sentence_index][max(0, b - span):b]):
                        if rs_dic[k] == '':
                            rs_dic[k] = entity.entity_text
                        multi_project[k] = entity.entity_text
                        found_key = 1
            for k, v in self.other_part.items(): # 规则提取非实体类信息
                ser = re.search(v, text)
                if ser:
                    if rs_dic[k] == '' or (k == 'project_name' and '，审批事项：' in rs_dic[k]): # 修复 54087410 项目名称包含错误
                        rs_dic[k] = ser.group('main')
                    multi_project[k] = ser.group('main')
                    found_key = 1
            for k, v in self.date_type.items(): # 规则补充时间实体
                if multi_project[k] != '':
                    continue
                ser = re.search(v+'：?(?P<main>20\d{2}-\d{1,2}(-\d{1,2})?|20\d{2}/\d{1,2}(/\d{1,2})?|20\d{2}\.\d{1,2}(\.\d{1,2})?|20\d{2}(0[1-9]|1[0-2])(0[1-9]|[1-2][0-9]|3[0-1])?)', text)
                if ser:# 规则补充实体识别不到的日期时间
                    time = timeFormat(ser.group('main'), default_first_day=False) if k in ['time_completion'] else timeFormat(ser.group('main'))
                    if time == "":
                        continue
                    if rs_dic[k] == '':
                        rs_dic[k] = time
                    multi_project[k] = time
                    found_key = 1
            for k, v in self.addr_type.items(): # 规则补充地址实体 400063690529 实体不完整 建设地点：湖北省-咸宁市-通城县 通城县大坪乡沙口村15组（通城经济开发区）
                ser = re.search(v + '：?(?P<main>(\w{1,13}(自治[区州县旗]|地区|[省市区县旗盟])[^\w]*)+|\w{2,15}[，。])',text)
                if ser:
                    if rs_dic[k] == '' or len(rs_dic[k]) < len(ser.group('main')):
                        rs_dic[k] = ser.group('main')
                    if len(multi_project[k]) < len(ser.group('main')):
                        multi_project[k] = ser.group('main')
                    found_key = 1
            for k, v in self.role_type.items(): # 规则补充公司实体
                if multi_project[k] != '':
                    continue
                ser = re.search('(%s)：(?P<main>[\w（）]{6,30}(局|发改|超市|棋牌室|店|（个体工商户）))[，。]'%self.role_type[k], text)
                if ser:
                    if rs_dic[k] == '':
                        rs_dic[k] = ser.group('main')
                    multi_project[k] = ser.group('main')

            if (multi_project['project_code'] != "" or multi_project['project_name'] != "") and multi_project['project_code']+multi_project['project_name'] not in code_name_set:
                code_name_set.add(multi_project['project_code']+multi_project['project_name'])
                if len(set([k for k,v in multi_project.items() if v!=''])-set(['project_name', 'project_code']))<2: # 除了包其他要素少于两个的不作为多包
                    continue
                district = getPredictor('district').get_area(
                    multi_project['approver'] + multi_project['project_name'] + multi_project['project_addr'], '')
                if district['district']['province'] != '全国':
                    multi_project['area'] = district['district']['area']
                    multi_project['province'] = district['district']['province']
                    multi_project['city'] = district['district']['city']
                    multi_project['district'] = district['district']['district']
                multi_project = {k: v for k, v in multi_project.items() if v != ''}
                rs_l.append(multi_project)
        if not_sure_role != '' and rs_dic.get('construct_company', '') == '' and not_sure_role not in org_set: # 补充，单位名称：这种作为建设单位 例：400069851014
            rs_dic['construct_company'] = not_sure_role
        if len(tabel_rs) > 1:
            rs_dic_key = [k for k, v in rs_dic.items() if v != '']
            keys = set(["approver", "publisher", "time_release", "phone", "doc_num"]) & set(rs_dic_key) - set(tabel_rs[0].keys())
            if keys:
                for d in tabel_rs:
                    for k in keys:
                        d[k] = rs_dic[k]
            return tabel_rs

        if len(rs_l)>1 and len(set(rs_l[0].keys()))>2 and set(rs_l[0].keys())==set(rs_l[1].keys()):
            for k in self.role_type.keys(): # 多项目无建设单位等通过整篇提取补充
                if rs_dic.get(k, '') != '' and k not in rs_l[0].get(k, '') == '':
                    for d in rs_l:
                        if d.get(k, '') == '':
                            d[k] = rs_dic[k]
            return rs_l
        if found_key == 1:
            district = getPredictor('district').get_area(
                rs_dic['approver'] + rs_dic['project_name'] + rs_dic['project_addr'], '')
            if district['district']['province'] != '全国':
                rs_dic['area'] = district['district']['area']
                rs_dic['province'] = district['district']['province']
                rs_dic['city'] = district['district']['city']
                rs_dic['district'] = district['district']['district']
            if len(org_set) == 1 and rs_dic['approver'] == "":
                rs_dic['approver'] == org_set.pop()

            n = 0
            scale_l = [] # 保存以建设规模开头的文本，如果只有一个且比原来长的替换为此文本，避免提取不完成情况
            for text in texts_list: # 补充纠正内容
                for k, v in self.other_part.items():
                    kw = v.split('：')[0]
                    if re.search('^(%s)$'%kw, text) and rs_dic[k]=='':  # 处理非表格表头内容 排列数据 例：400064764198，web_no: XM0016-5
                        if n >1  and n+2 < len(texts_list) and get_header_line(texts_list[n-2:n+3]) == [1,0,1,0,1]:
                            rs_dic[k] = texts_list[n+1]
                        elif n in [0,1] and n+2 < len(texts_list) and get_header_line(texts_list[n:n+3]) == [1,0,1]:
                            rs_dic[k] = texts_list[n + 1]
                        elif n >1  and n+2 == len(texts_list) and get_header_line(texts_list[n-2:n+2]) == [1,0,1,0]:
                            rs_dic[k] = texts_list[n + 1]
                        elif k == 'construction_scale' and re.search('^（?[一二三四五六七八九十][）、]', text) and n+1 < len(texts_list): # 大纲 例：53375037
                            rs_dic[k] = texts_list[n + 1]
                    if k == 'construction_scale' and len(rs_dic.get(k, '')) < len(text):
                        ser = re.search('^(%s)：(?P<main>.+)'%kw, text)
                        if ser:
                            rs_dic[k] = ser.group('main')

                n += 1
                if 0<len(rs_dic['construction_scale'])<len(text) and rs_dic['construction_scale'][-1] not in ['，', '。'] and text.find(rs_dic['construction_scale'])==0:
                    scale_l.append(text)
            if len(scale_l)==1 and len(scale_l[0])>len(rs_dic['construction_scale']): # 规则补充不完整规模信息 例：53334434
                rs_dic['construction_scale'] = scale_l[0]
            if 0<len(rs_dic['construction_scale'])<8 and re.search('([编代][号码]|名称|时间|日期|金额|单位|机构)$', rs_dic['construction_scale']):
                rs_dic['construction_scale'] = ''

            for k, v in rs_dic.items(): # 限制最大长度
                if len(v)>500:
                    v = v[:500]+'...后面省略%d字'%(len(v)-500)
                    rs_dic[k] = v
                if v == 'null':
                    rs_dic[k] = ''

            rs_dic = {k: v for k, v in rs_dic.items() if v != ''}
            return [rs_dic]
        return []

    def add_ree2approval(self, approval, prem):
        '''
        把招标人补充到审批项目建设单位
        :param approval:
        :param prem:
        :return:
        '''
        ree = ''
        if "Project" in prem:
            for d in prem["Project"]['roleList']:
                if d["role_name"] == "tenderee":
                    ree = d["role_text"]
                    break
        if ree != '':
            for d in approval:
                if d.get('construct_company', '') == '':
                    d['construct_company'] = ree
                else:
                    break
        return approval

    def add_codename2approval(self, approval, codeName):
        if len(approval) == 1 and codeName:  # 根据整个公告项目编号及名称补充审批信息
            if 'project_code' not in approval[0] and codeName[0].get('code', []) != []:
                approval[0]['project_code'] = codeName[0].get('code', [])[0]
            if 'project_name' not in approval[0] and codeName[0].get('name', '') != '':
                approval[0]['project_name'] = codeName[0].get('name', '')
        return approval

class BiddingScore():
    def __init__(self):
        self.head_rule_dic = {
            "tenderer": "((候选|入围|入选|投标|应答|响应)(供应商库)?的?(人|人?单位|机构|供应商|供货商|服务商|投标人|(中标)?公司|(中标)?企业|银行)|(通过)?名单|中标候选人)(名称|名单|全称|\d)?$|^供应商(名称|信息)?$|投标个人/单位", #补充 368295593 投标个人/单位 提取
            "score_price": "(价格|报价|单价|总价|经济)(部分|\w{,2})?([得评]分|评审)",
            "score_technical": "技术(部分|\w{,2})?标?([得评]分|评审)",
            "score_commercial": "商务(部分|\w{,2})?标?([得评]分|评审)",
            "score_integrity": "诚信(部分|\w{,2})?([得评]分|评审)",
            "score_comprehensive": "(综合(标|评估)?|总|最终)得?分$",
            "ranking": "(得分)?排名",
            "qualification_review": "资格性审查|是否通过资格",
            "compliance_review": "符合性审查|是否通过符合"
        }
        self.tb = TableTag2List()

    def get_table_info(self, df, nlp_enterprise):
        def get_header_index(datas):
            '''
            根据表格表头判断结果0/1 得到哪些行和列是表头
            :param datas: 表格内容表头判断结果数据[[1,1,1,1],[0,0,0,0]]
            :return: 表头所在的行和列序号
            '''
            header_row = []
            header_col = []
            df_h = pd.DataFrame(datas)  # 表头判断数据 , columns=columns
            for i in df_h.index:
                line = df_h.loc[i].values
                if sum(line) == len(line):
                    header_row.append((i, sum(line) / len(line)))
                elif sum(line) / len(line) > 0.8:
                    header_row.append((i, sum(line) / len(line)))
                elif len(line) > 3 and len(re.findall('11', ''.join([str(it) for it in line]))) > len(
                        re.findall('10', ''.join([str(it) for it in line]))):
                    header_row.append((i, sum(line) / len(line)))
            for i in df_h.columns:
                col = df_h[i].values
                if sum(col) == len(col):
                    header_col.append((i, sum(col) / len(col)))
                elif sum(col) / len(col) > 0.8:
                    header_col.append((i, sum(col) / len(col)))
                elif len(col) > 3 and len(re.findall('11', ''.join([str(it) for it in line]))) > len(
                        re.findall('10', ''.join([str(it) for it in line]))):
                    header_col.append((i, sum(col) / len(col)))
            return header_row, header_col

        def get_header(l, head_rule_dic):
            header_dic = {}
            for i in range(len(l)):
                text = l[i]
                num = 0
                tmp_dic = {}
                for k, v in head_rule_dic.items():
                    # print('k : ', k)
                    if re.search(v, text):
                        tmp_dic[k] = i
                        num += 1
                # if num > 1:
                #     if tmp_dic.keys() == set(['qualification_review', 'compliance_review']):
                #         for k, v in tmp_dic.items():
                #             if k not in header_dic:
                #                 header_dic[k] = v
                # elif tmp_dic:
                for k, v in tmp_dic.items():
                    if k not in header_dic:
                        header_dic[k] = v
            return header_dic

        def get_score(text):
            text = text.strip()
            if re.search('^\d{1,2}(\.\d{2})$', text):
                return text
            elif re.search('^\d{1,2}(\.\d{2})?[\d,，；\.]*$', text):
                return text
            return ''

        result_l = []
        datas = []
        for i in df.index:
            line = get_header_line(df.loc[i].values)
            datas.append(line)
        header_row, header_col = get_header_index(datas)
        if len(header_col) == 1 and header_col[0][0] > 1: # 列表头不可能在第1列后面开始
            header_col = []
        if len(header_row) >= 1 and len(header_col) == 0:  # 有行表头无列表头
            i = 0
            while i < len(header_row):
                idx, ratio = header_row[i]
                if idx + 1 >= len(df):
                    break
                header_dic = get_header(df.loc[idx].values, self.head_rule_dic)
                i += 1
                range_from = idx + 1
                range_to = len(df)
                if i < len(header_row):
                    next_header = i
                    for j in range(i, len(header_row)):
                        idx2, ratio2 = header_row[j]
                        if idx2 - idx == 1:
                            header_dic2 = get_header(df.loc[idx2].values, self.head_rule_dic)
                            if set(df.loc[idx].values) & set(df.loc[idx2].values) != set():
                                header_dic.update(header_dic2)
                            else:
                                header_dic = header_dic2
                            range_from = idx2 + 1
                            range_to = len(df)
                            next_header = j + 1
                            idx = idx2
                        else:
                            range_from = idx + 1
                            range_to = idx2
                            next_header = j
                            break
                    i = next_header
                if len(header_dic) >= 2 and 'tenderer' in header_dic:
                    for index in range(range_from, range_to):
                        tmp_dic = {}
                        for k, v in header_dic.items():
                            if k.startswith('score'):
                                content = get_score(df.loc[index, v])
                            elif k == 'tenderer':
                                content = get_role(df.loc[index, v], nlp_enterprise)
                            elif k == 'ranking':
                                content = df.loc[index, v] if re.search('^第?[\d一二三四五六七八九十]+名?$',df.loc[index, v]) else ''
                            else:
                                content = df.loc[index, v]
                            if content != '':
                                tmp_dic[k] = content
                        if len(tmp_dic) > 1 and 'tenderer' in tmp_dic and tmp_dic not in result_l:
                            result_l.append(tmp_dic)
        elif len(header_row) == 0 and len(header_col) >= 1:
            i = 0
            while i < len(header_col):
                idx, ratio = header_col[i]
                if idx + 1 >= len(df.columns):
                    break
                header_dic = get_header(df[idx].values, self.head_rule_dic)
                i += 1
                range_from = idx + 1
                range_to = len(df.columns)
                if i < len(header_col):
                    next_header = i
                    for j in range(i, len(header_col)):
                        idx2, ratio2 = header_col[j]
                        if idx2 - idx == 1:
                            header_dic2 = get_header(df[idx2].values, self.head_rule_dic)
                            if set(df[idx].values) & set(df[idx2].values) != set():
                                header_dic.update(header_dic2)
                            else:
                                header_dic = header_dic2
                            range_from = idx2 + 1
                            range_to = len(df.columns)
                            next_header = j + 1
                            idx = idx2
                        else:
                            range_from = idx + 1
                            range_to = idx2
                            next_header = j
                            break
                    i = next_header
                if len(header_dic.keys()&set(['tenderer','score_technical', 'score_commercial', 'score_price', 'score_comprehensive'])) >= 2 and 'tenderer' in header_dic:
                    for index in range(range_from, range_to):
                        tmp_dic = {}
                        for k, v in header_dic.items():
                            if k.startswith('score'):
                                content = get_score(df.loc[v, index])
                            elif k == 'tenderer':
                                content = get_role(df.loc[v, index], nlp_enterprise)
                            elif k == 'ranking':
                                content = df.loc[v, index] if re.search('^第?[\d一二三四五六七八九十]+名?$', df.loc[v, index]) else ''
                            else:
                                content = df.loc[v, index]
                            if content != '':
                                tmp_dic[k] = content
                        if len(tmp_dic) > 2 and 'tenderer' in tmp_dic and tmp_dic not in result_l:
                            result_l.append(tmp_dic)
        elif len(header_row) == 1 and len(header_col) == 1:
            pass
        return result_l

    def predict(self, html, nlp_enterprise=[]):
        html = re.sub("<html>|</html>|<body>|</body>", "", html)
        html = re.sub("##attachment##", "", html)
        soup = BeautifulSoup(html, 'lxml')
        richText = soup.find(name='div', attrs={'class': 'richTextFetch'})
        self.nlp_enterprise = nlp_enterprise
        if richText:
            richText = richText.extract()  # 过滤掉附件
        tables = soup.find_all('table')
        if len(tables) == 0 and richText:
            tables = richText.find_all('table')
        tables.reverse()
        rs_dic = {}
        for table in tables:
            trs = self.tb.table2list(table)
            if len(trs)>1 and len(trs[0])>1 and len(set([len(tr) for tr in trs])) == 1:
                df = pd.DataFrame(trs)
                rs_l = self.get_table_info(df, nlp_enterprise)
                for d in rs_l:
                    if d['tenderer'] not in rs_dic:
                        rs_dic[d['tenderer']] = d
                    elif len(d) > len(rs_dic[d['tenderer']]):
                        rs_dic[d['tenderer']] = d
            table.extract()
        return list(rs_dic.values())

class EntityTypeRulePredictor():
    def __init__(self):
        self.pattern_addr_bidopen = '([开评]标|开启|评选|比选|磋商|遴选|寻源|采购|招标|竞价|议价|委托|询比?价|比价|谈判|邀标|邀请|洽谈|约谈|选取|抽取|抽选)）?(会议)?地[点址区]([(（]网址[)）])?[：为]'
        self.pattern_addr_bidsend = '((\w{,4}文件)?(提交|递交)(\w{,4}文件)?|投标)地[点址区]([(（]网址[)）])?[：为]'
        self.pattern_addr_delivery = '(交货|交付|收货|提货|交接|送货(安装)?|送达|到货|供货|卸货)((期|时间)[及和、])?）?(地[点址区]?|区域)[：为]'
        self.pattern_addr_project = '(项目|施工|实施|建设|工程|服务|展示|看样|拍卖)(实施|服务|现场)?(地[点址区]|位置|所在地区?)(位于)?[：为]|项目位于|[^\w]所[属在](区域|地区?)：|存放地[点址]?[：为]' # 银行所属区域：北京市西城区 不作项目地址
        self.pattern_addr_contact = '(联系|收件人?|邮寄)地[点址区][：为]|行政区：'
        self.pattern_time_planned = '(计划|预计|预期)(招标|采购|发标|发包)时间|招标(公告|文件)(预计|预期|计划)发布时间'
        self.pattern_code_investment = '投资(审批)?项目[编代]码[：为]'
        self.pattern_addr_dic = {'addr_bidopen': self.pattern_addr_bidopen,
                                 'addr_bidsend': self.pattern_addr_bidsend,
                                 'addr_delivery': self.pattern_addr_delivery,
                                 'addr_project': self.pattern_addr_project,
                                 'addr_contact': self.pattern_addr_contact}
    def predict(self, list_entitys, list_sentences, list_articles):
        addr_dic = {}
        time_dic = {}
        code_investment = ''
        for entity in list_entitys[0]:
            if entity.entity_type == 'location':
                b = entity.wordOffset_begin
                s_index = entity.sentence_index
                sentance_text = list_sentences[0][s_index].sentence_text
                for k, v in self.pattern_addr_dic.items():
                    v = v.replace('[：为]', '')
                    if re.search(v, sentance_text[max(0, b-10): b]) and len(entity.entity_text)>2:
                        addr_dic[k] = entity.entity_text
            elif entity.entity_type == 'time':
                b = entity.wordOffset_begin
                s_index = entity.sentence_index
                sentance_text = list_sentences[0][s_index].sentence_text
                if re.search(self.pattern_time_planned, sentance_text[max(0, b-12): b]):
                    time_dic['time_planned'] = entity.entity_text
            elif entity.entity_type == 'code':
                b = entity.wordOffset_begin
                s_index = entity.sentence_index
                sentance_text = list_sentences[0][s_index].sentence_text
                if code_investment == '' and re.search(self.pattern_code_investment, sentance_text[max(0, b-12): b]):
                    code_investment = entity.entity_text

        ser1 = re.search('(%s)(?P<addr>[\w（）:\.-]{5,100})[，。]'%self.pattern_addr_bidopen, list_articles[0].content)
        ser2 = re.search('(%s)(?P<addr>[\w（）:\.-]{5,100})[，。]'%self.pattern_addr_bidsend, list_articles[0].content)
        ser3 = re.search('(%s)(?P<addr>[\w（）-]{5,100})[，。]'%self.pattern_addr_delivery, list_articles[0].content)
        ser4 = re.search('(%s)(?P<addr>[\w（）-]{5,100})[，。]'%self.pattern_addr_project, list_articles[0].content)
        ser5 = re.search('(%s)(?P<code>[\da-zA-Z（）-]{5,30})[，。]'%self.pattern_code_investment, list_articles[0].content)
        if ser1 and re.search('\w{2,5}[省市区]|\d号|\w{2,12}自治[区州县旗]|采购网|平台|公司', ser1.group('addr')) and addr_dic.get('addr_bidopen', '') in ser1.group('addr'):
            addr_dic['addr_bidopen'] = ser1.group('addr')
        if ser2 and re.search('\w{2,5}[省市区]|\d号|\w{2,12}自治[区州县旗]|采购网|平台|公司', ser2.group('addr')) and addr_dic.get('addr_bidsend', '') in ser2.group('addr'):
            addr_dic['addr_bidsend'] = ser2.group('addr')
        if ser3 and re.search('\w{2,5}[省市区]|\d号|\w{2,12}自治[区州县旗]', ser3.group('addr')) and addr_dic.get('addr_delivery', '') in ser3.group('addr'):
            addr_dic['addr_delivery'] = ser3.group('addr')
        if ser4 and re.search('\w{2,5}[省市区]|\d号|\w{2,12}自治[区州县旗]', ser4.group('addr')) and addr_dic.get('addr_project', '') in ser4.group('addr'):
            addr_dic['addr_project'] = ser4.group('addr')
        if ser5 and code_investment == '':
            code_investment = ser5.group('code')

        return addr_dic, time_dic, code_investment

def getSavedModel():
    #predictor = FormPredictor()
    graph = tf.Graph()
    with graph.as_default():
        model = tf.keras.models.load_model("../form/model/model_form.model_item.hdf5",custom_objects={"precision":precision,"recall":recall,"f1_score":f1_score})
        
        #print(tf.graph_util.remove_training_nodes(model))
        tf.saved_model.simple_save(
          tf.keras.backend.get_session(),
          "./h5_savedmodel/",
          inputs={"image": model.input},
          outputs={"scores": model.output}
        )
        
def getBiLSTMCRFModel(MAX_LEN,vocab,EMBED_DIM,BiRNN_UNITS,chunk_tags,weights):
    '''
    model = models.Sequential()
    model.add(layers.Embedding(len(vocab), EMBED_DIM, mask_zero=True))  # Random embedding
    model.add(layers.Bidirectional(layers.LSTM(BiRNN_UNITS // 2, return_sequences=True)))
    crf = CRF(len(chunk_tags), sparse_target=True)
    model.add(crf)
    model.summary()
    model.compile('adam', loss=crf.loss_function, metrics=[crf.accuracy])
    return model
    '''
    input = layers.Input(shape=(None,),dtype="int32")
    if weights is not None:
        embedding = layers.embeddings.Embedding(len(vocab),EMBED_DIM,mask_zero=True,weights=[weights],trainable=True)(input)
    else:
        embedding = layers.embeddings.Embedding(len(vocab),EMBED_DIM,mask_zero=True)(input)
    bilstm = layers.Bidirectional(layers.LSTM(BiRNN_UNITS//2,return_sequences=True))(embedding)
    bilstm_dense = layers.TimeDistributed(layers.Dense(len(chunk_tags)))(bilstm)
    crf = CRF(len(chunk_tags),sparse_target=True)
    crf_out = crf(bilstm_dense)
    model = models.Model(input=[input],output = [crf_out])
    model.summary()
    model.compile(optimizer = 'adam', loss = crf.loss_function, metrics = [crf.accuracy])
    return model


import h5py
def h5_to_graph(sess,graph,h5file):
    
    f = h5py.File(h5file,'r')   #打开h5文件 
    def getValue(v):
        _value = f["model_weights"]
        list_names = str(v.name).split("/")
        for _index in range(len(list_names)):
            print(v.name)
            if _index==1:
                _value = _value[list_names[0]]
            _value = _value[list_names[_index]]
        return _value.value
            
    def _load_attributes_from_hdf5_group(group, name):
        """Loads attributes of the specified name from the HDF5 group.
    
        This method deals with an inherent problem
        of HDF5 file which is not able to store
        data larger than HDF5_OBJECT_HEADER_LIMIT bytes.
    
        # Arguments
            group: A pointer to a HDF5 group.
            name: A name of the attributes to load.
    
        # Returns
            data: Attributes data.
        """
        if name in group.attrs:
            data = [n.decode('utf8') for n in group.attrs[name]]
        else:
            data = []
            chunk_id = 0
            while ('%s%d' % (name, chunk_id)) in group.attrs:
                data.extend([n.decode('utf8')
                            for n in group.attrs['%s%d' % (name, chunk_id)]])
                chunk_id += 1
        return data
    
    def readGroup(gr,parent_name,data):
        for subkey in gr:
            print(subkey)
            if parent_name!=subkey:
                if parent_name=="":
                    _name = subkey
                else:
                    _name = parent_name+"/"+subkey
            else:
                _name = parent_name
            if str(type(gr[subkey]))=="<class 'h5py._hl.group.Group'>":
                readGroup(gr[subkey],_name,data)
            else:
                data.append([_name,gr[subkey].value])
                print(_name,gr[subkey].shape)
                
    
    layer_names = _load_attributes_from_hdf5_group(f["model_weights"], 'layer_names')
    list_name_value = []
    readGroup(f["model_weights"], "", list_name_value)
    '''
    for k, name in enumerate(layer_names):
        g = f["model_weights"][name]
        weight_names = _load_attributes_from_hdf5_group(g, 'weight_names')
        #weight_values = [np.asarray(g[weight_name]) for weight_name in weight_names]
        for weight_name in weight_names:
            list_name_value.append([weight_name,np.asarray(g[weight_name])])
    '''
    for name_value in list_name_value:
        name = name_value[0]
        '''
        if re.search("dense",name) is not None:
            name = name[:7]+"_1"+name[7:]
        '''
        value = name_value[1]
        print(name,graph.get_tensor_by_name(name),np.shape(value))
        sess.run(tf.assign(graph.get_tensor_by_name(name),value))


def initialize_uninitialized(sess):
    global_vars          = tf.global_variables()
    is_not_initialized   = sess.run([tf.is_variable_initialized(var) for var in global_vars])
    not_initialized_vars = [v for (v, f) in zip(global_vars, is_not_initialized) if not f]
    
    adam_vars = []
    for _vars in not_initialized_vars:
        if re.search("Adam",_vars.name) is not None:
            adam_vars.append(_vars)
 
    print([str(i.name) for i in adam_vars]) # only for testing
    if len(adam_vars):
        sess.run(tf.variables_initializer(adam_vars))
    
      
def save_codename_model():
    # filepath = "../projectCode/models/model_project_"+str(60)+"_"+str(200)+".hdf5"
    filepath = "../../dl_dev/projectCode/models_tf/59-L0.471516189943-F0.8802154826344823-P0.8789179683459191-R0.8815168335321886/model.ckpt"
    vocabpath = "../projectCode/models/vocab.pk"
    classlabelspath = "../projectCode/models/classlabels.pk"
    # vocab = load(vocabpath)
    # class_labels = load(classlabelspath)
    w2v_matrix = load('codename_w2v_matrix.pk')
    graph = tf.get_default_graph()
    with graph.as_default() as g:
        ''''''
        # model = getBiLSTMCRFModel(None, vocab, 60, 200, class_labels,weights=None)
        #model = models.load_model(filepath,custom_objects={'precision':precision,'recall':recall,'f1_score':f1_score,"CRF":CRF,"loss":CRF.loss_function})
        
        sess = tf.Session(graph=g)
        # sess = tf.keras.backend.get_session()
        char_input, logits, target, keepprob, length, crf_loss, trans, train_op = BiLSTM_CRF_tfmodel(sess, w2v_matrix)
        #with sess.as_default():
        sess.run(tf.global_variables_initializer())
        # print(sess.run("time_distributed_1/kernel:0"))
        # model.load_weights(filepath)
        saver = tf.train.Saver()
        saver.restore(sess, filepath)

        # print("logits",sess.run(logits))
        
        # print("#",sess.run("time_distributed_1/kernel:0"))

        # x = load("codename_x.pk")
        #y = model.predict(x)
        # y = sess.run(model.output,feed_dict={model.input:x})
        
        # for item in np.argmax(y,-1):
        #     print(item)
        tf.saved_model.simple_save(
                                    sess,
                                    "./codename_savedmodel_tf/",
                                    inputs={"inputs": char_input,
                                            "inputs_length":length,
                                            'keepprob':keepprob},
                                    outputs={"logits": logits,
                                             "trans":trans}
        )
        
    
def save_role_model():
    '''
    @summary: 保存model为savedModel，部署到PAI平台上调用
    '''
    model_role = PREMPredict().model_role
    with model_role.graph.as_default():
        model = model_role.getModel()
        sess = tf.Session(graph=model_role.graph)
        print(type(model.input))
        
        sess.run(tf.global_variables_initializer())
        h5_to_graph(sess, model_role.graph, model_role.model_role_file)
        model = model_role.getModel()
        
        tf.saved_model.simple_save(sess,
                                   "./role_savedmodel/",
                                   inputs={"input0":model.input[0],
                                           "input1":model.input[1],
                                           "input2":model.input[2]},
                                   outputs={"outputs":model.output}
                                   )


def save_money_model():
    model_file = os.path.dirname(__file__)+"/../money/models/model_money_word.h5"
    graph = tf.Graph()
    with graph.as_default():

        sess = tf.Session(graph=graph)

        with sess.as_default():
            # model = model_money.getModel()
            # model.summary()
            # sess.run(tf.global_variables_initializer())
            # h5_to_graph(sess, model_money.graph, model_money.model_money_file)

            model = models.load_model(model_file,custom_objects={'precision':precision,'recall':recall,'f1_score':f1_score})
            model.summary()
            print(model.weights)
            tf.saved_model.simple_save(sess,
                                       "./money_savedmodel2/",
                                       inputs = {"input0":model.input[0],
                                                 "input1":model.input[1],
                                                 "input2":model.input[2]},
                                       outputs = {"outputs":model.output}
                                       )
    

def save_person_model():
    model_person = EPCPredict().model_person
    with model_person.graph.as_default():
        
        x = load("person_x.pk")
        _data = np.transpose(np.array(x),(1,0,2,3))
        model = model_person.getModel()
        
        sess = tf.Session(graph=model_person.graph)
        with sess.as_default():
            
            sess.run(tf.global_variables_initializer())
            model_person.load_weights()
        
        
        #h5_to_graph(sess, model_person.graph, model_person.model_person_file)
        
        predict_y = sess.run(model.output,feed_dict={model.input[0]:_data[0],model.input[1]:_data[1]})
        #predict_y = model.predict([_data[0],_data[1]])
        print(np.argmax(predict_y,-1))
        
        tf.saved_model.simple_save(sess,
                                   "./person_savedmodel/",
                                   inputs={"input0":model.input[0],
                                           "input1":model.input[1]},
                                   outputs = {"outputs":model.output})
    
def save_form_model():
    model_form = FormPredictor()
    with model_form.graph.as_default():
        model = model_form.getModel("item")
        sess = tf.Session(graph=model_form.graph)
        sess.run(tf.global_variables_initializer())
        h5_to_graph(sess, model_form.graph, model_form.model_file_item)
        tf.saved_model.simple_save(sess,
                                   "./form_savedmodel/",
                                   inputs={"inputs":model.input},
                                   outputs = {"outputs":model.output})
    
def save_codesplit_model():
    filepath_code = "../../dl_dev/projectCode/models/model_code.hdf5"
    
    
    graph = tf.Graph()
    with graph.as_default():
        model_code = models.load_model(filepath_code, custom_objects={'precision':precision,'recall':recall,'f1_score':f1_score})
        sess = tf.Session()
        sess.run(tf.global_variables_initializer())
        h5_to_graph(sess, graph, filepath_code)
        tf.saved_model.simple_save(sess,
                                   "./codesplit_savedmodel/",
                                   inputs={"input0":model_code.input[0],
                                           "input1":model_code.input[1],
                                           "input2":model_code.input[2]},
                                   outputs={"outputs":model_code.output})

def save_timesplit_model():
    filepath = '../time/model_label_time_classify.model.hdf5'
    with tf.Graph().as_default() as graph:
        time_model = models.load_model(filepath, custom_objects={'precision': precision, 'recall': recall, 'f1_score': f1_score})
        with tf.Session() as sess:
            sess.run(tf.global_variables_initializer())
            h5_to_graph(sess, graph, filepath)
            tf.saved_model.simple_save(sess,
                                       "./timesplit_model/",
                                       inputs={"input0":time_model.input[0],
                                               "input1":time_model.input[1]},
                                       outputs={"outputs":time_model.output})


if __name__=="__main__":
    #save_role_model()
    # save_codename_model()
    # save_money_model()
    #save_person_model()
    #save_form_model()
    #save_codesplit_model()
    # save_timesplit_model()
    '''
    # with tf.Session(graph=tf.Graph()) as sess:
    #     from tensorflow.python.saved_model import tag_constants
    #     meta_graph_def = tf.saved_model.loader.load(sess, [tag_constants.SERVING], "./person_savedModel")
    #     graph = tf.get_default_graph()
    #     signature_key = tf.saved_model.signature_constants.DEFAULT_SERVING_SIGNATURE_DEF_KEY
    #     signature = meta_graph_def.signature_def
    #     input0 = sess.graph.get_tensor_by_name(signature[signature_key].inputs["input0"].name)
    #     input1 = sess.graph.get_tensor_by_name(signature[signature_key].inputs["input1"].name)
    #     outputs = sess.graph.get_tensor_by_name(signature[signature_key].outputs["outputs"].name)
    #     x = load("person_x.pk")
    #     _data = np.transpose(x,[1,0,2,3])
    #     y = sess.run(outputs,feed_dict={input0:_data[0],input1:_data[1]})
    #     print(np.argmax(y,-1))
    '''

    # MAX_LEN = 1000
    #     # vocabpath = os.path.dirname(__file__) + "/codename_vocab.pk"
    #     # vocab = load(vocabpath)
    #     # word2index = dict((w, i) for i, w in enumerate(np.array(vocab)))
    #     # index_unk = word2index.get("<unk>")
    #     # sentence = "招标人：广州市重点公共建设项目管理中心，联系人：李工，联系方式：020-22905689，招标代理：广东重工建设监理有限公司，" \
    #     #            "代理联系人：薛家伟，代理联系方式：13535014481，招标监督机构：广州市重点公共建设项目管理中心，监督电话：020-22905690，" \
    #     #            "备注：以上为招标公告简要描述，招标公告详细信息请查看“招标公告”附件，"
    #     # sentence = sentence*5
    #     # list_sentence = [sentence]*200
    #     # # print(list_sentence)
    #     # x = [[word2index.get(word, index_unk) for word in sentence] for sentence in
    #     #      list_sentence]
    #     # x_len = [len(_x) if len(_x) < MAX_LEN else MAX_LEN for _x in x]
    #     # # print(x_len)
    #     # x = pad_sequences(x, maxlen=MAX_LEN, padding="post", truncating="post")
    #     #
    #     # requests_result = requests.post(API_URL + "/predict_codeName", json={"inouts": x.tolist(), "inouts_len": x_len},
    #     #                                 verify=True)
    #     # # predict_y = json.loads(requests_result.text)['result']
    #     # print("cost_time:", json.loads(requests_result.text)['cost_time'])
    #     # print(MAX_LEN, len(sentence), len(list_sentence))
    #     # requests_result = requests.post(API_URL + "/predict_codeName", json={"inouts": x.tolist(), "inouts_len": x_len},
    #     #                                 verify=True)
    #     # # predict_y = json.loads(requests_result.text)['result']
    #     # print("cost_time:", json.loads(requests_result.text)['cost_time'])
    #     # print(MAX_LEN, len(sentence), len(list_sentence))

    # docid = ""
    # title = ''
    # with open('d:/html/2.html', 'r', encoding='utf-8') as f:
    #     html = f.read()
    # product_attr = ProductAttributesPredictor()
    # rs = product_attr.predict(docid='', html=html, page_time="")
    # print(rs)

    docid = ""
    title = '甘肃省妇幼保健院（甘肃省中心医院）（第二期）采购结果公告'
    with open('d:/html/2.html', 'r', encoding='utf-8') as f:
        html = f.read()
    tb_extract = TablePremExtractor()
    rs = tb_extract.predict(html, [
        "江苏中联铸本混凝土有限公司",
        "鼓楼区协荣机械设备经销部"
    ], web_source_name = '', all_winner=False)
    print('标段数：',len(rs[0]))
    print(rs)
    # bdscore = BiddingScore()
    # rs = bdscore.predict(html)
    # print(type(rs), len(rs))
    # print(rs)

    # # # ids = [199601430, 195636197, 123777031, 195191849, 163533442, 121845385, 217782764, 163370956, 238134423, 191700799, 148218772, 189295942, 145940984, 166830213, 119271266, 90157660, 180314485, 136564968, 119094883, 89822506, 209263355, 132839357, 85452163, 110204324, 204773640, 83910716, 126657693, 107244197, 79107109, 47810780, 233548561, 237887867, 79134266, 77124584, 75804469, 43206978, 237560666, 67472815, 42078089, 66307082, 38382419, 224367857, 224751772, 54913238, 237390205, 60511017, 33170000, 228578442, 69042200, 228535928, 79997322, 233492018, 51828144, 219494938, 240514770]
    # # # ids = [42078089, 51828144, 54913238, 60511017, 67472815, 69042200, 75804469, 77124584, 79107109, 79997322, 83910716, 85452163, 89822506, 90157660, 107244197, 110204324, 119094883, 121845385, 123777031, 132839357, 136564968, 145940984, 148218772, 163370956, 163533442, 166830213, 180314485, 191700799, 195191849, 199601430, 204773640, 209263355, 217782764, 219494938, 224367857, 224751772, 228535928, 228578442, 233492018, 237390205, 237560666, 237887867, 238134423, 240514770]
    # # # ids = [42078089, 51828144, 60511017, 69042200, 77124584, 79107109, 79997322, 83910716, 85452163, 89822506, 107244197, 110204324, 119094883, 121845385, 123777031, 132839357, 136564968, 145940984, 148218772, 163370956, 163533442, 166830213, 180314485, 191700799, 195191849, 199601430, 204773640, 209263355, 217782764, 219494938, 224367857, 224751772, 228535928, 228578442, 233492018, 237390205, 237560666, 237887867, 238134423, 240514770]
    # # # ids = [ 224751772, 228535928, 228578442, 233492018, 237390205, 237560666, 237887867, 238134423, 240514770]
    # # # ids = [37756133, 39743626, 42068246, 51176657, 70624901, 75687028, 85489552, 95342532, 97337474, 109601526, 111464967, 112548665, 116223553, 117329696, 117850214, 120619166, 121717252, 122345499, 128511969, 133403846, 133602236, 136564970, 137772969, 138020374, 140929169, 147414295, 152659064, 155485083, 186412244, 195546784, 196135909, 202981523, 214647448, 216377830, 217957372, 218789230, 225050691, 228064464, 228590691, 236342514, 237352780, 239814252]
    # # # ids = [51176657, 70624901, 85489552, 95342532, 109601526, 111464967, 112548665, 116223553, 117329696, 117850214, 120619166, 121717252, 122345499, 128511969, 133403846, 133602236, 136564970, 137772969, 138020374, 140929169, 147414295, 152659064, 155485083, 186412244, 195546784, 196135909, 202981523, 214647448, 216377830, 217957372, 218789230, 225050691, 228064464, 228590691, 236342514, 237352780, 239814252]
    # ids = [31995310, 33586422, 34213587, 36093749, 37238528, 37739743, 39150739, 39281429, 40038908, 40289771, 40581071, 40591331, 42200293, 42739447, 42923948, 43351479, 44237678, 44506815, 44592013, 45106514, 45469037, 48411467, 51822565, 52127391, 54236264, 54706723, 54894477, 54898083, 55934378, 56104538, 56218948, 59606477, 60116927, 60638934, 61523351, 61685037, 61706106, 62187765, 62203118, 62843892, 63850238, 64139401, 65707507, 66072846, 66137391, 66738991, 67676932, 67902417, 69795866, 70868740, 71180456, 71796375, 77613620, 77641817, 77748144, 77761818, 78250390, 78606698, 78717682, 78854831, 79597122, 79597366, 79819968, 80377018, 82461832, 84018089, 84134439, 84815332, 85123470, 85123525, 85456789, 87474450, 88129399, 88288685, 88329278, 88342999, 88747517, 89632339, 89861712, 89985134, 91538446, 93323837, 94609104, 95522891, 97476802, 97629540, 98662744, 100207494, 100558146, 100755026, 101009561, 101275254, 101348782, 101462933, 101857772, 102924005, 103432276, 103459091, 104062674, 106601819, 106812124, 107065735, 107559314, 108201680, 108455612, 108544389, 108832580, 108995821, 109196083, 110726641, 110780095, 111234020, 111588327, 111656418, 111797176, 111993708, 114376859, 115869547, 117725909, 118032923, 118349683, 119080451, 119224972, 120120112, 120304657, 120830324, 122331341, 122856799, 123439110, 123641276, 123733047, 123733333, 123874242, 123918651, 124253086, 124942182, 125372140, 125464462, 125568385, 126185770, 126305386, 126512513, 126840529, 126844209, 126902118, 127254675, 127510817, 127670247, 128441465, 128498056, 129557176, 129833289, 129875792, 130121559, 130554345, 130556979, 131051006, 131142204, 131480539, 133743564, 133834740, 133984477, 134796953, 135533772, 135986763, 136777096, 137403576, 137864604, 138148591, 139840028, 139974803, 140105753, 145439181, 149105875, 150129836, 150828866, 152675649, 153688731, 155564708, 155599250, 155600699, 156728197, 161246902, 161775170, 162476194, 162914022, 162963943, 164007344, 164775490, 165339842, 175705079, 176218853, 176944891, 178251502, 178372090, 179732253, 180379187, 181626147, 184044160, 184404217, 186383436, 188468811, 192103014, 192574092, 192754157, 193358322, 195686462, 195868255, 196060419, 199113788, 201588003, 201874243, 201879319, 204796942, 205348530, 206735492, 208308899, 210310963, 210313993, 212124901, 212363133, 212389173, 213573782, 213818877, 214044075, 214989980, 215356671, 215367201, 215646443, 216212563, 216377823, 216490415, 217483041, 217486509, 218429429, 219181483, 219411056, 219971724, 220400698, 220780247, 221398716, 222545237, 223267606, 223906281, 224074580, 224383778, 224995705, 225390819, 227536610, 227829175, 227908020, 227980430, 229421942, 229862241, 230217038, 230227848, 230391553, 230592027, 233836843, 234465556, 235108306, 235217324, 235995802, 236010068, 236359727, 236419142, 236997002, 238069580, 238106585, 238534142, 238567209, 238839802, 239260141, 240214254, 240263848, 240535275, 240680028]
    # df = pd.read_csv('E:\产品单价数量/待预测数据html内容4.csv')
    # print('公告数：', len(df), len(ids))
    # df = df[df['docid'].isin(ids)]
    # ids = []
    # for docid,html in zip(df['docid'],df['dochtmlcon']):
    #     product_attr = ProductAttributesPredictor()
    #     rs, _ = product_attr.predict(docid='', html=html, page_time="")
    #     # print(docid, rs)
    #     # print(docid, rs[0]['product_attrs']['header_col'])
    #     # print('*'*20)
    #     if rs[0]['product_attrs']['header_col'] == []:
    #         ids.append(docid)
    #         print(docid, rs[0]['product_attrs']['header_col'])
    #         print('*' * 20)
    #     else:
    #         print(docid, rs[0]['product_attrs']['header_col'])
    #         print('*' * 20)
    # print(len(ids), ids)

    # role = RoleRulePredictor()
    # labels = []
    # keywords = []
    # # df = pd.read_excel('E:\实体识别数据/2023-08-24所有公告_重新预测结果.xlsx')
    # df = pd.read_excel('E:\实体识别数据/2023-08-24所有公告_重新预测结果60000-90000.xlsx')
    # columns = ['docid', 'type', 'label', 'value', 'front', 'behind',
    #            'front6', 'entity_text', 'behind6', 'front6_reverse', 'rule_label', 'keyword', 'pos']
    # print(df.columns)
    # df.fillna('', inplace=True)
    # for front, center, behind, entity_text in zip(df['front'], df['entity_text'], df['behind'], df['entity_text']):
    #     front = str(front)
    #     behind = str(behind)
    #     label, _prob, _flag, keyword = role.rule_predict(front, center, behind, entity_text)
    #     labels.append(label)
    #     keywords.append(keyword)
    # df['rule_label'] = pd.Series(labels)
    # df['keyword'] = pd.Series(keywords)
    # df['front6'] = df['front'].apply(lambda x: str(x)[-6:])
    # df['behind6'] = df['behind'].apply(lambda x: str(x)[:6])
    # df['pos'] = df.apply(lambda x: 1 if x['label']==x['rule_label'] else 0, axis=1)
    # # df.to_excel('E:\实体识别数据/2023-08-24所有公告_重新预测结果_rule_predict.xlsx', index=False, columns=columns)
    # df.to_excel('E:\实体识别数据/2023-08-24所有公告_重新预测结果60000-90000_rule_predict.xlsx', index=False, columns=columns)
    # print(get_header_line(['环评项目登记号','/','环评批文文号','金环许[2023]126号','环评批文日期']))
    # print(get_header_line(['序号', '项目名称', '建设地点', '建设单位', '环评机构', '项目概况', '主要环境影响及预防或者减轻不良环境影响的对策和措施', '建设单位或地方政府作出的相关环保承诺', '公众反馈意见的联系方式']))