ne bi da se pravim vazan, ali pokazi mi definiciju gde pise da ne bi trebalo da odvaja po svakom bajtu (btw, kako radi isto u perlu?)
ja samo znam da kada ukljuucish /u modifier, da \w prepoznaje š,đ,ć,... slova kao "word" karaktere, a slicno, \W ih ne prepoznaje.
mozda bi mogao da probash nesto sa preg_match(), ili preg_match_all(), koristeci \w i/ili \W, umesto preg_split()
sa druge stran, mozda i jeste bug..
sa trece strane, imash mb_* funkcije u php-u, ukljucujuci i regex funkcije (mada posix, a ne pcre). mb_strlen() na utf8 cirilici radi super, a pretpostavljam i mb_split() i druge regex funkcije (nisam uspeo da probam, imam stariju verziju php bez ovih f-ja)